JP2018124323A - アナウンスシステムおよび音声情報変換装置 - Google Patents

アナウンスシステムおよび音声情報変換装置 Download PDF

Info

Publication number
JP2018124323A
JP2018124323A JP2017014074A JP2017014074A JP2018124323A JP 2018124323 A JP2018124323 A JP 2018124323A JP 2017014074 A JP2017014074 A JP 2017014074A JP 2017014074 A JP2017014074 A JP 2017014074A JP 2018124323 A JP2018124323 A JP 2018124323A
Authority
JP
Japan
Prior art keywords
information
text
voice
sentence
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017014074A
Other languages
English (en)
Inventor
哲史 大山
Tetsushi Oyama
哲史 大山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2017014074A priority Critical patent/JP2018124323A/ja
Priority to PCT/JP2017/005879 priority patent/WO2018138933A1/ja
Priority to US15/818,748 priority patent/US10282423B2/en
Publication of JP2018124323A publication Critical patent/JP2018124323A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64DEQUIPMENT FOR FITTING IN OR TO AIRCRAFT; FLIGHT SUITS; PARACHUTES; ARRANGEMENT OR MOUNTING OF POWER PLANTS OR PROPULSION TRANSMISSIONS IN AIRCRAFT
    • B64D11/00Passenger or crew accommodation; Flight-deck installations not otherwise provided for
    • B64D11/0015Arrangements for entertainment or communications, e.g. radio, television
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64DEQUIPMENT FOR FITTING IN OR TO AIRCRAFT; FLIGHT SUITS; PARACHUTES; ARRANGEMENT OR MOUNTING OF POWER PLANTS OR PROPULSION TRANSMISSIONS IN AIRCRAFT
    • B64D11/00Passenger or crew accommodation; Flight-deck installations not otherwise provided for
    • B64D11/0015Arrangements for entertainment or communications, e.g. radio, television
    • B64D11/00151Permanently mounted seat back monitors
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Signal Processing (AREA)

Abstract

【課題】発話された定型アナウンスに対応する翻訳を迅速に提示できるアナウンスシステムを提供する。
【解決手段】アナウンスシステム(500)は、定型文を示す音声を入力する収音装置(115)と、入力音声に基づき定型文の翻訳を生成する変換装置(100)と、翻訳を提示する出力装置(200)とを備える。変換装置(100)は、所定文を示す第1の情報と、所定文の内容を第1の情報と異なる態様で示す第2の情報とを記憶する記憶部(104)と、定型文を示す音声情報を入力する音声入力部と、音声情報に基づきテキスト情報を生成する音声認識部(102)と、定型文全体に対する音声情報の入力完了前に、テキスト情報と第1の情報の一部に基づいて、定型文に対応する第1の情報を特定する変換処理部(102)と、特定された第1の情報に対応する第2の情報を出力装置に送信する送信部(101)とを備える。出力装置は受信した第2の情報を提示する。
【選択図】図2

Description

本開示は、入力される発話の内容が予め決まっている状況において発話された内容に対して、対応する情報を出力する音声情報変換装置(例えば、定型文のアナウンスを翻訳して出力するアナウンスシステム)に関する。
特許文献1は、翻訳精度を向上させることができる機械翻訳装置を開示する。特許文献1の機械翻訳装置は、原言語の用例と、原言語の用例を翻訳した対象言語の用例とを対応づけて記憶する用例記憶手段と、原言語による音声発話の入力を受付ける入力受付手段と、受付けられた音声発話を、原言語による任意の文字列として音声認識する第1認識手段と、受付けられた音声発話を、用例記憶手段に記憶された原言語の用例のうち最も確からしい原言語の用例として音声認識する第2認識手段と、第1認識手段の音声認識結果である第1認識結果と、第2認識手段の音声認識結果である第2認識結果との類似度を算出する算出手段と、算出した類似度が予め定められた第1閾値より大きい場合に、第2認識結果に対応する前記対象言語の用例を用例記憶手段から取得することにより翻訳を行う用例翻訳手段と、を備える。この構成によれば、複数の認識処理結果を参照して発話内容を翻訳するため、機械翻訳の翻訳精度を向上させることができる。
特許第4393494号明細書
本開示は、入力される発話の内容が予め決まっている状況(例えば、航空機内のアナウンス)において発話された内容に対して、対応する情報(例えば、翻訳)を迅速に出力できる音声情報変換装置を提供する。
本開示の第1の態様において、一の言語で発話されたアナウンスを他の言語に変換するアナウンスシステムが提供される。アナウンスシステムは、定型文を示す音声を入力する収音装置と、収音装置が入力した音声に基づき定型文の翻訳を生成する変換装置と、翻訳を示す情報を提示する出力装置と、を備える。変換装置は、所定の文の内容を示す第1の情報と、所定文の内容を第1の情報と異なる態様で示す第2の情報とを記憶する記憶部と、収音装置から定型文を示す音声情報を入力する音声入力部と、音声情報に基づきテキスト情報を生成する音声認識部と、収音装置への定型文全体に対する音声の入力の完了前に、テキスト情報と第1の情報の一部とに基づいて、定型文に対応する第1の情報を特定する変換処理部と、特定された第1の情報に対応する第2の情報を出力装置へ送信する送信部と、を備える。出力装置は、変換装置から受信した第2の情報を映像または音声で提示する。
本開示の第2の態様において、音声で入力された定型文を別の情報に変換する音声情報変換装置が提供される。音声情報変換装置は、所定の文の内容を示す第1の情報と、所定文の内容を第1の情報と異なる態様で示す第2の情報とを記憶する記憶部と、定型文を示す音声情報を入力する音声入力部と、音声情報に基づきテキスト情報を生成する音声認識部と、定型文全体に対する音声情報の入力の完了前に、テキスト情報と第1の情報の一部とに基づいて、定型文に対応する第1の情報を特定する変換処理部と、特定された第1の情報に対応する第2の情報を出力する出力部と、を備える。
本開示の第1の態様のアナウンスシステムによれば、アナウンスの発話途中でアナウンス全文を特定し、その翻訳内容を特定できるため、対象者に対して迅速にアナウンスの翻訳を提示することができる。
また、本開示の第2の態様の音声情報変換装置によれば、入力される発話の内容が予め決まっている状況において、発話途中で発話された内容全体を特定し、発話内容に対応する言語情報を迅速に出力することができる。
本開示の実施の形態における機内アナウンスシステムの構成を示す図 機内アナウンスシステムの内部構成を示すブロック図 機内アナウンスシステムの課題、効果を説明するための図 テキスト管理テーブルの構成例を示す図 実施の形態1における機内アナウンスシステムの翻訳処理(変換処理)を示すフローチャート 実施の形態2における機内アナウンスシステムの翻訳処理(変換処理)を示すフローチャート 実施の形態3における機内アナウンスシステムの翻訳処理(変換処理)を示すフローチャート 判定文字数テーブルの構成例を示す図
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、発明者(ら)は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。
(実施の形態1)
[1−1.構成]
図1は、本開示の一実施の形態である機内アナウンスシステムの構成を示す図である。機内アナウンスシステム500は、航空機内において客室乗務員が発話したアナウンス(定型文)を種々の言語に変換して乗客に提示するシステムである。なお、以下の説明では、説明の便宜上、機内アナウンスシステムは、日本語で発話されたアナウンスを英語に翻訳する場合の構成を説明する。
図1に示すように、機内アナウンスシステム500は、機内アナウンスを翻訳するサーバ100と、座席20毎に設けられ、翻訳文を表示する座席モニタ200とを含む。サーバ100と座席モニタ200はイーサネット(登録商標)であるネットワーク300に接続されている。特に、座席モニタ200は、スイッチングハブであるイーサネットスイッチ350を介してネットワーク300に接続される。
図2は、機内アナウンスシステム500の内部構成を示すブロック図である。図2に示すように、サーバ100は、その全体動作を制御するCPU102と、CPU102の作業領域として動作するメモリ103と、制御用データやプログラム等を記録するストレージ装置104と、を備える。
ストレージ装置104は、サーバ100の機能を実現するために必要なパラメータ、データ及びプログラムを記憶する記録媒体であり、例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD:Solid State Drive)、光ディスクドライブ等で構成できる。ストレージ装置104は、後述するサーバ100の機能を実現するための制御プログラムが格納している。制御プログラムは、ネットワークまたはDVD−ROM等の記録媒体を介して提供されてもよい。
メモリ103は、CPU102の作業領域として機能し、データを一時的に記憶する記憶素子であり、種々の半導体メモリで構成できる。
CPU102は、ストレージ装置104に格納された制御プログラムを実行することで所定の機能を実現する。
データサーバ50はさらに、ネットワーク300に接続するためのネットワークインタフェース101と、音声信号を入力する音声入力インタフェース105と、を含む。
音声入力インタフェース105は、音声を音声信号に変換するマイク115に接続され、マイク115からの音声信号を入力するための回路である。ネットワークインタフェース101は、IEEE802.11等の規格に準拠して無線または有線でデータ通信を行う通信モジュールである。
一方、座席モニタ200は、その全体動作を制御するCPU202と、CPU202の作業領域として動作するメモリ203と、制御用データやプログラム等を記録するストレージ装置204と、を備える。
ストレージ装置204は、座席モニタ200の機能を実現するために必要なパラメータ、データ及びプログラムを記憶する記録媒体であり、例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD:Solid State Drive)、光ディスクドライブ等で構成できる。ストレージ装置204は、後述する座席モニタ200の機能を実現するための制御プログラムを格納している。制御プログラムは、ネットワークまたはDVD−ROM等の記録媒体を介して提供されてもよい。
メモリ203は、CPU202の作業領域として機能し、データを一時的に記憶する記憶素子であり、種々の半導体メモリで構成できる。
CPU202は、ストレージ装置204に格納された制御プログラムを実行することで所定の機能を実現する。
座席モニタ200はさらに、画像やテキストを表示するディスプレイ206と、ユーザが操作を行うタッチパネル207とを備える。ディスプレイ206は液晶表示デバイスまたは有機ELデバイスで構成される。タッチパネル207は、ディスプレイ206と重畳して配置される。タッチパネル207は、ユーザによるタッチ操作(ジェスチャ操作)による入力を可能とする入力装置である。タッチパネル207の方式としては、種々の方式(静電容量方式、抵抗膜方式、赤外線方式等)を採用することができる。
座席モニタ200はさらに、音声信号を出力する音声出力インタフェース205と、ネットワークインタフェース201とを含む。音声出力インタフェース105は、ヘッドホン215やスピーカのような音声出力装置に対して音声信号を出力する。ネットワークインタフェース201は、IEEE802.11等の規格に準拠してデータ通信を行う通信モジュールである。
[1−2.動作]
以上のように構成された機内アナウンスシステム500の動作を以下説明する。
図3は、本実施の形態の機内アナウンスシステム500の課題を説明するための図である。まず、図3を参照し、本開示が解決しようとする課題について説明する。
客室乗務員による機内アナウンスの発話の終了後に、その発話に対する翻訳処理(変換処理)が実施され、その翻訳処理の終了後に、翻訳された内容が出力される。例えば、図3(B)に示すように、「間もなく離陸いたします」という機内アナウンスが時刻t0で開始され、時刻t4で終了した場合を想定する。この場合、従来の翻訳処理では、図3(C)に示すように、「間もなく離陸いたします」のアナウンスの終了した後(すなわち、時刻t4で)、翻訳処理が開始される。その後、翻訳処理が終了した時刻t5で翻訳結果”We will be leaving the gate shortly”が出力(表示または音声出力)される。このように従来の翻訳処理では、発話内容が確定した後に翻訳処理が実行され、翻訳処理の完了後に翻訳結果が出力されていた。このため、発話開始から翻訳結果が出力されるまでに時間がかかるという課題があった。本実施の形態の機内アナウンスシステム500はこのような課題を解決する。
機内アナウンスシステム500は、図3(D)に示すように、機内アナウンスの発話の途中の時点(時刻t2)でアナウンスに対する翻訳処理を開始し、翻訳文を決定する。これにより、発話開始からより早いタイミングで(図3の例では、時刻t3で)翻訳結果を出力することを可能としている。
より具体的には、機内アナウンスシステム500は、客室乗務員により発話される可能性のあるアナウンスの内容を示す第1の言語(日本語)のテキストと、それに対応する翻訳文である第2の言語(英語)のテキストとを予め登録しておく。そして、発話途中のアナウンスの内容に基づき、登録した複数の第1の言語のテキスト中から一つのテキストを特定し、その特定したテキストに対応する翻訳文(すなわち第2の言語のテキスト)を求める。
このため、機内アナウンスシステム500は、図4に示すような、翻訳元の日本語のテキストである登録テキストと、登録テキストの英訳文を示す翻訳テキストとを対応づけたテキスト管理テーブル142を保持している。テキスト管理テーブル142はサーバ100のストレージ装置104に格納されている。
テキスト管理テーブル142は、例えば、「間もなく客室乗務員が軽いお食事とお飲物をお配りいたします」という日本語の登録テキストと、”In a few minutes, the flight attendants will be passing through to offer you a beverage of your choice, as well as a light meal”という英語の翻訳テキストとを対応づけて管理する。サーバ100(CPU102)は、テキスト管理テーブル142を参照することで、日本語のテキストから、それに対応する英語のテキストを取得することができる。ここで、テキスト管理テーブル142に含まれる登録テキストは、機内アナウンスで頻繁に発話される定型文である。
図5は、機内アナウンスシステム500における翻訳処理を示すフローチャートである。図5のフローチャートを参照し、機内アナウンスシステム500による翻訳処理を説明する。本処理は主としてサーバ100のCPU102により実行される。
客室乗務員により機内アナウンスが開始されると、マイク115は客室乗務員の音声を入力し、音声信号に変換する。マイク115で変換された音声信号は音声入力インタフェース105を介してサーバ100に入力される。サーバ100のCPU102は、入力した音声信号に基づき音声認識を開始する(S10)。CPU102は、音声認識の結果として、時系列的にテキストデータを生成し、生成したテキストデータを順次メモリ103に格納する。
CPU102は、メモリ103から、音声認識結果として記憶されたテキストデータを読み出す(S11)。その際、CPU102は、データの先頭からN文字分のテキストデータをメモリ103から読み出す。ここで、Nは、音声認識結果として取得するテキストデータのサイズであり、可変な値である。本実施の形態では、Nは1ずつ増加させ、初期値は1である。
CPU102は、テキスト管理テーブル142を参照し、読み出したテキストデータが示すテキスト(以下「入力テキスト」という)と、各登録テキスト(一部)との間の類似度を計算する(S12)。すなわち、CPU102は、N文字の入力テキストと、入力テキストと同じサイズの登録テキストの部分(すなわち、先頭からN文字分の登録テキストの部分)との間の類似度を計算する。
例えば、メモリ103から読み出した入力テキストが「飛行機の」(四文字)である場合、CPU102は、入力テキストの文字列「飛行機の」と、テキスト管理テーブル142に登録されている各登録テキストの先頭から四文字分の文字列(「間もなく」、「飛行機の」、「飛行機を」、「皆様ただ」、・・・)との間の類似度を算出する。
より具体的には、CPU102は、まず、入力テキスト「飛行機の」と、第1番目の登録テキストの先頭から四文字の「間もなく」との間の類似度を計算する。次に、CPU102は、入力テキスト「飛行機の」と、第2番目の登録テキストの先頭から四文字の「間もなく」との間の類似度を計算する。次に、CPU102は、入力テキスト「飛行機の」と、第3番目の登録テキストの先頭から四文字の「飛行機の」との間の類似度を計算する。次に、CPU102は、入力テキスト「飛行機」と、第4番目の登録テキストの先頭から四文字の「飛行機を」との間の類似度を計算する。このように、CPU102はテキスト管理テーブル142に登録された全ての登録テキストについて入力テキストとの類似度を計算する。
図5に戻り、入力テキストと各登録テキストとの類似度が算出された(S12)後、CPU102は、類似度が閾値以上である登録テキストが1つだけ存在するか否かを判断する(S13)。
類似度が閾値以上である登録テキストが1つだけ存在する場合、その登録テキストが発話された機内アナウンスに対応するテキストであると特定できる。テキスト管理テーブル142で管理される登録テキストは、機内アナウンスとして発話される定型文である。このため、機内アナウンスの終了前であっても、アナウンスの一部に基づいて発話されたアナウンスに対応する登録テキストを特定することができる。
類似度が閾値以上である登録テキストが1つだけ存在する場合(S13でYES)、CPU102は、テキスト管理テーブル142を参照し、その登録テキストに対応する翻訳テキストを選択する(S14)。例えば、図4の例で、入力テキスト(「飛行機の」)との類似度が閾値以上である登録テキストとして、第3番目の登録テキストのみが存在する場合、第3番目の登録テキストに対応する翻訳テキスト(”The captain has turned on the fasten seatbelt sign in preparation for our descent.”)が選択される。
翻訳テキストの選択後、CPU102は、選択した翻訳テキストを示すデータを、ネットワーク300を経由して座席モニタ200に送信する(S15)。座席モニタ200はネットワークインタフェース201を介してサーバ100から翻訳テキストを示すデータを受信する。座席モニタ200のCPU202は受信したデータが示すテキストをディスプレイ206に表示させる。例えば、座席モニタ200において、ディスプレイ206は”The captain has turned on the fasten seatbelt sign in preparation for our descent.”のテキストを表示する。これにより、ユーザはディスプレイ206上で機内アナウンスの英語の翻訳を確認できる。なお、座席モニタ200は、翻訳テキストをディスプレイ206に表示することに加えて、または、それに代えて、翻訳テキストを示す音声をヘッドホン215のような音声出力装置から出力してもよい。
一方、類似度が閾値以上である登録テキストがない場合または複数存在する場合(S13でNO)、CPU102は、入力テキストのサイズNを1だけ増加し(S16)、メモリ103から、N文字分の入力テキストを取得する(S11)。CPU102は、新たに取得した入力テキストに対する各登録テキストの類似度を計算する(S12)。類似度が閾値以上である登録テキストが1つだけ存在するか否かを判断する(S13)。このように、本機内アナウンスシステム500によれば、類似度が閾値以上である登録テキストが1つだけ存在するようになるまで、入力テキストのサイズを一文字ずつ増やしながら、入力テキストと登録テキスト間の類似度を求める。
以上のように本実施の形態の機内アナウンスシステム500によれば、機内アナウンスの一部が登録テキストと類似すると判断した時点で機内アナウンスに対応する翻訳文が選択され、座席モニタ200に表示される。このように、機内アナウンス全文の発話の完了を待たずに翻訳文が決定されることから、より迅速に翻訳文を乗客に提示することが可能となる。
例えば、図3(C)に示すように、時刻t0で「間もなく離陸いたします」というアナウンスが開始された場合、従来では、アナウンス終了後の時刻t4で翻訳処理が開始されていた。これに対して、本実施の形態では、図3(D)に示すように、機内アナウンスの途中で、すなわち、「間もなく離」が音声認識されたタイミング(略時刻t2で)で翻訳テキストの選択が開始される。このため、翻訳結果をより早いタイミング(時刻t3)で乗客に提示することができる。
[1−3.効果等]
以上のように、本実施の形態の機内アナウンスシステム500は、一の言語(例えば、日本語)で発話されたアナウンスを他の言語(例えば、英語)に変換(翻訳)するアナウンスシステムである。機内アナウンスシステム500は、定型文を示す音声を入力するマイク115(収音装置の一例)と、マイク115が入力した音声に基づき定型文の翻訳を生成するサーバ100(変換装置の一例)と、翻訳を示す情報を提示する座席モニタ200(出力装置の一例)と、を備える。
サーバ100は、所定の文の内容を示す登録テキスト(第1の情報の一例)と、所定文の内容を登録テキストと異なる言語(異なる態様の一例)で示す翻訳テキスト(第2の情報の一例)とを記憶するストレージ装置104(記憶部の一例)と、マイク115からアナウンス(定型文の一例)を示す音声情報を入力する音声入力インタフェース105(音声入力部の一例)と、音声情報に基づき入力テキスト(テキスト情報の一例)を生成するCPU102(音声認識部の一例)と、マイク115へのアナウンス全体に対する音声の入力の完了前に、入力テキストと登録テキストの一部とに基づいて、アナウンスに対応する登録テキストを特定するCPU102(変換処理部の一例)と、特定された登録テキストに対応する翻訳テキストを座席モニタ200へ送信するネットワークインタフェース101(送信部の一例)と、を備える。座席モニタ200は、サーバ100から受信した翻訳テキストを示す情報を映像および/または音声で提示する。
上記構成によれば、マイク115への定型文全体に対する音声の入力の完了前に、入力テキストと登録テキストの一部とに基づいて、定型文に対応する登録テキストを特定する。このため、アナウンス(定型文)の発話中に翻訳文を表示することが可能となる。すなわち、アナウンスの開始から迅速に乗客に対して翻訳文を提示することができ、アナウンス内容に対する乗客の理解を助けることができる。
機内アナウンスシステム500において、登録テキストは日本語(第1の言語の一例)で表現され、翻訳テキスト(第2の情報)は英語(第2の言語の一例)で表現される。これにより、日本語アナウンスを英語に翻訳することができる。
また、CPU102は、音声認識により生成される入力テキストと、登録テキストの一部との類似度に基づきアナウンスに対応する登録テキストを特定する(S13)。テキスト間の類似度に基づくことで、発話されたアナウンスに対応する登録テキストを精度よく特定することができる。
(実施の形態2)
本開示の機内アナウンスシステム500(サーバ100のCPU102)により実行される翻訳処理の別の構成を説明する。本実施の形態において、機内アナウンスシステム500のハードウェア構成は実施の形態1のものと同様である。サーバ100のCPU102での処理が実施の形態1のものと異なる。
図6は、実施の形態2における、機内アナウンスシステム500のサーバ100のCPU102の処理を示すフローチャートである。以下、図6のフローチャートを参照して、本実施の形態の機内アナウンスシステム500(サーバ100のCPU102)による翻訳処理を説明する。
実施の形態1と同様に、客室乗務員により機内アナウンスが開始されると、音声認識が開始される(S10)。音声認識の結果を示すデータは時系列で順次メモリ103に格納される。
CPU102は、メモリ103から、音声認識結果として記憶されたテキストデータを先頭からN文字分(Nの初期値は1)だけ読み出す(S11)。
CPU102は、テキスト管理テーブル142を参照し、N文字の入力テキストと、各登録テキストの先頭からN文字分とを比較する(S12b)。
その後、CPU102は、N文字分の入力テキストとN文字分の登録テキストの内容が一致する登録テキストが1つだけ存在するか否かを判断する(S13b)。
N文字分の入力テキストとN文字分の登録テキストの内容が一致する登録テキストが1つだけ存在する場合(S13bでYES)、CPU102は、テキスト管理テーブル142を参照し、上記条件を満たす登録テキストに対応する翻訳テキストを選択する(S14b)。
CPU102は、選択した翻訳テキストを示すデータを、ネットワーク300を経由して座席モニタ200に送信する(S15)。座席モニタ200は、受信したデータが示すテキストをディスプレイ206に表示させる。
一方、N文字分の入力テキストとN文字分の登録テキストの内容が一致する登録テキストが存在しないまたは2つ以上存在する場合(S13bでNO)、CPU102は、入力テキストのサイズ(N)を1だけ増加し(S16)、メモリ103から、N文字分の入力テキストを取得し(S11)、入力テキスト(N文字)と各登録テキスト全体との間の類似度を計算する(S12b)。そして、CPU102は、N文字分のテキストの内容が一致する登録テキストが1つだけ存在するか否かを判断する(S13b)。以後、CPU102は、部分的に内容が入力テキストと一致する登録テキストが1つだけ発見されるまで、入力テキストのサイズを一文字ずつ増やしながら、上記処理(S11〜S13b、S16)を繰り返す。
本実施の形態の機内アナウンスシステム500によれば、機内アナウンスの一部が登録テキストの一部と一致する場合に、機内アナウンスに対応する翻訳文が選択され、座席モニタ200に表示される。このように、機内アナウンス全文の発話の完了を待たずに翻訳文が決定されることから、より迅速に翻訳文を乗客に提示することが可能となる。
(実施の形態3)
本開示の機内アナウンスシステム500(サーバ100のCPU102)により実行される翻訳処理のさらに別の構成を説明する。本実施の形態において、機内アナウンスシステム500のハードウェア構成は実施の形態1のものと同様である。サーバ100のCPU102での処理が実施の形態1のものと異なる。
図7は、実施の形態3における、機内アナウンスシステム500のサーバ100のCPU102の処理を示すフローチャートである。本実施の形態のフローチャートは、実施の形態1のフローチャート(図5参照)の構成において、ステップS11bが追加されている。図8は、本実施形態における翻訳処理で使用される判定文字数テーブル(管理情報の一例)の構成例を示した図である。
図4に示すテキスト管理テーブル142に登録されている複数の登録テキストは、先頭から所定数の文字列を参照することで、いずれかの登録テキストを特定することができる。すなわち、図4において下線で示された文字列を判断することで、各登録テキストを特定することができる。例えば、先頭から三文字の文字列(例えば、「間もな」、「飛行機」、「皆様た」)を判断しても、1つの登録テキストを特定することはできない。しかし、第3番目の登録テキストと第4番目の登録テキストは、先頭から四文字の文字列(例えば、「飛行機の」または「飛行機を」)を判断することで、いずれかを特定することができる。また、先頭から五文字の文字列(例えば、「間もなく客」または「間もなく陸」)を判断することで、第1番目の登録テキストと第2番目の登録テキストのいずれかを特定することができる。また、先頭から二十文字の文字列(例えば、「皆様・・・消」または「皆様・・・点」)を判断することで、第5番目の登録テキストと第6番目の登録テキストのいずれかを特定することができる。このように、先頭から所定数の文字列を判断することで、いずれの登録テキストかを特定することができる。本実施の形態では、テキスト管理テーブル142に登録されている登録テキストを特定するために必要な文字の数(以下「判定文字数」という)を図8に示す判定文字数テーブル144で管理している。判定文字数テーブル144はサーバ100のストレージ装置104に格納されている。
以下、図7のフローチャートを参照して、本実施の形態の機内アナウンスシステム500(サーバ100のCPU102)による翻訳処理を説明する。
客室乗務員により機内アナウンスが開始されると、サーバ100のCPU102は、入力した音声信号に基づき音声認識を開始する(S10)。音声認識の結果を示すテキストデータは順次メモリ103に格納される。
CPU102は、メモリ103から、音声認識結果として記憶されたテキストデータ(入力テキスト)を先頭からN文字分読み出す(S11)。
CPU102は、入力テキストの文字数が判定文字数テーブル144で管理している判定文字数に一致するか否かを判断する(S11b)。
入力テキストの文字数が判定文字数に一致する場合(S11bでYES)、CPU102は、テキスト管理テーブル142を参照し、入力テキストと、各登録テキスト(一部)との間の類似度を計算する(S12)。
一方、入力テキストの文字数が判定文字数に一致しない場合(S11bでNO)、CPU102は、入力テキストのサイズ(N)を1だけ増加し(S16)、新たに設定されたサイズ(N)で、メモリ103からテキストデータ(入力テキスト)を読み出す(S11)。
すなわち、本実施の形態では、入力したテキストの文字数が判定文字数テーブル144で管理している判定文字数に一致したときにのみ、入力テキストと各登録テキストの類似度の判定(S13)及びその後の処理(S14〜S15)を行う。これにより、無駄な類似度の判定処理が実施されないため、処理速度を向上できる。
なお、本実施の形態で示した、判定文字数と等しい入力テキストが入力されたときに、入力テキストと登録テキスト間の類似度を計算するという思想(S11b)は、実施の形態2の処理(図6のフローチャート)においても同様に適用することができる。
(他の実施の形態)
以上のように、本出願において開示する技術の例示として、実施の形態1〜3を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態1〜3で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施の形態を例示する。
上記の実施の形態における判定ステップ(S13、S13b)において、類似度が閾値以上の登録テキストが複数存在する場合、類似度が所定値以下の登録テキストについては、以後の処理から、処理対象から除外してもよい。これにより、処理対象の登録テキストの数が削減されるため、処理負荷が低減され、処理速度を向上できる。
上記の実施の形態では、日本語から英語への翻訳処理を示したが、変換元及び変換先の言語はこれらの言語に限定されない。本開示の思想は、任意の言語に対する変換処理に適用することができる。
上記の実施の形態では、一の言語(日本語)から一つの他の言語(英語)への翻訳処理を示したが、変換先の言語の数は一つに限定されない。すなわち、一の言語(例えば、日本語)から同時に複数の他の言語(例えば、英語、独語、仏語および中国語)へ翻訳するようにしてもよい。このためには、図4に示すテキスト管理テーブルにおいて、登録テキストに対応して複数の言語(例えば、英語、独語、仏語および中国語)の翻訳テキストを含めておけばよい。そして、複数の言語の翻訳テキストを管理するテキスト管理テーブルを参照して、入力テキストに基づき特定された一の登録テキストに対応する、複数の言語(例えば、英語、独語、仏語および中国語)の翻訳テキストを選択すればよい。
上記の実施の形態では、ステップS13において「類似度がしきい値以上の登録テキストがリスト中に1つだけ存在するか否か」を判定基準としたが、判定基準はこれに限定されない。この判定基準に代えて、または、それに加えて「他のテキストの類似度との差が所定値以上であること」を判定基準としてもよい。例えば、先頭5文字が全く同じで、6文字目以降が異なる場合に、6文字目ではなく(類似度間の差がまだ小さい)、さらに多くの文字数(例えば、8〜10文字程度)のテキストに基づき(類似度間の差が大きくなった時点で)同一性が判定されることになり、テキストの同一性における精度をより向上することができる。
上記の実施の形態では、航空機内のアナウンスを翻訳するシステムについて説明したが、本開示の変換処理に関する制御は、航空機内でのアナウンスシステムに限定されるものではない。本開示の変換処理に関する制御は、鉄道、船舶、バス等の輸送機関におけるアナウンスや、店舗、駅、空港等の施設におけるアナウンスのような、アナウンス内容が予め決まっている状況におけるアナウンスシステムに対して適用することができる。
また、上記の実施の形態では、音声により入力された定型文を他の言語に翻訳する翻訳処理について説明したが、本開示の思想は、翻訳処理への適用に限定されず、入力された定型の音声情報を他の情報に変換する処理を行う場合にも適用することもできる。例えば、図4に示すテキスト管理テーブル142は、翻訳テキストに代えて、各登録テキストに対応した第3の情報を格納するようにすればよい。この第3の情報は、テキスト(文字列)に限らず、映像データや音声データでもよい。これにより、定型文の発話の途中で、発話の内容に対応した登録テキストを特定でき、さらに特定した登録テキストに対応した第3の情報を決定することができる。よって、発話の途中で、発話の内容に対応した第3の情報を迅速に提示することが可能になる。すなわち、本開示は以下のような、入力した音声を他の情報に変換する音声変換装置を開示している。
音声で入力された定型文を別の情報に変換する音声変換装置であって、
所定の文の内容を示す第1の情報と、前記所定文の内容を前記第1の情報と異なる態様で示す第2の情報とを記憶する記憶部と、
定型文を示す音声情報を入力する音声入力部と、
前記音声情報に基づきテキスト情報を生成する音声認識部と、
前記定型文全体に対する音声情報の入力の完了前に、前記テキスト情報と前記第1の情報の一部とに基づいて、前記定型文に対応する第1の情報を特定する変換処理部と、
前記特定された第1の情報に対応する第2の情報を出力する出力部と、
を備える、
音声変換装置。
上記の実施形態では、サーバ100及び座席モニタ200の機能は、ハードウェア(CPU)とソフトウェアの協働により実現されたが、専用に設計されたハードウェア回路のみで実現してもよい。すなわち、CPU102、202に代えて、MPU、DSP、FPGA、ASIC等を使用してもよい。
以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
本開示の思想は、予め発話の内容が決まっている状況において、発話された内容に対応する情報を迅速に出力することができる。よって、本開示の思想は、予め発話の内容が決まっている状況において、発話された内容に対応する情報を出力する装置に広く適用でき、例えば、航空機内のアナウンスを翻訳して出力するアナウンスシステムに有用である。
20 座席
100 サーバ
101 ネットワークインタフェース
102 CPU
103 メモリ
104 ストレージ装置
105 音声入力インタフェース
200 座席モニタ
500 機内アナウンスシステム

Claims (7)

  1. 一の言語で発話されたアナウンスを他の言語に変換するアナウンスシステムであって、
    定型文を示す音声を入力する収音装置と、
    前記収音装置が入力した音声に基づき前記定型文の翻訳を生成する変換装置と、
    前記翻訳を示す情報を提示する出力装置と、を備え、
    前記変換装置は、
    所定の文の内容を示す第1の情報と、前記所定文の内容を前記第1の情報と異なる態様で示す第2の情報とを記憶する記憶部と、
    前記収音装置から定型文を示す音声情報を入力する音声入力部と、
    前記音声情報に基づきテキスト情報を生成する音声認識部と、
    前記収音装置への前記定型文全体に対する音声の入力の完了前に、前記テキスト情報と前記第1の情報の一部とに基づいて、前記定型文に対応する第1の情報を特定する変換処理部と、
    前記特定された第1の情報に対応する第2の情報を前記出力装置へ送信する送信部と、
    を備え、
    前記出力装置は、前記変換装置から受信した第2の情報を映像および/または音声で提示する、
    アナウンスシステム。
  2. 前記第1の情報は第1の言語で表現され、前記第2の情報は前記第1の言語と異なる第2の言語で表現される、請求項1記載のアナウンスシステム。
  3. 前記変換処理部は、前記音声認識部により生成されるテキスト情報と、前記第1の情報の一部との類似度に基づき前記定型文に対応する第1の情報を特定する、請求項1記載のアナウンスシステム。
  4. 前記記憶部は、前記第1の情報と前記第2の情報の組み合わせを複数記憶し、
    前記記憶部はさらに、各第1の情報を特定するために必要な文字の数を管理する管理情報を記憶し、
    前記変換処理部は、前記管理情報が管理する文字数と等しい文字数を含むテキスト情報を用いて、前記定型文に対応する第1の情報を特定する、請求項1記載のアナウンスシステム。
  5. 航空機内のアナウンスシステムである、請求項1ないし4のいずれかに記載のアナウンスシステム。
  6. 音声で入力された定型文を別の情報に変換する音声情報変換装置であって、
    所定の文の内容を示す第1の情報と、前記所定の文の内容を前記第1の情報と異なる態様で示す第2の情報とを記憶する記憶部と、
    定型文を示す音声情報を入力する音声入力部と、
    前記音声情報に基づきテキスト情報を生成する音声認識部と、
    前記定型文全体に対する音声情報の入力の完了前に、前記テキスト情報と前記第1の情報の一部とに基づいて、前記定型文に対応する第1の情報を特定する変換処理部と、
    前記特定された第1の情報に対応する第2の情報を出力する出力部と、
    を備える、
    音声情報変換装置。
  7. 前記第1の情報は第1の言語で表現され、前記第2の情報は前記第1の言語と異なる第2の言語で表現される、請求項6記載の音声情報変換装置。
JP2017014074A 2017-01-30 2017-01-30 アナウンスシステムおよび音声情報変換装置 Pending JP2018124323A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017014074A JP2018124323A (ja) 2017-01-30 2017-01-30 アナウンスシステムおよび音声情報変換装置
PCT/JP2017/005879 WO2018138933A1 (ja) 2017-01-30 2017-02-17 アナウンスシステムおよび音声情報変換装置
US15/818,748 US10282423B2 (en) 2017-01-30 2017-11-21 Announcement system and speech-information conversion apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017014074A JP2018124323A (ja) 2017-01-30 2017-01-30 アナウンスシステムおよび音声情報変換装置

Publications (1)

Publication Number Publication Date
JP2018124323A true JP2018124323A (ja) 2018-08-09

Family

ID=62979403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017014074A Pending JP2018124323A (ja) 2017-01-30 2017-01-30 アナウンスシステムおよび音声情報変換装置

Country Status (3)

Country Link
US (1) US10282423B2 (ja)
JP (1) JP2018124323A (ja)
WO (1) WO2018138933A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108496371A (zh) * 2015-12-31 2018-09-04 汤姆逊许可公司 用于禁止用户正在消费的内容的中断的方法和装置
DE102018115899A1 (de) * 2018-06-30 2020-01-02 Airbus Operations Gmbh Flugzeugsitzanordnung und Flugzeug mit einer Flugzeugsitzanordnung
DE102018115900A1 (de) * 2018-06-30 2020-01-02 Airbus Operations Gmbh Flugzeugsitz, Flugzeugsitzanordnung mit einem Flugzeugsitz und Flugzeug mit einer Flugzeugsitzanordnung

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3385146B2 (ja) 1995-06-13 2003-03-10 シャープ株式会社 会話文翻訳装置
JPH11344993A (ja) 1998-05-30 1999-12-14 Brother Ind Ltd 音声認識装置および記憶媒体
US7069222B1 (en) * 2000-06-23 2006-06-27 Brigido A Borquez Method and system for consecutive translation from a source language to a target language via a simultaneous mode
US8077877B1 (en) * 2002-01-31 2011-12-13 Mitek Corp., Inc. Courtesy announcement system and method of using
US20040044517A1 (en) * 2002-08-30 2004-03-04 Robert Palmquist Translation system
SG125908A1 (en) * 2002-12-30 2006-10-30 Singapore Airlines Ltd Multi-language communication method and system
JP2006039804A (ja) * 2004-07-26 2006-02-09 Nagoya Industrial Science Research Inst 同時翻訳用有限状態トランスデューサの作成装置、プログラム、記録媒体、作成方法、及び同時翻訳装置
JP4393494B2 (ja) 2006-09-22 2010-01-06 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP5076489B2 (ja) * 2006-12-26 2012-11-21 富士通モバイルコミュニケーションズ株式会社 情報端末および予測変換プログラム
US9373336B2 (en) 2013-02-04 2016-06-21 Tencent Technology (Shenzhen) Company Limited Method and device for audio recognition
JP5813780B2 (ja) 2013-08-02 2015-11-17 株式会社東芝 電子機器、方法及びプログラム
KR101861006B1 (ko) * 2016-08-18 2018-05-28 주식회사 하이퍼커넥트 통역 장치 및 방법
JP6945130B2 (ja) * 2016-09-13 2021-10-06 パナソニックIpマネジメント株式会社 音声提示方法、音声提示プログラム、音声提示システム及び端末装置
US9747282B1 (en) * 2016-09-27 2017-08-29 Doppler Labs, Inc. Translation with conversational overlap

Also Published As

Publication number Publication date
US20180217984A1 (en) 2018-08-02
US10282423B2 (en) 2019-05-07
WO2018138933A1 (ja) 2018-08-02

Similar Documents

Publication Publication Date Title
JP6709963B2 (ja) 翻訳装置及び翻訳方法
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
US11049493B2 (en) Spoken dialog device, spoken dialog method, and recording medium
US10896681B2 (en) Speech recognition with selective use of dynamic language models
EP4086897A2 (en) Recognizing accented speech
JP6726354B2 (ja) 訂正済みタームを使用する音響モデルトレーニング
US20200111474A1 (en) Systems and methods for generating alternate audio for a media stream
US20150179173A1 (en) Communication support apparatus, communication support method, and computer program product
EP3736807A1 (en) Apparatus for media entity pronunciation using deep learning
US20190147851A1 (en) Information processing apparatus, information processing system, information processing method, and storage medium which stores information processing program therein
WO2018138933A1 (ja) アナウンスシステムおよび音声情報変換装置
JP6869835B2 (ja) 音声認識システム、端末装置、及び辞書管理方法
US8688447B1 (en) Method and system for domain-specific noisy channel natural language processing (NLP)
US20180288109A1 (en) Conference support system, conference support method, program for conference support apparatus, and program for terminal
US20190005950A1 (en) Intention estimation device and intention estimation method
JP2018045001A (ja) 音声認識システム、情報処理装置、プログラム、音声認識方法
US11403470B2 (en) Translation device
KR20220130739A (ko) 스피치 인식
US10216732B2 (en) Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system
US20110307255A1 (en) System and Method for Conversion of Speech to Displayed Media Data
WO2018146864A1 (ja) 翻訳装置および翻訳方法
WO2018135302A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
KR101553469B1 (ko) 다언어 어휘 음성 인식 장치 및 방법
WO2021161856A1 (ja) 情報処理装置及び情報処理方法
WO2021161908A1 (ja) 情報処理装置及び情報処理方法