JP2018124323A

JP2018124323A - アナウンスシステムおよび音声情報変換装置

Info

Publication number: JP2018124323A
Application number: JP2017014074A
Authority: JP
Inventors: 哲史大山; Tetsushi Oyama
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2017-01-30
Filing date: 2017-01-30
Publication date: 2018-08-09
Also published as: US20180217984A1; US10282423B2; WO2018138933A1

Abstract

【課題】発話された定型アナウンスに対応する翻訳を迅速に提示できるアナウンスシステムを提供する。
【解決手段】アナウンスシステム（５００）は、定型文を示す音声を入力する収音装置（１１５）と、入力音声に基づき定型文の翻訳を生成する変換装置（１００）と、翻訳を提示する出力装置（２００）とを備える。変換装置（１００）は、所定文を示す第１の情報と、所定文の内容を第１の情報と異なる態様で示す第２の情報とを記憶する記憶部（１０４）と、定型文を示す音声情報を入力する音声入力部と、音声情報に基づきテキスト情報を生成する音声認識部（１０２）と、定型文全体に対する音声情報の入力完了前に、テキスト情報と第１の情報の一部に基づいて、定型文に対応する第１の情報を特定する変換処理部（１０２）と、特定された第１の情報に対応する第２の情報を出力装置に送信する送信部（１０１）とを備える。出力装置は受信した第２の情報を提示する。
【選択図】図２

Description

本開示は、入力される発話の内容が予め決まっている状況において発話された内容に対して、対応する情報を出力する音声情報変換装置（例えば、定型文のアナウンスを翻訳して出力するアナウンスシステム）に関する。

特許文献１は、翻訳精度を向上させることができる機械翻訳装置を開示する。特許文献１の機械翻訳装置は、原言語の用例と、原言語の用例を翻訳した対象言語の用例とを対応づけて記憶する用例記憶手段と、原言語による音声発話の入力を受付ける入力受付手段と、受付けられた音声発話を、原言語による任意の文字列として音声認識する第１認識手段と、受付けられた音声発話を、用例記憶手段に記憶された原言語の用例のうち最も確からしい原言語の用例として音声認識する第２認識手段と、第１認識手段の音声認識結果である第１認識結果と、第２認識手段の音声認識結果である第２認識結果との類似度を算出する算出手段と、算出した類似度が予め定められた第１閾値より大きい場合に、第２認識結果に対応する前記対象言語の用例を用例記憶手段から取得することにより翻訳を行う用例翻訳手段と、を備える。この構成によれば、複数の認識処理結果を参照して発話内容を翻訳するため、機械翻訳の翻訳精度を向上させることができる。

特許第４３９３４９４号明細書

本開示は、入力される発話の内容が予め決まっている状況（例えば、航空機内のアナウンス）において発話された内容に対して、対応する情報（例えば、翻訳）を迅速に出力できる音声情報変換装置を提供する。

本開示の第１の態様において、一の言語で発話されたアナウンスを他の言語に変換するアナウンスシステムが提供される。アナウンスシステムは、定型文を示す音声を入力する収音装置と、収音装置が入力した音声に基づき定型文の翻訳を生成する変換装置と、翻訳を示す情報を提示する出力装置と、を備える。変換装置は、所定の文の内容を示す第１の情報と、所定文の内容を第１の情報と異なる態様で示す第２の情報とを記憶する記憶部と、収音装置から定型文を示す音声情報を入力する音声入力部と、音声情報に基づきテキスト情報を生成する音声認識部と、収音装置への定型文全体に対する音声の入力の完了前に、テキスト情報と第１の情報の一部とに基づいて、定型文に対応する第１の情報を特定する変換処理部と、特定された第１の情報に対応する第２の情報を出力装置へ送信する送信部と、を備える。出力装置は、変換装置から受信した第２の情報を映像または音声で提示する。

本開示の第２の態様において、音声で入力された定型文を別の情報に変換する音声情報変換装置が提供される。音声情報変換装置は、所定の文の内容を示す第１の情報と、所定文の内容を第１の情報と異なる態様で示す第２の情報とを記憶する記憶部と、定型文を示す音声情報を入力する音声入力部と、音声情報に基づきテキスト情報を生成する音声認識部と、定型文全体に対する音声情報の入力の完了前に、テキスト情報と第１の情報の一部とに基づいて、定型文に対応する第１の情報を特定する変換処理部と、特定された第１の情報に対応する第２の情報を出力する出力部と、を備える。

本開示の第１の態様のアナウンスシステムによれば、アナウンスの発話途中でアナウンス全文を特定し、その翻訳内容を特定できるため、対象者に対して迅速にアナウンスの翻訳を提示することができる。

また、本開示の第２の態様の音声情報変換装置によれば、入力される発話の内容が予め決まっている状況において、発話途中で発話された内容全体を特定し、発話内容に対応する言語情報を迅速に出力することができる。

本開示の実施の形態における機内アナウンスシステムの構成を示す図機内アナウンスシステムの内部構成を示すブロック図機内アナウンスシステムの課題、効果を説明するための図テキスト管理テーブルの構成例を示す図実施の形態１における機内アナウンスシステムの翻訳処理（変換処理）を示すフローチャート実施の形態２における機内アナウンスシステムの翻訳処理（変換処理）を示すフローチャート実施の形態３における機内アナウンスシステムの翻訳処理（変換処理）を示すフローチャート判定文字数テーブルの構成例を示す図

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、発明者（ら）は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。

（実施の形態１）
［１−１．構成］
図１は、本開示の一実施の形態である機内アナウンスシステムの構成を示す図である。機内アナウンスシステム５００は、航空機内において客室乗務員が発話したアナウンス（定型文）を種々の言語に変換して乗客に提示するシステムである。なお、以下の説明では、説明の便宜上、機内アナウンスシステムは、日本語で発話されたアナウンスを英語に翻訳する場合の構成を説明する。

図１に示すように、機内アナウンスシステム５００は、機内アナウンスを翻訳するサーバ１００と、座席２０毎に設けられ、翻訳文を表示する座席モニタ２００とを含む。サーバ１００と座席モニタ２００はイーサネット（登録商標）であるネットワーク３００に接続されている。特に、座席モニタ２００は、スイッチングハブであるイーサネットスイッチ３５０を介してネットワーク３００に接続される。

図２は、機内アナウンスシステム５００の内部構成を示すブロック図である。図２に示すように、サーバ１００は、その全体動作を制御するＣＰＵ１０２と、ＣＰＵ１０２の作業領域として動作するメモリ１０３と、制御用データやプログラム等を記録するストレージ装置１０４と、を備える。

ストレージ装置１０４は、サーバ１００の機能を実現するために必要なパラメータ、データ及びプログラムを記憶する記録媒体であり、例えば、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ：Solid State Drive）、光ディスクドライブ等で構成できる。ストレージ装置１０４は、後述するサーバ１００の機能を実現するための制御プログラムが格納している。制御プログラムは、ネットワークまたはＤＶＤ−ＲＯＭ等の記録媒体を介して提供されてもよい。

メモリ１０３は、ＣＰＵ１０２の作業領域として機能し、データを一時的に記憶する記憶素子であり、種々の半導体メモリで構成できる。

ＣＰＵ１０２は、ストレージ装置１０４に格納された制御プログラムを実行することで所定の機能を実現する。

データサーバ５０はさらに、ネットワーク３００に接続するためのネットワークインタフェース１０１と、音声信号を入力する音声入力インタフェース１０５と、を含む。

音声入力インタフェース１０５は、音声を音声信号に変換するマイク１１５に接続され、マイク１１５からの音声信号を入力するための回路である。ネットワークインタフェース１０１は、ＩＥＥＥ８０２．１１等の規格に準拠して無線または有線でデータ通信を行う通信モジュールである。

一方、座席モニタ２００は、その全体動作を制御するＣＰＵ２０２と、ＣＰＵ２０２の作業領域として動作するメモリ２０３と、制御用データやプログラム等を記録するストレージ装置２０４と、を備える。

ストレージ装置２０４は、座席モニタ２００の機能を実現するために必要なパラメータ、データ及びプログラムを記憶する記録媒体であり、例えば、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ：Solid State Drive）、光ディスクドライブ等で構成できる。ストレージ装置２０４は、後述する座席モニタ２００の機能を実現するための制御プログラムを格納している。制御プログラムは、ネットワークまたはＤＶＤ−ＲＯＭ等の記録媒体を介して提供されてもよい。

メモリ２０３は、ＣＰＵ２０２の作業領域として機能し、データを一時的に記憶する記憶素子であり、種々の半導体メモリで構成できる。

ＣＰＵ２０２は、ストレージ装置２０４に格納された制御プログラムを実行することで所定の機能を実現する。

座席モニタ２００はさらに、画像やテキストを表示するディスプレイ２０６と、ユーザが操作を行うタッチパネル２０７とを備える。ディスプレイ２０６は液晶表示デバイスまたは有機ＥＬデバイスで構成される。タッチパネル２０７は、ディスプレイ２０６と重畳して配置される。タッチパネル２０７は、ユーザによるタッチ操作（ジェスチャ操作）による入力を可能とする入力装置である。タッチパネル２０７の方式としては、種々の方式（静電容量方式、抵抗膜方式、赤外線方式等）を採用することができる。

座席モニタ２００はさらに、音声信号を出力する音声出力インタフェース２０５と、ネットワークインタフェース２０１とを含む。音声出力インタフェース１０５は、ヘッドホン２１５やスピーカのような音声出力装置に対して音声信号を出力する。ネットワークインタフェース２０１は、ＩＥＥＥ８０２．１１等の規格に準拠してデータ通信を行う通信モジュールである。

［１−２．動作］
以上のように構成された機内アナウンスシステム５００の動作を以下説明する。

図３は、本実施の形態の機内アナウンスシステム５００の課題を説明するための図である。まず、図３を参照し、本開示が解決しようとする課題について説明する。

客室乗務員による機内アナウンスの発話の終了後に、その発話に対する翻訳処理（変換処理）が実施され、その翻訳処理の終了後に、翻訳された内容が出力される。例えば、図３（Ｂ）に示すように、「間もなく離陸いたします」という機内アナウンスが時刻ｔ０で開始され、時刻ｔ４で終了した場合を想定する。この場合、従来の翻訳処理では、図３（Ｃ）に示すように、「間もなく離陸いたします」のアナウンスの終了した後（すなわち、時刻ｔ４で）、翻訳処理が開始される。その後、翻訳処理が終了した時刻ｔ５で翻訳結果”We will be leaving the gate shortly”が出力（表示または音声出力）される。このように従来の翻訳処理では、発話内容が確定した後に翻訳処理が実行され、翻訳処理の完了後に翻訳結果が出力されていた。このため、発話開始から翻訳結果が出力されるまでに時間がかかるという課題があった。本実施の形態の機内アナウンスシステム５００はこのような課題を解決する。

機内アナウンスシステム５００は、図３（Ｄ）に示すように、機内アナウンスの発話の途中の時点（時刻ｔ２）でアナウンスに対する翻訳処理を開始し、翻訳文を決定する。これにより、発話開始からより早いタイミングで（図３の例では、時刻ｔ３で）翻訳結果を出力することを可能としている。

より具体的には、機内アナウンスシステム５００は、客室乗務員により発話される可能性のあるアナウンスの内容を示す第１の言語（日本語）のテキストと、それに対応する翻訳文である第２の言語（英語）のテキストとを予め登録しておく。そして、発話途中のアナウンスの内容に基づき、登録した複数の第１の言語のテキスト中から一つのテキストを特定し、その特定したテキストに対応する翻訳文（すなわち第２の言語のテキスト）を求める。

このため、機内アナウンスシステム５００は、図４に示すような、翻訳元の日本語のテキストである登録テキストと、登録テキストの英訳文を示す翻訳テキストとを対応づけたテキスト管理テーブル１４２を保持している。テキスト管理テーブル１４２はサーバ１００のストレージ装置１０４に格納されている。

テキスト管理テーブル１４２は、例えば、「間もなく客室乗務員が軽いお食事とお飲物をお配りいたします」という日本語の登録テキストと、”In a few minutes, the flight attendants will be passing through to offer you a beverage of your choice, as well as a light meal”という英語の翻訳テキストとを対応づけて管理する。サーバ１００（ＣＰＵ１０２）は、テキスト管理テーブル１４２を参照することで、日本語のテキストから、それに対応する英語のテキストを取得することができる。ここで、テキスト管理テーブル１４２に含まれる登録テキストは、機内アナウンスで頻繁に発話される定型文である。

図５は、機内アナウンスシステム５００における翻訳処理を示すフローチャートである。図５のフローチャートを参照し、機内アナウンスシステム５００による翻訳処理を説明する。本処理は主としてサーバ１００のＣＰＵ１０２により実行される。

客室乗務員により機内アナウンスが開始されると、マイク１１５は客室乗務員の音声を入力し、音声信号に変換する。マイク１１５で変換された音声信号は音声入力インタフェース１０５を介してサーバ１００に入力される。サーバ１００のＣＰＵ１０２は、入力した音声信号に基づき音声認識を開始する（Ｓ１０）。ＣＰＵ１０２は、音声認識の結果として、時系列的にテキストデータを生成し、生成したテキストデータを順次メモリ１０３に格納する。

ＣＰＵ１０２は、メモリ１０３から、音声認識結果として記憶されたテキストデータを読み出す（Ｓ１１）。その際、ＣＰＵ１０２は、データの先頭からＮ文字分のテキストデータをメモリ１０３から読み出す。ここで、Ｎは、音声認識結果として取得するテキストデータのサイズであり、可変な値である。本実施の形態では、Ｎは１ずつ増加させ、初期値は１である。

ＣＰＵ１０２は、テキスト管理テーブル１４２を参照し、読み出したテキストデータが示すテキスト（以下「入力テキスト」という）と、各登録テキスト（一部）との間の類似度を計算する（Ｓ１２）。すなわち、ＣＰＵ１０２は、Ｎ文字の入力テキストと、入力テキストと同じサイズの登録テキストの部分（すなわち、先頭からＮ文字分の登録テキストの部分）との間の類似度を計算する。

例えば、メモリ１０３から読み出した入力テキストが「飛行機の」（四文字）である場合、ＣＰＵ１０２は、入力テキストの文字列「飛行機の」と、テキスト管理テーブル１４２に登録されている各登録テキストの先頭から四文字分の文字列（「間もなく」、「飛行機の」、「飛行機を」、「皆様ただ」、・・・）との間の類似度を算出する。

より具体的には、ＣＰＵ１０２は、まず、入力テキスト「飛行機の」と、第１番目の登録テキストの先頭から四文字の「間もなく」との間の類似度を計算する。次に、ＣＰＵ１０２は、入力テキスト「飛行機の」と、第２番目の登録テキストの先頭から四文字の「間もなく」との間の類似度を計算する。次に、ＣＰＵ１０２は、入力テキスト「飛行機の」と、第３番目の登録テキストの先頭から四文字の「飛行機の」との間の類似度を計算する。次に、ＣＰＵ１０２は、入力テキスト「飛行機」と、第４番目の登録テキストの先頭から四文字の「飛行機を」との間の類似度を計算する。このように、ＣＰＵ１０２はテキスト管理テーブル１４２に登録された全ての登録テキストについて入力テキストとの類似度を計算する。

図５に戻り、入力テキストと各登録テキストとの類似度が算出された（Ｓ１２）後、ＣＰＵ１０２は、類似度が閾値以上である登録テキストが１つだけ存在するか否かを判断する（Ｓ１３）。

類似度が閾値以上である登録テキストが１つだけ存在する場合、その登録テキストが発話された機内アナウンスに対応するテキストであると特定できる。テキスト管理テーブル１４２で管理される登録テキストは、機内アナウンスとして発話される定型文である。このため、機内アナウンスの終了前であっても、アナウンスの一部に基づいて発話されたアナウンスに対応する登録テキストを特定することができる。

類似度が閾値以上である登録テキストが１つだけ存在する場合（Ｓ１３でＹＥＳ）、ＣＰＵ１０２は、テキスト管理テーブル１４２を参照し、その登録テキストに対応する翻訳テキストを選択する（Ｓ１４）。例えば、図４の例で、入力テキスト（「飛行機の」）との類似度が閾値以上である登録テキストとして、第３番目の登録テキストのみが存在する場合、第３番目の登録テキストに対応する翻訳テキスト（”The captain has turned on the fasten seatbelt sign in preparation for our descent.”）が選択される。

翻訳テキストの選択後、ＣＰＵ１０２は、選択した翻訳テキストを示すデータを、ネットワーク３００を経由して座席モニタ２００に送信する（Ｓ１５）。座席モニタ２００はネットワークインタフェース２０１を介してサーバ１００から翻訳テキストを示すデータを受信する。座席モニタ２００のＣＰＵ２０２は受信したデータが示すテキストをディスプレイ２０６に表示させる。例えば、座席モニタ２００において、ディスプレイ２０６は”The captain has turned on the fasten seatbelt sign in preparation for our descent.”のテキストを表示する。これにより、ユーザはディスプレイ２０６上で機内アナウンスの英語の翻訳を確認できる。なお、座席モニタ２００は、翻訳テキストをディスプレイ２０６に表示することに加えて、または、それに代えて、翻訳テキストを示す音声をヘッドホン２１５のような音声出力装置から出力してもよい。

一方、類似度が閾値以上である登録テキストがない場合または複数存在する場合（Ｓ１３でＮＯ）、ＣＰＵ１０２は、入力テキストのサイズＮを１だけ増加し（Ｓ１６）、メモリ１０３から、Ｎ文字分の入力テキストを取得する（Ｓ１１）。ＣＰＵ１０２は、新たに取得した入力テキストに対する各登録テキストの類似度を計算する（Ｓ１２）。類似度が閾値以上である登録テキストが１つだけ存在するか否かを判断する（Ｓ１３）。このように、本機内アナウンスシステム５００によれば、類似度が閾値以上である登録テキストが１つだけ存在するようになるまで、入力テキストのサイズを一文字ずつ増やしながら、入力テキストと登録テキスト間の類似度を求める。

以上のように本実施の形態の機内アナウンスシステム５００によれば、機内アナウンスの一部が登録テキストと類似すると判断した時点で機内アナウンスに対応する翻訳文が選択され、座席モニタ２００に表示される。このように、機内アナウンス全文の発話の完了を待たずに翻訳文が決定されることから、より迅速に翻訳文を乗客に提示することが可能となる。

例えば、図３（Ｃ）に示すように、時刻ｔ０で「間もなく離陸いたします」というアナウンスが開始された場合、従来では、アナウンス終了後の時刻ｔ４で翻訳処理が開始されていた。これに対して、本実施の形態では、図３（Ｄ）に示すように、機内アナウンスの途中で、すなわち、「間もなく離」が音声認識されたタイミング（略時刻ｔ２で）で翻訳テキストの選択が開始される。このため、翻訳結果をより早いタイミング（時刻ｔ３）で乗客に提示することができる。

［１−３．効果等］
以上のように、本実施の形態の機内アナウンスシステム５００は、一の言語（例えば、日本語）で発話されたアナウンスを他の言語（例えば、英語）に変換（翻訳）するアナウンスシステムである。機内アナウンスシステム５００は、定型文を示す音声を入力するマイク１１５（収音装置の一例）と、マイク１１５が入力した音声に基づき定型文の翻訳を生成するサーバ１００（変換装置の一例）と、翻訳を示す情報を提示する座席モニタ２００（出力装置の一例）と、を備える。

サーバ１００は、所定の文の内容を示す登録テキスト（第１の情報の一例）と、所定文の内容を登録テキストと異なる言語（異なる態様の一例）で示す翻訳テキスト（第２の情報の一例）とを記憶するストレージ装置１０４（記憶部の一例）と、マイク１１５からアナウンス（定型文の一例）を示す音声情報を入力する音声入力インタフェース１０５（音声入力部の一例）と、音声情報に基づき入力テキスト（テキスト情報の一例）を生成するＣＰＵ１０２（音声認識部の一例）と、マイク１１５へのアナウンス全体に対する音声の入力の完了前に、入力テキストと登録テキストの一部とに基づいて、アナウンスに対応する登録テキストを特定するＣＰＵ１０２（変換処理部の一例）と、特定された登録テキストに対応する翻訳テキストを座席モニタ２００へ送信するネットワークインタフェース１０１（送信部の一例）と、を備える。座席モニタ２００は、サーバ１００から受信した翻訳テキストを示す情報を映像および／または音声で提示する。

上記構成によれば、マイク１１５への定型文全体に対する音声の入力の完了前に、入力テキストと登録テキストの一部とに基づいて、定型文に対応する登録テキストを特定する。このため、アナウンス（定型文）の発話中に翻訳文を表示することが可能となる。すなわち、アナウンスの開始から迅速に乗客に対して翻訳文を提示することができ、アナウンス内容に対する乗客の理解を助けることができる。

機内アナウンスシステム５００において、登録テキストは日本語（第１の言語の一例）で表現され、翻訳テキスト（第２の情報）は英語（第２の言語の一例）で表現される。これにより、日本語アナウンスを英語に翻訳することができる。

また、ＣＰＵ１０２は、音声認識により生成される入力テキストと、登録テキストの一部との類似度に基づきアナウンスに対応する登録テキストを特定する（Ｓ１３）。テキスト間の類似度に基づくことで、発話されたアナウンスに対応する登録テキストを精度よく特定することができる。

（実施の形態２）
本開示の機内アナウンスシステム５００（サーバ１００のＣＰＵ１０２）により実行される翻訳処理の別の構成を説明する。本実施の形態において、機内アナウンスシステム５００のハードウェア構成は実施の形態１のものと同様である。サーバ１００のＣＰＵ１０２での処理が実施の形態１のものと異なる。

図６は、実施の形態２における、機内アナウンスシステム５００のサーバ１００のＣＰＵ１０２の処理を示すフローチャートである。以下、図６のフローチャートを参照して、本実施の形態の機内アナウンスシステム５００（サーバ１００のＣＰＵ１０２）による翻訳処理を説明する。

実施の形態１と同様に、客室乗務員により機内アナウンスが開始されると、音声認識が開始される（Ｓ１０）。音声認識の結果を示すデータは時系列で順次メモリ１０３に格納される。

ＣＰＵ１０２は、メモリ１０３から、音声認識結果として記憶されたテキストデータを先頭からＮ文字分（Ｎの初期値は１）だけ読み出す（Ｓ１１）。

ＣＰＵ１０２は、テキスト管理テーブル１４２を参照し、Ｎ文字の入力テキストと、各登録テキストの先頭からＮ文字分とを比較する（Ｓ１２ｂ）。

その後、ＣＰＵ１０２は、Ｎ文字分の入力テキストとＮ文字分の登録テキストの内容が一致する登録テキストが１つだけ存在するか否かを判断する（Ｓ１３ｂ）。

Ｎ文字分の入力テキストとＮ文字分の登録テキストの内容が一致する登録テキストが１つだけ存在する場合（Ｓ１３ｂでＹＥＳ）、ＣＰＵ１０２は、テキスト管理テーブル１４２を参照し、上記条件を満たす登録テキストに対応する翻訳テキストを選択する（Ｓ１４ｂ）。

ＣＰＵ１０２は、選択した翻訳テキストを示すデータを、ネットワーク３００を経由して座席モニタ２００に送信する（Ｓ１５）。座席モニタ２００は、受信したデータが示すテキストをディスプレイ２０６に表示させる。

一方、Ｎ文字分の入力テキストとＮ文字分の登録テキストの内容が一致する登録テキストが存在しないまたは２つ以上存在する場合（Ｓ１３ｂでＮＯ）、ＣＰＵ１０２は、入力テキストのサイズ（Ｎ）を１だけ増加し（Ｓ１６）、メモリ１０３から、Ｎ文字分の入力テキストを取得し（Ｓ１１）、入力テキスト（Ｎ文字）と各登録テキスト全体との間の類似度を計算する（Ｓ１２ｂ）。そして、ＣＰＵ１０２は、Ｎ文字分のテキストの内容が一致する登録テキストが１つだけ存在するか否かを判断する（Ｓ１３ｂ）。以後、ＣＰＵ１０２は、部分的に内容が入力テキストと一致する登録テキストが１つだけ発見されるまで、入力テキストのサイズを一文字ずつ増やしながら、上記処理（Ｓ１１〜Ｓ１３ｂ、Ｓ１６）を繰り返す。

本実施の形態の機内アナウンスシステム５００によれば、機内アナウンスの一部が登録テキストの一部と一致する場合に、機内アナウンスに対応する翻訳文が選択され、座席モニタ２００に表示される。このように、機内アナウンス全文の発話の完了を待たずに翻訳文が決定されることから、より迅速に翻訳文を乗客に提示することが可能となる。

（実施の形態３）
本開示の機内アナウンスシステム５００（サーバ１００のＣＰＵ１０２）により実行される翻訳処理のさらに別の構成を説明する。本実施の形態において、機内アナウンスシステム５００のハードウェア構成は実施の形態１のものと同様である。サーバ１００のＣＰＵ１０２での処理が実施の形態１のものと異なる。

図７は、実施の形態３における、機内アナウンスシステム５００のサーバ１００のＣＰＵ１０２の処理を示すフローチャートである。本実施の形態のフローチャートは、実施の形態１のフローチャート（図５参照）の構成において、ステップＳ１１ｂが追加されている。図８は、本実施形態における翻訳処理で使用される判定文字数テーブル（管理情報の一例）の構成例を示した図である。

図４に示すテキスト管理テーブル１４２に登録されている複数の登録テキストは、先頭から所定数の文字列を参照することで、いずれかの登録テキストを特定することができる。すなわち、図４において下線で示された文字列を判断することで、各登録テキストを特定することができる。例えば、先頭から三文字の文字列（例えば、「間もな」、「飛行機」、「皆様た」）を判断しても、１つの登録テキストを特定することはできない。しかし、第３番目の登録テキストと第４番目の登録テキストは、先頭から四文字の文字列（例えば、「飛行機の」または「飛行機を」）を判断することで、いずれかを特定することができる。また、先頭から五文字の文字列（例えば、「間もなく客」または「間もなく陸」）を判断することで、第１番目の登録テキストと第２番目の登録テキストのいずれかを特定することができる。また、先頭から二十文字の文字列（例えば、「皆様・・・消」または「皆様・・・点」）を判断することで、第５番目の登録テキストと第６番目の登録テキストのいずれかを特定することができる。このように、先頭から所定数の文字列を判断することで、いずれの登録テキストかを特定することができる。本実施の形態では、テキスト管理テーブル１４２に登録されている登録テキストを特定するために必要な文字の数（以下「判定文字数」という）を図８に示す判定文字数テーブル１４４で管理している。判定文字数テーブル１４４はサーバ１００のストレージ装置１０４に格納されている。

以下、図７のフローチャートを参照して、本実施の形態の機内アナウンスシステム５００（サーバ１００のＣＰＵ１０２）による翻訳処理を説明する。

客室乗務員により機内アナウンスが開始されると、サーバ１００のＣＰＵ１０２は、入力した音声信号に基づき音声認識を開始する（Ｓ１０）。音声認識の結果を示すテキストデータは順次メモリ１０３に格納される。

ＣＰＵ１０２は、メモリ１０３から、音声認識結果として記憶されたテキストデータ（入力テキスト）を先頭からＮ文字分読み出す（Ｓ１１）。

ＣＰＵ１０２は、入力テキストの文字数が判定文字数テーブル１４４で管理している判定文字数に一致するか否かを判断する（Ｓ１１ｂ）。

入力テキストの文字数が判定文字数に一致する場合（Ｓ１１ｂでＹＥＳ）、ＣＰＵ１０２は、テキスト管理テーブル１４２を参照し、入力テキストと、各登録テキスト（一部）との間の類似度を計算する（Ｓ１２）。

一方、入力テキストの文字数が判定文字数に一致しない場合（Ｓ１１ｂでＮＯ）、ＣＰＵ１０２は、入力テキストのサイズ（Ｎ）を１だけ増加し（Ｓ１６）、新たに設定されたサイズ（Ｎ）で、メモリ１０３からテキストデータ（入力テキスト）を読み出す（Ｓ１１）。

すなわち、本実施の形態では、入力したテキストの文字数が判定文字数テーブル１４４で管理している判定文字数に一致したときにのみ、入力テキストと各登録テキストの類似度の判定（Ｓ１３）及びその後の処理（Ｓ１４〜Ｓ１５）を行う。これにより、無駄な類似度の判定処理が実施されないため、処理速度を向上できる。

なお、本実施の形態で示した、判定文字数と等しい入力テキストが入力されたときに、入力テキストと登録テキスト間の類似度を計算するという思想（Ｓ１１ｂ）は、実施の形態２の処理（図６のフローチャート）においても同様に適用することができる。

（他の実施の形態）
以上のように、本出願において開示する技術の例示として、実施の形態１〜３を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態１〜３で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施の形態を例示する。

上記の実施の形態における判定ステップ（Ｓ１３、Ｓ１３ｂ）において、類似度が閾値以上の登録テキストが複数存在する場合、類似度が所定値以下の登録テキストについては、以後の処理から、処理対象から除外してもよい。これにより、処理対象の登録テキストの数が削減されるため、処理負荷が低減され、処理速度を向上できる。

上記の実施の形態では、日本語から英語への翻訳処理を示したが、変換元及び変換先の言語はこれらの言語に限定されない。本開示の思想は、任意の言語に対する変換処理に適用することができる。

上記の実施の形態では、一の言語（日本語）から一つの他の言語（英語）への翻訳処理を示したが、変換先の言語の数は一つに限定されない。すなわち、一の言語（例えば、日本語）から同時に複数の他の言語（例えば、英語、独語、仏語および中国語）へ翻訳するようにしてもよい。このためには、図４に示すテキスト管理テーブルにおいて、登録テキストに対応して複数の言語（例えば、英語、独語、仏語および中国語）の翻訳テキストを含めておけばよい。そして、複数の言語の翻訳テキストを管理するテキスト管理テーブルを参照して、入力テキストに基づき特定された一の登録テキストに対応する、複数の言語（例えば、英語、独語、仏語および中国語）の翻訳テキストを選択すればよい。

上記の実施の形態では、ステップＳ１３において「類似度がしきい値以上の登録テキストがリスト中に1つだけ存在するか否か」を判定基準としたが、判定基準はこれに限定されない。この判定基準に代えて、または、それに加えて「他のテキストの類似度との差が所定値以上であること」を判定基準としてもよい。例えば、先頭５文字が全く同じで、６文字目以降が異なる場合に、６文字目ではなく（類似度間の差がまだ小さい）、さらに多くの文字数（例えば、８〜１０文字程度）のテキストに基づき（類似度間の差が大きくなった時点で）同一性が判定されることになり、テキストの同一性における精度をより向上することができる。

上記の実施の形態では、航空機内のアナウンスを翻訳するシステムについて説明したが、本開示の変換処理に関する制御は、航空機内でのアナウンスシステムに限定されるものではない。本開示の変換処理に関する制御は、鉄道、船舶、バス等の輸送機関におけるアナウンスや、店舗、駅、空港等の施設におけるアナウンスのような、アナウンス内容が予め決まっている状況におけるアナウンスシステムに対して適用することができる。

また、上記の実施の形態では、音声により入力された定型文を他の言語に翻訳する翻訳処理について説明したが、本開示の思想は、翻訳処理への適用に限定されず、入力された定型の音声情報を他の情報に変換する処理を行う場合にも適用することもできる。例えば、図４に示すテキスト管理テーブル１４２は、翻訳テキストに代えて、各登録テキストに対応した第３の情報を格納するようにすればよい。この第３の情報は、テキスト（文字列）に限らず、映像データや音声データでもよい。これにより、定型文の発話の途中で、発話の内容に対応した登録テキストを特定でき、さらに特定した登録テキストに対応した第３の情報を決定することができる。よって、発話の途中で、発話の内容に対応した第３の情報を迅速に提示することが可能になる。すなわち、本開示は以下のような、入力した音声を他の情報に変換する音声変換装置を開示している。

音声で入力された定型文を別の情報に変換する音声変換装置であって、
所定の文の内容を示す第１の情報と、前記所定文の内容を前記第１の情報と異なる態様で示す第２の情報とを記憶する記憶部と、
定型文を示す音声情報を入力する音声入力部と、
前記音声情報に基づきテキスト情報を生成する音声認識部と、
前記定型文全体に対する音声情報の入力の完了前に、前記テキスト情報と前記第１の情報の一部とに基づいて、前記定型文に対応する第１の情報を特定する変換処理部と、
前記特定された第１の情報に対応する第２の情報を出力する出力部と、
を備える、
音声変換装置。

上記の実施形態では、サーバ１００及び座席モニタ２００の機能は、ハードウェア（ＣＰＵ）とソフトウェアの協働により実現されたが、専用に設計されたハードウェア回路のみで実現してもよい。すなわち、ＣＰＵ１０２、２０２に代えて、ＭＰＵ、ＤＳＰ、ＦＰＧＡ、ＡＳＩＣ等を使用してもよい。

以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

本開示の思想は、予め発話の内容が決まっている状況において、発話された内容に対応する情報を迅速に出力することができる。よって、本開示の思想は、予め発話の内容が決まっている状況において、発話された内容に対応する情報を出力する装置に広く適用でき、例えば、航空機内のアナウンスを翻訳して出力するアナウンスシステムに有用である。

２０座席
１００サーバ
１０１ネットワークインタフェース
１０２ＣＰＵ
１０３メモリ
１０４ストレージ装置
１０５音声入力インタフェース
２００座席モニタ
５００機内アナウンスシステム

Claims

一の言語で発話されたアナウンスを他の言語に変換するアナウンスシステムであって、
定型文を示す音声を入力する収音装置と、
前記収音装置が入力した音声に基づき前記定型文の翻訳を生成する変換装置と、
前記翻訳を示す情報を提示する出力装置と、を備え、
前記変換装置は、
所定の文の内容を示す第１の情報と、前記所定文の内容を前記第１の情報と異なる態様で示す第２の情報とを記憶する記憶部と、
前記収音装置から定型文を示す音声情報を入力する音声入力部と、
前記音声情報に基づきテキスト情報を生成する音声認識部と、
前記収音装置への前記定型文全体に対する音声の入力の完了前に、前記テキスト情報と前記第１の情報の一部とに基づいて、前記定型文に対応する第１の情報を特定する変換処理部と、
前記特定された第１の情報に対応する第２の情報を前記出力装置へ送信する送信部と、
を備え、
前記出力装置は、前記変換装置から受信した第２の情報を映像および／または音声で提示する、
アナウンスシステム。
前記第１の情報は第１の言語で表現され、前記第２の情報は前記第１の言語と異なる第２の言語で表現される、請求項１記載のアナウンスシステム。
前記変換処理部は、前記音声認識部により生成されるテキスト情報と、前記第１の情報の一部との類似度に基づき前記定型文に対応する第１の情報を特定する、請求項１記載のアナウンスシステム。
前記記憶部は、前記第１の情報と前記第２の情報の組み合わせを複数記憶し、
前記記憶部はさらに、各第１の情報を特定するために必要な文字の数を管理する管理情報を記憶し、
前記変換処理部は、前記管理情報が管理する文字数と等しい文字数を含むテキスト情報を用いて、前記定型文に対応する第１の情報を特定する、請求項１記載のアナウンスシステム。
航空機内のアナウンスシステムである、請求項１ないし４のいずれかに記載のアナウンスシステム。
音声で入力された定型文を別の情報に変換する音声情報変換装置であって、
所定の文の内容を示す第１の情報と、前記所定の文の内容を前記第１の情報と異なる態様で示す第２の情報とを記憶する記憶部と、
定型文を示す音声情報を入力する音声入力部と、
前記音声情報に基づきテキスト情報を生成する音声認識部と、
前記定型文全体に対する音声情報の入力の完了前に、前記テキスト情報と前記第１の情報の一部とに基づいて、前記定型文に対応する第１の情報を特定する変換処理部と、
前記特定された第１の情報に対応する第２の情報を出力する出力部と、
を備える、
音声情報変換装置。
前記第１の情報は第１の言語で表現され、前記第２の情報は前記第１の言語と異なる第２の言語で表現される、請求項６記載の音声情報変換装置。