JP6174746B1 - Speech translation device, speech translation method, and speech translation program - Google Patents
Speech translation device, speech translation method, and speech translation program Download PDFInfo
- Publication number
- JP6174746B1 JP6174746B1 JP2016066152A JP2016066152A JP6174746B1 JP 6174746 B1 JP6174746 B1 JP 6174746B1 JP 2016066152 A JP2016066152 A JP 2016066152A JP 2016066152 A JP2016066152 A JP 2016066152A JP 6174746 B1 JP6174746 B1 JP 6174746B1
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- group
- display
- specific
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】外国人に対する接客時の会話を自然にかつ円滑に進め、接客の最適化を図る。【解決手段】本発明の一態様による音声翻訳装置は、ユーザ等の音声を入力するための入力部、入力音声の内容を異なる言語の内容に翻訳する翻訳部、入力音声の翻訳内容を音声等で出力する出力部、少なくとも1つの上位フレーズを含む上位フレーズ群、及び、各上位フレーズに関連付けられた少なくとも1つの下位フレーズを含む複数の下位フレーズ群を階層的に記憶する記憶部、及び、上位フレーズ群を表示し、上位フレーズのなかから特定のフレーズが選択されたときに、それに関連付けられた下位フレーズを含む下位フレーズ群を表示する処理を、階層的に順次実行する表示部を備える。【選択図】図3The present invention aims to optimize customer service by naturally and smoothly proceeding with customer service conversations with foreigners. A speech translation apparatus according to an aspect of the present invention includes an input unit for inputting speech of a user or the like, a translation unit for translating the content of the input speech into content of a different language, the translation content of the input speech as speech, etc. An output unit that outputs in the above, a high-level phrase group including at least one high-level phrase, and a storage unit that hierarchically stores a plurality of low-level phrase groups including at least one low-level phrase associated with each high-level phrase, and a high-level A display unit is provided that displays a group of phrases and sequentially executes a process of displaying a group of lower phrases including a lower phrase associated therewith when a specific phrase is selected from the upper phrases. [Selection] Figure 3
Description
本発明は、音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムに関する。 The present invention relates to a speech translation device, a speech translation method, and a speech translation program.
互いの言語を理解できない人同士の会話、例えば店舗の店員と外国人客との会話を可能ならしめるべく、話者の発話音声をテキスト化し、そのテキストの内容を相手の言語に機械翻訳した上で画面に表示したり、或いは、音声合成技術を用いてそのテキストの内容を音声再生したりする音声翻訳技術が提案されている(例えば特許文献1)。また、かかる音声翻訳技術を具現化したスマートフォン等の情報端末で動作する音声翻訳アプリケーションも実用化されている(例えば非特許文献1)。さらに、ユーザが会話を行いたいシチュエーションを選択することにより、目的別の会話パターンがリスト表示される翻訳アプリケーションも知られている(例えば非特許文献2)。 In order to enable conversations between people who do not understand each other's language, for example, conversations between store clerk and foreign customers, the speaker's speech is converted into text and the text content is machine-translated into the partner's language. A speech translation technique has been proposed in which the text is displayed on the screen or the text content is played back using a speech synthesis technique (for example, Patent Document 1). A speech translation application that operates on an information terminal such as a smartphone that embodies such speech translation technology has also been put into practical use (for example, Non-Patent Document 1). Furthermore, there is also known a translation application in which a conversation pattern for each purpose is displayed in a list by selecting a situation in which the user wants to have a conversation (for example, Non-Patent Document 2).
ところで、例えば非特許文献2に記載された翻訳アプリケーションでは、目的別の会話パターンとして、複数の質問文と各質問文に対する複数の回答文の両方が、一画面に列記されて表示される。発話者は、それらの例文のなかから所望のものを選択することとなるが、そうすると、単に1つの例文を選んで発話するだけなので、会話は単発的なものとなってしまう。また、そのように例文が一画面に列記されていると、それらの例文のなかから所望のものを選択するために、その都度画面をスクロールして検索する必要がある。その結果、例えば接客時において、一連の会話を自然にかつ円滑に行うことができず、それに起因して、適切な接客を行い難いといった不都合がある。
By the way, in the translation application described in
そこで、本発明は、かかる事情に鑑みてなされたものであり、接客時のユーザと対話者(外国人客)の会話を自然にかつ円滑に進めることができ、これにより、接客の最適化に資することができる音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムを提供することを目的とする。 Therefore, the present invention has been made in view of such circumstances, and can naturally and smoothly advance conversation between a user and a talker (foreign customer) during customer service, thereby optimizing customer service. It is an object to provide a speech translation device, a speech translation method, and a speech translation program that can contribute.
上記課題を解決するため、本発明の一態様による音声翻訳装置は、ユーザ及び/又は対話者の音声を入力するための入力部、入力音声の内容を異なる言語の内容に翻訳する翻訳部、及び、入力音声の翻訳内容(対訳)を音声及び/又はテキストで出力する出力部を備える。そして、当該音声翻訳装置は、少なくとも1つの上位フレーズを含む上位フレーズ群、及び、各上位フレーズに関連付けられた少なくとも1つの下位フレーズを含む複数の下位フレーズ群を階層的に記憶する記憶部と、上位フレーズ群を表示し、上位フレーズのなかから特定のフレーズが選択されたときに、その特定のフレーズに関連付けられた下位フレーズ群を表示する処理を、階層的に順次実行する表示部とを更に備える。なお、「フレーズ」には、文、節、句、語、及び数字が含まれ、また、それらに付随して画像又は記号が含まれていてもよい。また、換言すれば、本発明の一態様による音声翻訳装置は、かかる複数のフレーズ群の言わば樹形図を用意しておき、それらの階層的な表示とフレーズの選択を順次(繰り返して)実行するフロー処理を提供する。 In order to solve the above problems, a speech translation apparatus according to an aspect of the present invention includes an input unit for inputting a voice of a user and / or a dialoguer, a translation unit for translating the content of the input speech into content of a different language, and And an output unit that outputs the translation content (translation) of the input speech as speech and / or text. And the said speech translation apparatus WHEREIN: The memory | storage part which memorize | stores hierarchically the high-order phrase group containing at least 1 high-order phrase, and the several low-order phrase group containing the at least 1 low-order phrase linked | related with each high-order phrase, A display unit that displays the upper phrase group, and when the specific phrase is selected from the upper phrase, the process of displaying the lower phrase group associated with the specific phrase in a hierarchical manner. Prepare. The “phrase” includes sentences, clauses, phrases, words, and numbers, and may include images or symbols accompanying them. In other words, the speech translation apparatus according to an aspect of the present invention prepares a so-called tree diagram of the plurality of phrase groups, and sequentially (repetitively) executes hierarchical display and phrase selection thereof. Provide the flow processing.
より具体的には、表示部が、上位フレーズ群及び下位フレーズ群を、それぞれ別画面として表示するように構成しても好適である。 More specifically, the display unit may be configured to display the upper phrase group and the lower phrase group as separate screens.
また、表示部は、上位フレーズとして特定の質問事項が含まれており、その特定の質問事項が選択されたときに、その特定の質問事項への回答を入力するための画面を表示してもよい。 In addition, the display unit includes a specific question as an upper phrase, and when the specific question is selected, the display unit displays a screen for inputting an answer to the specific question. Good.
また、上位フレーズ及び下位フレーズは、ユーザが属する業種毎又はユーザの店舗毎に、自動又は手動で予め設定されたものであってもよい。 Further, the upper phrase and the lower phrase may be automatically or manually set in advance for each type of business to which the user belongs or for each store of the user.
さらに、記憶部が、各上位フレーズ及び各下位フレーズの選択回数を記憶し、表示部は、選択回数がより多い上位フレーズを上位フレーズ群の表示画面においてより高い順位に表示し、かつ、選択回数がより多い下位フレーズを下位フレーズ群の表示画面においてより高い順位に表示するようにしてもよい。 Further, the storage unit stores the number of selections of each upper phrase and each lower phrase, and the display unit displays the higher phrase having a higher number of selections in a higher order on the display screen of the upper phrase group, and the number of selections. The lower phrase having more may be displayed in a higher order on the display screen of the lower phrase group.
またさらに、特定のフレーズが注文の問い合わせであり、その特定のフレーズに関連付けられた下位フレーズを含む下位フレーズ群が複数の注文品のリストである場合、記憶部が、各注文品の選択回数、又は、各注文品の利益率を記憶し、表示部は、選択回数がより多い注文品、又は、利益率がより高い注文品を下位フレーズ群の表示画面においてより高い順位に表示することもできる。 Furthermore, if the specific phrase is an order inquiry and the sub-phrase group including the sub-phrase associated with the specific phrase is a list of a plurality of order items, the storage unit selects the number of times each order item is selected, Alternatively, the profit ratio of each ordered item is stored, and the display unit can display an ordered item having a higher number of selections or an ordered item having a higher profit rate in a higher rank on the display screen of the lower phrase group. .
さらにまた、表示部が、各上位フレーズ及び各下位フレーズの異なる言語による訳文を表示し、又は、出力部が、各上位フレーズ及び各下位フレーズの異なる言語による訳文を音声で出力するようにしてもよい。なお、「訳文」は、記憶部に予め記憶しておいてもよく、或いは、上位フレーズ又は下位フレーズの選択の都度、翻訳部により翻訳するようにしてもよい。 Furthermore, the display unit may display a translation of each upper phrase and each lower phrase in a different language, or the output unit may output a translation of each upper phrase and each lower phrase in a different language by voice. Good. The “translation” may be stored in advance in the storage unit, or may be translated by the translation unit each time an upper phrase or a lower phrase is selected.
また、本発明の一態様による音声翻訳方法は、入力部、翻訳部、出力部、記憶部、及び表示部を備える音声翻訳装置を用いる方法である。すなわち、当該方法は、ユーザ及び/又は対話者の音声を入力するステップと、翻訳部が、入力音声の内容を異なる言語の内容に翻訳するステップと、出力部が、入力音声の翻訳内容を音声及び/又はテキストで出力するステップと、記憶部が、少なくとも1つの上位フレーズを含む上位フレーズ群、及び、各上位フレーズに関連付けられた少なくとも1つの下位フレーズを含む複数の下位フレーズ群を階層的に記憶するステップと、表示部が、上位フレーズ群を表示し、上位フレーズのなかから特定のフレーズが選択されたときに、その特定のフレーズに関連付けられた下位フレーズを含む下位フレーズ群を表示する処理を、階層的に順次実行するステップを含む。 A speech translation method according to an aspect of the present invention is a method using a speech translation apparatus including an input unit, a translation unit, an output unit, a storage unit, and a display unit. That is, in this method, the step of inputting the voice of the user and / or the conversation person, the step of the translation unit translating the content of the input voice into the content of a different language, and the output unit And / or outputting in text, and the storage unit hierarchically includes a plurality of lower phrase groups including at least one upper phrase including at least one upper phrase and at least one lower phrase associated with each upper phrase. The storing step and the display unit displays the upper phrase group, and when a specific phrase is selected from the upper phrases, the lower phrase group including the lower phrase associated with the specific phrase is displayed. Are sequentially executed in a hierarchical manner.
また、本発明の一態様による音声翻訳プログラムは、コンピュータ(単数又は単一種に限られず、複数又は複数種でもよい;以下同様)を、ユーザ及び/又は対話者の音声を入力するための入力部と、入力音声の内容を異なる言語の内容に翻訳する翻訳部と、入力音声の翻訳内容を音声及び/又はテキストで出力する出力部と、少なくとも1つの上位フレーズを含む上位フレーズ群、及び、各上位フレーズに関連付けられた少なくとも1つの下位フレーズを含む複数の下位フレーズ群を階層的に記憶する記憶部と、上位フレーズ群を表示し、上位フレーズのなかから特定のフレーズが選択されたときに、その特定のフレーズに関連付けられた下位フレーズを含む下位フレーズ群を表示する処理を、階層的に順次実行する表示部として機能させる。 In addition, the speech translation program according to one aspect of the present invention is a computer (not limited to a single type or a single type, but may be a plurality or a plurality of types; the same shall apply hereinafter), and an input unit for inputting a voice of a user and / or a conversation person A translation unit that translates the content of the input speech into content of a different language, an output unit that outputs the translation content of the input speech in speech and / or text, a group of upper phrases including at least one upper phrase, and each A storage unit that hierarchically stores a plurality of lower phrase groups including at least one lower phrase associated with the upper phrase, and the upper phrase group. When a specific phrase is selected from the upper phrases, The process of displaying the lower phrase group including the lower phrase associated with the specific phrase is made to function as a display unit that sequentially executes hierarchically. .
本発明によれば、ユーザと対話者との会話において、上位フレーズ群に含まれる上位フレーズのなかから特定のフレーズを選択すると、それに関連付けて記憶された下位フレーズを含む下位フレーズ群が表示される一連の処理が、階層的に順次(繰り返して)実行される。これにより、所定の想定されるシチュエーションにおいて、発話の都度、質問や回答の内容を熟慮することなく、会話を滞りなく続けることができる。したがって、ユーザと対話者との会話を自然にかつ円滑に進めることができ、これにより、接客の最適化を図ることが可能となる。 According to the present invention, when a specific phrase is selected from the upper phrases included in the upper phrase group in the conversation between the user and the interlocutor, the lower phrase group including the lower phrase stored in association therewith is displayed. A series of processing is executed sequentially (repeatedly) hierarchically. Thereby, in a predetermined assumed situation, it is possible to continue the conversation without delay without considering the contents of the question and the answer each time an utterance is made. Therefore, the conversation between the user and the interlocutor can be proceeded naturally and smoothly, which makes it possible to optimize customer service.
以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。 Hereinafter, embodiments of the present invention will be described in detail. The following embodiments are examples for explaining the present invention, and are not intended to limit the present invention only to the embodiments. The present invention can be variously modified without departing from the gist thereof. Furthermore, those skilled in the art can employ embodiments in which the elements described below are replaced with equivalent ones, and such embodiments are also included in the scope of the present invention. Furthermore, positional relationships such as up, down, left, and right shown as needed are based on the display shown unless otherwise specified. Furthermore, various dimensional ratios in the drawings are not limited to the illustrated ratios.
(装置構成)
図1は、本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。この例において、音声翻訳装置100は、ユーザが使用する情報端末10(ユーザ装置)にネットワークNを介して電子的に接続されるサーバ20を備える(但し、これに限定されない)。
(Device configuration)
FIG. 1 is a system block diagram schematically showing a preferred embodiment such as a network configuration related to a speech translation apparatus according to the present invention. In this example, the
情報端末10は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末10は、ネットワークNとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末10は、プロセッサ11、記憶資源12、音声入出力デバイス13、通信インターフェイス14、入力デバイス15、表示デバイス16、及びカメラ17を備えている。また、情報端末10は、インストールされた音声翻訳アプリケーションソフト(本発明の一実施形態による音声翻訳プログラムの少なくとも一部)が動作することにより、本発明の一実施形態による音声翻訳装置の一部又は全部として機能するものである。
The
プロセッサ11は、算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成される。また、プロセッサ11は、記憶資源12に格納されているプログラムP10である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムP10としての音声翻訳アプリケーションソフトは、例えばサーバ20からネットワークNを通じて配信可能なものであり、手動で又は自動でインストール及びアップデートされてもよい。
The
なお、ネットワークNは、例えば、有線ネットワーク(近距離通信網(LAN)、広域通信網(WAN)、又は付加価値通信網(VAN)等)と無線ネットワーク(移動通信網、衛星通信網、ブルートゥース(Bluetooth(登録商標))、WiFi(Wireless Fidelity)、HSDPA(High Speed Downlink Packet Access)等)が混在して構成される通信網である。 The network N includes, for example, a wired network (a short-range communication network (LAN), a wide-area communication network (WAN), a value-added communication network (VAN), etc.) and a wireless network (mobile communication network, satellite communication network, Bluetooth ( Bluetooth (registered trademark)), WiFi (Wireless Fidelity), HSDPA (High Speed Downlink Packet Access), etc.).
記憶資源12は、物理デバイス(例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体)の記憶領域が提供する論理デバイスであり、情報端末10の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス13を制御するための入出力デバイスドライバプログラム、入力デバイス15を制御するための入力デバイスドライバプログラム、表示デバイス16を制御するための表示デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス13は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。
The storage resource 12 is a logical device provided by a storage area of a physical device (for example, a computer-readable recording medium such as a semiconductor memory), and an operating system program, a driver program, various data, etc. used for processing of the
通信インターフェイス14は、例えばサーバ20との接続インターフェイスを提供するものであり、無線通信インターフェイス及び/又は有線通信インターフェイスから構成される。また、入力デバイス15は、例えば、表示デバイス16に表示されるアイコン、ボタン、仮想キーボード、テキスト等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末10に外付けされる各種入力装置を例示することができる。
The
表示デバイス16は、画像表示インターフェイスとして各種の情報をユーザや対話者(会話の相手方)に提供するものであり、例えば、有機ELディスプレイ、液晶ディスプレイ、CRTディスプレイ等が挙げられる。また、カメラ17は、種々の被写体の静止画や動画を撮像するためのものである。
The
サーバ20は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される(図示においては単数で示すが、これに限定されない)。そして、各サーバ20は、プロセッサ21、通信インターフェイス22、及び記憶資源23を備える。
The
プロセッサ21は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成され、記憶資源23に格納されているプログラムP20を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス22は、ネットワークNを介して情報端末10に接続するためのハードウェアモジュールであり、例えば、ISDNモデム、ADSLモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。
The
記憶資源23は、例えば、物理デバイス(ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等)の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数のプログラムP20、各種モジュールL20、各種データベースD20、及び各種モデルM20が格納されている。また、記憶資源23には、ユーザが対話者へ話しかけるために予め用意された複数の質問定型文、入力音声の履歴データ、各種設定用のデータ、後述するフレーズデータ等も記憶されている。
The
プログラムP20は、サーバ20のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールL20は、情報端末10から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムP10の動作中に適宜呼び出されて実行されるソフトウェアモジュール(モジュール化されたサブプログラム)である。かかるモジュールL20としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。
The program P20 is the above-described server program that is the main program of the
また、各種データベースD20としては、音声翻訳処理のために必要な各種コーパス(例えば、日本語と英語の音声翻訳の場合、日本語音声コーパス、英語音声コーパス、日本語文字(語彙)コーパス、英語文字(語彙)コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等)、音声データベース、ユーザに関する情報を管理するための管理用データベース、後述する階層構造を有するフレーズデータベース等が挙げられる。また、各種モデルM20としては、音声認識に使用する音響モデルや言語モデル等が挙げられる。 The various databases D20 include various corpora required for speech translation processing (for example, in the case of Japanese and English speech translation, a Japanese speech corpus, an English speech corpus, a Japanese character (vocabulary) corpus, an English character) (Vocabulary) Corpus, Japanese dictionary, English dictionary, Japanese-English bilingual dictionary, Japanese-English bilingual corpus, etc.), voice database, management database for managing information about users, phrase database having a hierarchical structure described later, etc. It is done. Examples of the various models M20 include acoustic models and language models used for speech recognition.
(処理)
以上のとおり構成された音声翻訳装置100における音声翻訳処理の操作及び動作の一例について、以下に更に説明する。図2及び図3は、音声翻訳装置100における処理の流れ(の一部)の一例を示すフローチャートである。また、図4(A)乃至(D)及び図5(A)乃至(D)は、情報端末10の画面表示における遷移(の一部)の一例を示す平面図である。なお、ここでは、情報端末10のユーザが日本語を話す飲食店等の店員であり、対話者(会話の相手)が英語を話す外国人客である場合の会話を想定する(但し、言語やシチュエーションはこれに限定されない)。
(processing)
An example of operations and operations of speech translation processing in the
まず、ユーザ(店員)が当該アプリケーションを起動する(ステップSU1)と、情報端末10の表示デバイス16に、図4(A)に示す対話者の言語選択画面が表示される(ステップSJ1)。この言語選択画面には、対話者に言語を尋ねることをユーザに促すための日本語のテキストT1、対話者に言語を尋ねる旨の英語のテキストT2、及び、想定される複数の代表的な言語(ここでは、英語、中国語(例えば書体により2種類)、ハングル語)を示す言語ボタン41が表示される。さらにその下方には、言語選択画面を閉じて当該アプリケーションを終了するためのキャンセルボタンB1も表示される。
First, when the user (clerk) activates the application (step SU1), the language selection screen for the conversation person shown in FIG. 4A is displayed on the
このとき、図4(A)に示す如く、日本語のテキストT1及び英語のテキストT2は、プロセッサ11及び表示デバイス16により、情報端末10の表示デバイス16の画面において、異なる領域によって区分けされ、且つ、互いに逆向き(互いに異なる向き;図示において上下逆向き)に表示される。これにより、ユーザと対話者が対面している状態で会話を行う場合、ユーザは日本語のテキストT1を確認し易い一方、対話者は、英語のテキストT2を確認し易くなる。また、日本語のテキストT1と英語のテキストT2が区分けして表示されるので、両者を明別して更に視認し易くなる利点がある。
At this time, as shown in FIG. 4A, the Japanese text T1 and the English text T2 are divided by the
ユーザがその言語選択画面における英語のテキストT2の表示を対話者に提示し、対話者に例えば英語(English)のボタンをタップしてもらうことにより、又は、ユーザが自ら、対話者の言語を選択することができる。こうして対話者の言語が選択されると、サーバ20のプロセッサ21及び情報端末10のプロセッサ11により、ホーム画面として、日本語と英語の音声入力の待機画面が表示デバイス16に表示される(図4(B);ステップSJ2)。この待機画面には、ユーザと対話者の言語の何れを発話するかを問う日本語のテキストT3、並びに、日本語の音声入力を行うための入力ボタン42a及び英語の音声入力を行うための入力ボタン42bが表示される。
The user presents the display of the English text T2 on the language selection screen to the conversation person, and the conversation person taps the English button, for example, or the user himself selects the conversation person's language. can do. When the language of the conversation person is selected in this way, the standby screen for voice input in Japanese and English is displayed on the
また、この待機画面には、予め設定されている複数の質問定型文のリスト表示を選択するためのお声がけボタン43、図4(A)の言語選択画面に戻って対話者の言語を切り替える(言語選択をやり直す)ための言語選択ボタン44、これまでになされた音声入力内容の履歴表示を選択するための履歴ボタン45、予め用意された複数の推奨フレーズ群のなかから所望のフレーズを選択して会話を進めることができるサジェスト機能を実行するためのサジェストボタン46、及び当該アプリケーションソフトの各種設定を行うための設定ボタン47も表示される。
Further, on this standby screen, a
[通常の音声翻訳による会話]
ここで、図2を参照して、ユーザと対話者の会話及び/又は会話準備における通常の音声翻訳処理の一例について説明する。まず、図4(B)に示す待機画面において、ユーザが日本語の入力ボタン42aをタップして日本語の音声入力を選択すると、その音声入力が可能な状態となる。この状態で、ユーザが対話者への伝達事項等を発話する(ステップSU2)と、音声入出力デバイス13を通して音声入力が行われる(ステップSJ3)。情報端末10のプロセッサ11は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。このとおり、情報端末10自体、又はプロセッサ11及び音声入出力デバイス13が「入力部」として機能する。
[Conversation by normal speech translation]
Here, with reference to FIG. 2, an example of a normal speech translation process in a conversation between a user and a conversation person and / or a conversation preparation will be described. First, on the standby screen shown in FIG. 4B, when the user taps the
サーバ20のプロセッサ21は、通信インターフェイス22を通してその音声信号を受信し、音声認識処理を行う(ステップSJ4)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等)を呼び出し、入力音声の「音」を「読み」(文字)へ変換する。このとおり、プロセッサ21、又は、サーバ20が全体として「音声認識サーバ」として機能する。
The
次に、プロセッサ21は、認識された音声の「読み」(文字)を他の言語に翻訳する多言語翻訳処理へ移行する(ステップSJ5)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20及びデータベースD20(翻訳モジュール、日本語文字コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等)を呼び出し、認識結果である入力音声の「読み」(文字列)を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する英語を抽出し、それらを英文法に従って並び替えて自然な英語の句、節、文等へと変換する。このとおり、プロセッサ21は、「翻訳部」としても機能し、サーバ20は、全体として「翻訳サーバ」としても機能する。なお、入力音声が正確に認識されなかった場合には、音声の再入力を行うことができる(画面表示を図示せず)。
Next, the
また、プロセッサ21は、認識された入力音声の内容を記憶資源23に記憶する。次に、多言語翻訳処理、及び、入力音声の内容の記憶処理が完了すると、プロセッサ21は、音声合成処理へ移行する(ステップSJ6)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声合成モジュール、英語音声コーパス、音響モデル、言語モデル等)を呼び出し、翻訳結果である英語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ21は、「音声合成部」としても機能し、サーバ20は、全体として「音声合成サーバ」としても機能する。
Further, the
次いで、プロセッサ21は、合成された音声に基づいて音声出力用の音声信号を生成し、通信インターフェイス22及びネットワークNを通して、情報端末10へ送信する。情報端末10のプロセッサ11は、通信インターフェイス14を通してその音声信号を受信し、音声入出力デバイス13を用いて、音声出力処理を行う(ステップSJ7)。このとおり、プロセッサ11及び音声入出力デバイス13が、「出力部」として機能する。
Next, the
[サジェスト機能による会話]
次に、図3を参照して、ユーザと対話者の会話及び/又は会話準備において、サジェスト機能を用いる場合の処理の一例について説明する。例えば、対話者(外国人客)がユーザの店舗(例えば飲食サービスを提供する店舗)に入店したときに、ユーザが、図4(B)に示す待機画面のサジェストボタン46をタップする(ステップSU3)。そうすると、情報端末10のプロセッサ11は、ユーザが属する業種の店舗での接客において多用されるフレーズ群を表示するための指令信号をサーバ20へ送信する。その指令信号を受信したサーバ20のプロセッサ21は、記憶資源23に記憶されたデータベースD20に含まれるフレーズデータベースD60にアクセスする。
[Conversation using the suggest function]
Next, with reference to FIG. 3, an example of processing in the case where the suggest function is used in the conversation between the user and the conversation person and / or conversation preparation will be described. For example, when a dialog person (foreign customer) enters a user's store (for example, a store providing a food service), the user taps the suggest
ここで、図6は、フレーズデータベースD60のデータ構造の一例を示す模式図である。同図に示す如く、フレーズデータベースD60は、階層化された複数のフレーズ群(データ)61,62,63(図示の都合上、3階層まで記載したが、これに限定されない;以下同様)を備えている。それらのフレーズ群61,62,63は、それぞれ複数の日本語のフレーズX11〜X55,Y11〜Y55,Z11〜Z55及びそれらの異なる言語による訳文を含んでおり、上位階層のフレーズ群に含まれるフレーズのそれぞれに、複数のフレーズとそれらを含む下位階層のフレーズ群が関連付けられている。このように、フレーズ群61,62,63等からフレーズの言わば樹形図が構成されており、これにより、フレーズの連続的なフローが提供される。また、フレーズが特定の質問事項である場合、当該フレーズには質問事項フラグが付されている。そして、その質問事項への回答を入力するための画面データが、そのフレーズに関連付けて、フレーズ群の一部として、フレーズデータベースD60又は他の適宜のデータベースに記憶されている。このとおり、記憶資源23が、「記憶部」として機能する。
Here, FIG. 6 is a schematic diagram showing an example of the data structure of the phrase database D60. As shown in the figure, the phrase database D60 includes a plurality of hierarchized phrase groups (data) 61, 62, 63 (for convenience of illustration, up to three hierarchies are described, but not limited thereto; the same applies hereinafter). ing. Each of these
より具体的には、フレーズ群61とフレーズ群62は、それぞれ「上位フレーズ群」と「下位フレーズ群」の関係を有しており、フレーズ群61に含まれる例えばフレーズX11(上位フレーズ)に、フレーズY11〜Y55(下位フレーズ)及びそれらを含むフレーズ群62が関連付けられている。同様に、フレーズ群62とフレーズ群63も、それぞれ「上位フレーズ群」と「下位フレーズ群」の関係を有しており、フレーズ群62に含まれる例えばフレーズY11(上位フレーズ)に、フレーズZ11〜Z55(下位フレーズ)及びそれらを含むフレーズ群63が関連付けられている。また、特定の質問事項であるフレーズX11には質問事項フラグFが付されており、その特定の質問事項への回答を入力するための画面データが、フレーズX11に関連付けてフレーズ群62の一部として記憶されている。
More specifically, the
かかるフレーズデータベースD60にアクセスしたサーバ20のプロセッサ21は、まず、上位階層のフレーズ群61に含まれるフレーズX11〜X55を呼び出し、それらのリストの表示画像データを作成して情報端末10のプロセッサ11へ送信する。プロセッサ11は、その表示画像データに基づいて、例えば図4(C)に示すフレーズ群画面を表示デバイス16に表示する(ここまでステップSJ8)。
The
この図4(C)のフレーズ群画面には、複数の日本語のフレーズテキスト(上位フレーズ)とそれらの英語による訳文を示す英語のフレーズテキストが、フレーズ毎に併記された状態でフレーズリストP1として表示される。図4(C)に示すとおり、フレーズリストP1には、飲食店の店員が来店した客に対して最初に声がけする際によく発話される複数のフレーズが含まれている。ユーザは、それらのテキスト部分をタップすることにより、所望の特定のフレーズを選択することができる。また、このフレーズ群画面において、フレーズリストP1の上方及び下方には、それぞれ、図4(A)の言語選択画面において対話者の言語として選択された言語(つまり対訳言語)が英語であることを示す日本語のテキストT4、及び、フレーズ群画面を閉じて図4(B)の待機画面へ戻るための閉じるボタンB2も表示される(以下同様)。 In the phrase group screen of FIG. 4C, a plurality of Japanese phrase texts (upper phrases) and English phrase texts indicating their translations in English are written together as phrases list P1 in a state where each phrase is written together. Is displayed. As shown in FIG. 4C, the phrase list P1 includes a plurality of phrases that are often spoken when a restaurant clerk speaks to a customer who first visits the store. The user can select a desired specific phrase by tapping those text portions. In the phrase group screen, above and below the phrase list P1, the language selected as the language of the conversation person (ie, the parallel language) on the language selection screen in FIG. 4A is English. The Japanese text T4 shown and a close button B2 for closing the phrase group screen and returning to the standby screen of FIG. 4B are also displayed (the same applies hereinafter).
ここで、ユーザが、フレーズリストP1のなかから例えば人数を問い合わせる旨のフレーズ(「何名様ですか?」:特定のフレーズかつ特定の質問事項)のテキストT5(フレーズ群61の例えばフレーズX11に相当)をタップして選択する(ステップSU4)と、情報端末10のプロセッサ11は、その選択指令信号をサーバ20のプロセッサ21へ送信する。それを受信したプロセッサ21は、テキストT5の英語による訳文の音声出力データをプロセッサ11へ返信し、プロセッサ11は、その音声を音声入出力デバイス13から出力する。
Here, the text T5 (for example, the phrase X11 in the phrase group 61) of a phrase (“how many people?”: A specific phrase and a specific question) that the user inquires about the number of people from the phrase list P1, for example. If it is selected by tapping (corresponding) (step SU4), the
また、プロセッサ21は、フレーズデータベースD60に再度アクセスし、選択されたテキストT5に相当するフレーズX11が、特定の質問事項であるか否かを判定する(ステップSJ9)。ここで、フレーズX11には質問事項フラグFが付されている(ステップSJ9で「Yes」)ので、プロセッサ21は、フレーズX11に関連付けられたフレーズ群62の一部として記憶された回答入力画面データを呼び出し、プロセッサ11へ返信する。それを受信したプロセッサ11は、対話者が来店人数を入力するための画面として、例えば図4(D)に示す回答入力画面を表示デバイス16に表示する(ここまでステップSJ10)。この図4(D)の回答入力画面には、人数を入力するための数字キー48が表示され、ユーザがこの回答入力画面を対話者に提示し、対話者が画面をタップして来店人数(ここでは例えば2人)を入力する(ステップSU5)と、その数字がカラム49に表示される。
Further, the
こうして、特定の質問事項であるフレーズX11(テキストT5)に対する回答(人数)が入力されると、情報端末10のプロセッサ11は、その入力完了信号をサーバ20のプロセッサ21へ送信する。それを受信したプロセッサ21は、フレーズデータベースD60に再度アクセスし、フレーズX11に関連付けられた下位階層のフレーズ群62に含まれるフレーズY11〜Y55を呼び出し、それらのリストの表示画像データを作成して情報端末10のプロセッサ11へ送信する。プロセッサ11は、その表示画像データに基づいて、例えば図5(A)に示すフレーズ群画面を表示デバイス16に表示する(ここまでステップSJ11)。このとおり、プロセッサ11,21及び表示デバイス16が、「表示部」として機能する。
Thus, when an answer (number of people) to the phrase X11 (text T5), which is a specific question, is input, the
この図5(A)のフレーズ群画面には、図4(C)に示すフレーズリストP1と同様の形態で複数のフレーズテキスト(下位フレーズ)を含むフレーズリストP2が表示される。図5(A)に示すとおり、フレーズリストP2には、飲食店の店員が来店した客の人数を確認した後によく発話されるフレーズが含まれている。ここで、ユーザは、フレーズリストP1と同様に、フレーズリストP2におけるテキスト部分をタップすることにより、所望の特定のフレーズを選択することができる。以下、このようにして、上位フレーズ群のフレーズリストの表示、それらのなかから特定のフレーズの選択、及び特定のフレーズに関連付けられた下位フレーズを含む下位フレーズ群の表示といった一連の処理を、階層的に順次(繰り返して)実行することにより、ユーザと対話者の会話を進めることができる。このとおり、上位フレーズ群であるフレーズリストP1の下位フレーズ群として表示されたフレーズリストP2は、次に表示される更なる下位フレーズ群に対する上位フレーズ群に該当する。 On the phrase group screen of FIG. 5A, a phrase list P2 including a plurality of phrase texts (lower phrases) is displayed in the same form as the phrase list P1 shown in FIG. As shown in FIG. 5A, the phrase list P2 includes phrases that are often uttered after the number of customers who have visited the restaurant is confirmed. Here, similarly to the phrase list P1, the user can select a desired specific phrase by tapping the text portion in the phrase list P2. Hereinafter, a series of processes such as display of the phrase list of the upper phrase group, selection of a specific phrase from them, and display of the lower phrase group including the lower phrase associated with the specific phrase are hierarchically performed. Therefore, the conversation between the user and the conversation person can be advanced by executing sequentially (repetitively). As described above, the phrase list P2 displayed as the lower phrase group of the phrase list P1, which is the upper phrase group, corresponds to the upper phrase group for the further lower phrase group to be displayed next.
次に、ユーザが、フレーズリストP2のなかから例えば空席に案内する旨のフレーズ(「お席へご案内します。」:特定のフレーズ)のテキストT6(フレーズ群62の例えばフレーズY11に相当)をタップして選択する(ステップSU4)と、情報端末10のプロセッサ11は、その選択指令信号をサーバ20のプロセッサ21へ送信する。それを受信したプロセッサ21は、テキストT6の英語による訳文の音声出力データをプロセッサ11へ返信し、プロセッサ11は、その音声を音声入出力デバイス13から出力する。
Next, the text T6 (corresponding to, for example, the phrase Y11 in the phrase group 62) of the phrase ("Guide to the seat.": A specific phrase) that the user guides, for example, to a vacant seat from the phrase list P2. Is selected by tapping (step SU4), the
また、プロセッサ21は、フレーズデータベースD60に再度アクセスし、選択されたテキストT6に相当するフレーズY11が、特定の質問事項であるか否かを判定する(ステップSJ9)。ここで、フレーズY11には質問事項フラグFが付されていない(ステップSJ9で「No」)ので、プロセッサ21は、フレーズY11に関連付けられた更に下位階層のフレーズ群63に含まれるフレーズZ11〜Z55を呼び出し、それらのリストの表示画像データを作成して情報端末10のプロセッサ11へ送信する。プロセッサ11は、その表示画像データに基づいて、例えば図5(B)に示すフレーズ群画面を表示デバイス16に表示する(ここまでステップSJ11)。
Further, the
この図5(B)のフレーズ群画面には、図4(C)に示すフレーズリストP1と同様の形態で複数のフレーズテキスト(下位フレーズ)を含むフレーズリストP3が表示される。図5(B)に示すとおり、フレーズリストP3には、客が席に着いたタイミングでよく発話されるフレーズが含まれている。 On the phrase group screen of FIG. 5B, a phrase list P3 including a plurality of phrase texts (lower phrases) is displayed in the same form as the phrase list P1 shown in FIG. As shown in FIG. 5B, the phrase list P3 includes phrases that are often spoken at the timing when the customer is seated.
次いで、ユーザは、フレーズリストP3のなかから例えば飲み物の注文を問い合わせる旨のフレーズ(「お飲み物はいかがなさいますか?」:特定のフレーズ)のテキストT7(フレーズ群63の例えばフレーズZ11に相当)をタップして選択する(ステップSU4)と、情報端末10のプロセッサ11は、その選択指令信号をサーバ20のプロセッサ21へ送信する。それを受信したプロセッサ21は、テキストT7の英語による訳文の音声出力データをプロセッサ11へ返信し、プロセッサ11は、その音声を音声入出力デバイス13から出力する。
Next, the user makes a text T7 (corresponding to, for example, the phrase Z11 in the phrase group 63) of a phrase ("Would you like a drink?": A specific phrase) to inquire about an order for drinks from the phrase list P3 Is selected by tapping (step SU4), the
さらに、プロセッサ21は、フレーズデータベースD60に再度アクセスし、選択されたテキストT7に相当するフレーズZ11が、特定の質問事項であるか否かを判定する(ステップSJ9)。このフレーズZ11にも質問事項フラグFが付されていない(ステップSJ9で「No」)ので、プロセッサ21は、フレーズZ11に関連付けられた更に下位階層のフレーズ群に含まれるフレーズを呼び出し、それらのリストの表示画像データを作成して情報端末10のプロセッサ11へ送信する。プロセッサ11は、その表示画像データに基づいて、例えば図5(C)に示すフレーズ群画面を表示デバイス16に表示する(ここまでステップSJ11)。
Furthermore, the
この図5(C)のフレーズ群画面には、図4(C)に示すフレーズリストP1と同様の形態で複数のフレーズテキスト(下位フレーズ)を含むフレーズリストP4が表示される。図5(C)に示すとおり、フレーズリストP4には、複数の飲み物のメニュー名が含まれており、また、対話者がユーザに対してメニューを要求する旨のテキストT8も含まれている。ユーザがこのフレーズ群画面を対話者に提示し、所望の飲み物のメニュー名をタップして貰うことにより、注文をとることができる。或いは、対話者の所望の飲み物のメニュー名がフレーズリストP4にない場合、対話者は、テキストT8の部分をタップすることにより、店員であるユーザに対してメニューの閲覧を求めることができる(ステップSU4)。 On the phrase group screen of FIG. 5C, a phrase list P4 including a plurality of phrase texts (lower phrases) is displayed in the same manner as the phrase list P1 shown in FIG. As shown in FIG. 5C, the phrase list P4 includes menu names of a plurality of drinks, and also includes text T8 indicating that the interrogator requests a menu from the user. The user can place an order by presenting this phrase group screen to the interlocutor and tapping on the desired drink menu name. Alternatively, when the menu name of the drink desired by the dialog person is not in the phrase list P4, the dialog person can request the user who is a store clerk to browse the menu by tapping the text T8 portion (step SU4).
このようにして、対話者が、フレーズリストP4のなかから所望のメニュー名を表すフレーズ又はメニューの閲覧を依頼する旨のフレーズ(何れも特定のフレーズ)のテキストをタップして選択する(ステップSU4)と、情報端末10のプロセッサ11は、その選択指令信号をサーバ20のプロセッサ21へ送信する。それを受信したプロセッサ21は、そのテキストの日本語の音声出力データをプロセッサ11へ返信し、プロセッサ11は、その音声を音声入出力デバイス13から出力する。
In this way, the dialog person taps and selects the phrase representing the desired menu name from the phrase list P4 or the text of the phrase requesting to browse the menu (both are specific phrases) (step SU4). ) And the
また、プロセッサ21は、フレーズデータベースD60に再度アクセスし、選択されたテキストに相当するフレーズが、特定の質問事項であるか否かを判定する(ステップSJ9)。ここで、フレーズリストP4に含まれるフレーズには質問事項フラグFが付されていない(ステップSJ9で「No」)ので、プロセッサ21は、そのフレーズに関連付けられた更に下位階層のフレーズ群に含まれる複数のフレーズを呼び出し、それらのリストの表示画像データを作成して情報端末10のプロセッサ11へ送信する。プロセッサ11は、その表示画像データに基づいて、例えば図5(D)に示すフレーズ群画面を表示デバイス16に表示する(ここまでステップSJ11)。
Further, the
この図5(D)のフレーズ群画面には、図4(C)に示すフレーズリストP1と同様の形態で複数のフレーズテキスト(下位フレーズ)を含むフレーズリストP5が表示される。図5(D)に示すとおり、フレーズリストP5には、客からの注文や依頼を受けた場合によく発話されるフレーズが含まれている。そして、ユーザが、フレーズリストP5のなかから所望のフレーズのテキスト部分をタップして選択する(ステップSU4)と、これまでの処理と同様にして、そのフレーズの英語による訳文の音声出力が行われ、ユーザは、当該アプリケーションを適宜終了することができる(ステップSU6)。なお、この図5(D)に示すフレーズリストP5は、図5(C)に示すフレーズリストP4に含まれる何れのフレーズに対する下位フレーズ群としても有効である。このように、異なる上位フレーズに対して、複数の同じ下位フレーズを含むフレーズ群が関連付けられていてもよい。 On the phrase group screen of FIG. 5D, a phrase list P5 including a plurality of phrase texts (lower phrases) is displayed in the same form as the phrase list P1 shown in FIG. As shown in FIG. 5D, the phrase list P5 includes phrases that are often spoken when orders or requests from customers are received. When the user taps and selects the text portion of the desired phrase from the phrase list P5 (step SU4), the English translation of the phrase is output in the same manner as the processing so far. The user can end the application as appropriate (step SU6). The phrase list P5 shown in FIG. 5D is effective as a lower phrase group for any phrase included in the phrase list P4 shown in FIG. Thus, a phrase group including a plurality of the same lower phrases may be associated with different upper phrases.
以上のように構成された音声翻訳装置100及びそれを用いた音声翻訳方法並びに音声翻訳プログラムによれば、ユーザと対話者との会話において、上位フレーズ群に含まれる上位フレーズのなかから特定のフレーズを選択すると、それに関連付けて記憶された下位フレーズを含む下位フレーズ群が画面表示され、かかる一連の処理が階層的に順次(繰り返し)実行される。例えば、図4(C)→図4(D)→図5(A)→図5(B)→図5(C)→図5(D)に示す画面表示の階層的な遷移に従って所望のフレーズを選択することにより、飲食店における接客といったシチュエーションにおける会話を進行させることができる。このとおり、本発明によれば、所定の想定されるシチュエーションにおいて、発話の都度、質問や回答の内容を熟慮することなく、会話を滞りなく続けることができるので、ユーザと対話者との会話を自然かつ円滑ならしめ、これにより、接客の最適化を図ることが可能となる。
According to the
また、図4(C)及び(D)並びに図5(A)乃至(D)に示す如く、上位フレーズ群と下位フレーズ群を、それぞれ別画面として表示デバイス16に順次表示するので、会話の進行に応じた所望のフレーズを簡易かつ的確に選択し易くなり、ユーザと対話者との会話をより自然かつ円滑ならしめることができる。
Also, as shown in FIGS. 4C and 4D and FIGS. 5A to 5D, the upper phrase group and the lower phrase group are sequentially displayed on the
さらに、上位フレーズとして特定の質問事項(例えば図4(C)に示すテキストT5のフレーズX11)が含まれており、それが選択されたときに、その特定の質問事項への回答を入力するための例えば図4(D)に示す画面が表示される。よって、フレーズのみを順次表示していく場合に比して、会話の選択肢又は会話の幅を広げることができ、また、これにより、より多くのシチュエーションにおける会話へ柔軟に対応することができる。 Furthermore, a specific question (for example, the phrase X11 of the text T5 shown in FIG. 4C) is included as an upper phrase, and when it is selected, an answer to the specific question is input. For example, the screen shown in FIG. 4D is displayed. Therefore, compared with the case where only phrases are sequentially displayed, the choice of conversation or the width of conversation can be expanded, and this makes it possible to flexibly deal with conversations in more situations.
またさらに、フレーズ群61,62,63等(フレーズリストP1〜P5)のそれぞれに設定された複数のフレーズ(つまり上位フレーズ及び下位フレーズ)は、上述の如く、ユーザが属する業種毎に予め設定されたものであるので、その業種における接客に特化した会話を、より円滑にかつより適切に実施して、接客の最適化を更に図ることができる。また、かかるフレーズを、ユーザの店舗毎に予め設定しておくこともでき、この場合、店舗毎の特徴や店舗の状況を反映したよりきめ細かい接客が可能となる。
Furthermore, as described above, a plurality of phrases (that is, upper phrases and lower phrases) set in each of the
さらに、これらの上位フレーズ及び下位フレーズの設定は、自動で行っても手動で行ってもよい。自動で設定する例としては、まず、当該翻訳アプリケーションの利用に際し、ユーザ情報の1つとしてユーザの業種を登録しておき、サーバ20のプロセッサ21が、その業種の会話で頻出するフレーズのコーパスや履歴のなかから特に多用されるフレーズを選定してフレーズ群として階層化する形態が挙げられる。或いは、同業種の複数のユーザが発話したフレーズを、その発話頻度とともに適宜のデータベースに記憶し、サーバ20のプロセッサ21が、それらのフレーズのなかから特に多用されているフレーズを選定してフレーズ群として階層化するようにしてもよい。一方、手動で設定する例としては、ユーザが所望のフレーズを選定し、階層的なフレーズ群としてカスタマイズする形態が挙げられる。
Further, the setting of these upper phrases and lower phrases may be performed automatically or manually. As an example of automatic setting, first, when using the translation application, the user's business type is registered as one of the user information, and the
その際、各フレーズ群61,62,63等(フレーズリストP1〜P5)に含まれるフレーズを、当初の設定のまま維持(フレーズリストの固定)してもよく、或いは、それらに含まれるフレーズを、必要に応じて適宜変更してもよい。すなわち、後者の場合、例えば、各フレーズ(上位フレーズ及び下位フレーズ)が選択された回数を記憶資源23に記憶しておき、サーバ20のプロセッサ21が、選択回数のより多いフレーズを各フレーズ群61,62,63等(フレーズリストP1〜P5)の表示画面においてより高い順位に表示(例えば画面の上方に表示したり強調や拡大して表示したり)するようにしてもよい。これにより、ユーザの業種や店舗の実情に即したフレーズを表示し易くなり、かつ、選択し易くなる利点があり、また、ユーザと対話者のコミュニケーションを更に高速化することができる。
At that time, phrases included in each of the
また、図5(B)及び(C)に示す如く、特定のフレーズが注文(飲み物)の問い合わせ(テキストT7のフレーズZ11)であり、その特定のフレーズに関連付けられた下位フレーズを含む下位フレーズ群が複数の注文品(メニュー名)のリストである場合、以下の処理を行ってもよい。すなわち、各注文品について過去の所定期間に選択された回数(オーダー数)、又は、各注文品の利益率を、記憶資源23に記憶しておき、サーバ20のプロセッサ21が、その選択回数がより多い注文品、又は、利益率がより高い注文品を、例えば図5(C)に示すフレーズ群の表示画面においてより高い順位に表示してもよい。これにより、対話者(外国人客)に対し、人気が高いメニューや客単価が高いメニューを積極的に推奨することができ、その結果、ユーザの店舗の売上及び利益の向上を図ることができる。
Also, as shown in FIGS. 5B and 5C, the specific phrase is an order (drink) inquiry (phrase Z11 of text T7), and a lower phrase group including lower phrases associated with the specific phrase Is a list of a plurality of order items (menu names), the following processing may be performed. That is, the number of times each order item is selected in the past predetermined period (the number of orders) or the profit rate of each order item is stored in the
またさらに、図4(C)及び(D)並びに図5(A)乃至(D)に示す如く、フレーズ群画面において、フレーズ毎の日本語のフレーズテキストと英語による訳文を示す英語のフレーズテキストが、フレーズリストP1〜P5において併記され、また、各フレーズの異なる言語による訳文が音声で出力される。よって、ユーザ及び対話者は、画面の視認に加えて、又は、画面を視認しなくとも、相手の発話内容をより確実に確認することができる。 Furthermore, as shown in FIGS. 4C and 4D and FIGS. 5A to 5D, on the phrase group screen, there is a Japanese phrase text for each phrase and an English phrase text indicating an English translation. In the phrase lists P1 to P5, translations of the phrases in different languages are output by voice. Therefore, the user and the conversation person can confirm the content of the other party's utterance more reliably in addition to viewing the screen or without viewing the screen.
なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース(ハードウェア資源又はソフトウェア資源)を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。 Note that, as described above, each of the above embodiments is an example for explaining the present invention, and is not intended to limit the present invention to the embodiment. The present invention can be variously modified without departing from the gist thereof. For example, those skilled in the art can replace the resources (hardware resources or software resources) described in the embodiments with equivalents, and such replacements are also included in the scope of the present invention.
また、図4(C)及び(D)並びに図5(A)乃至(D)において、日本語のフレーズテキストと英語のフレーズテキストを、図4(A)のテキストT1,T2のように、互いに逆向き(互いに異なる向き;図示において上下逆向き)に表示してもよい。さらに、これらの日本語のフレーズテキストと英語のフレーズテキストを併記せず、何れか一方のみ表示するようにしてもよい。またさらに、図4(D)に示す回答入力を、音声入力で行うことができるように構成してもよい。さらにまた、ユーザの業種に拘わらず、その他の業種用に設定されたフレーズ群を選択することができるようにしてもよい。また、図5(C)に示すフレーズ群の表示画面(メニュー名)には、その時点における在庫が多い材料を使用したメニュー名やユーザ又はユーザの店舗が独自に推奨するメニュー名を表示することもできる。 4 (C) and 4 (D) and FIGS. 5 (A) to 5 (D), the Japanese phrase text and the English phrase text are mutually converted into the texts T1 and T2 in FIG. 4 (A). They may be displayed in opposite directions (different directions; upside down in the figure). Furthermore, these Japanese phrase text and English phrase text may not be written together, and only one of them may be displayed. Furthermore, the answer input shown in FIG. 4D may be configured to be performed by voice input. Furthermore, regardless of the user's business type, a phrase group set for other business types may be selected. In addition, on the phrase group display screen (menu name) shown in FIG. 5C, a menu name using a material with a large amount of stock at that time or a menu name uniquely recommended by the user or the user's store is displayed. You can also.
また、音声認識、翻訳、音声合成等の各処理をサーバ20によって実行する例について記載したが、これらの処理を情報端末10において実行するように構成してもよい。この場合、それらの処理に用いるモジュールL20は、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。さらに、音声データベースであるデータベースD20、及び/又は、音響モデル等のモデルM20も、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。このとおり、音声翻訳装置は、ネットワークN及びサーバ20を備えなくてもよい。
Moreover, although the example which performs each process, such as speech recognition, translation, speech synthesis, by
また、情報端末10とネットワークNとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末10は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。
Of course, a gateway server for converting a communication protocol between the
本発明によれば、接客時のユーザと対話者(外国人客)の会話を自然にかつ円滑に進めることができ、これにより、接客の最適化に資することができるので、例えば、互いの言語を理解できない人同士の会話に関するサービスの提供分野における、プログラム、装置、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。 According to the present invention, a conversation between a user and a talker (foreign customer) at the time of customer service can be promoted naturally and smoothly, thereby contributing to optimization of customer service. It can be widely used for activities such as design, manufacture, provision, and sales of programs, devices, systems, and methods in the field of providing services related to conversations between people who cannot understand.
10 情報端末
11 プロセッサ
12 記憶資源
13 音声入出力デバイス
14 通信インターフェイス
15 入力デバイス
16 表示デバイス
17 カメラ
20 サーバ
21 プロセッサ
22 通信インターフェイス
23 記憶資源
41 言語ボタン
42a 日本語の入力ボタン
42b 英語の入力ボタン
43 お声がけボタン
44 言語選択ボタン
45 履歴ボタン
46 サジェストボタン
47 設定ボタン
48 数字キー
49 カラム
61,62,63 フレーズ群
100 音声翻訳装置
B1 キャンセルボタン
B2 閉じるボタン
D20 データベース
D60 フレーズデータベース
F 質問事項フラグ
L20 モジュール
M20 モデル
N ネットワーク
P1〜P5 フレーズリスト
P10 プログラム
P20 プログラム
T1〜T8 テキスト
X11〜X55 フレーズ
Y11〜Y55 フレーズ
Z11〜Z55 フレーズ
10
Claims (6)
少なくとも1つの上位フレーズを含む上位フレーズ群、及び、該各上位フレーズに関連付けられた少なくとも1つの下位フレーズを含む複数の下位フレーズ群を階層的に記憶する記憶部と、
前記上位フレーズ群を表示し、前記上位フレーズのなかから特定のフレーズが選択されたときに、該特定のフレーズに関連付けられた下位フレーズを含む下位フレーズ群を表示する処理を、階層的に順次実行する表示部と、
を更に備え、
前記上位フレーズ群には、前記上位フレーズとして特定の質問事項が含まれており、
前記表示部は、前記特定の質問事項が選択されたときに、前記下位フレーズの表示とは異なる表示形態で、該特定の質問事項への任意の回答を入力するための画面を表示し、
前記上位フレーズ及び前記下位フレーズは、前記ユーザが属する業種毎又は前記ユーザの店舗毎に、自動又は手動で予め設定されたものであり、
前記記憶部は、前記各上位フレーズ及び前記各下位フレーズの選択回数を記憶し、
前記表示部は、前記選択回数がより多い前記上位フレーズを前記第1フレーズ群の表示画面においてより高い順位に表示し、かつ、前記選択回数がより多い前記下位フレーズを前記下位フレーズ群の表示画面においてより高い順位に表示し、
前記特定のフレーズが注文の問い合わせであり、該特定のフレーズに関連付けられた前記下位フレーズを含む下位フレーズ群が複数の注文品のリストである場合、
前記記憶部は、前記各注文品の選択回数、又は、前記各注文品の利益率を記憶し、
前記表示部は、前記選択回数がより多い注文品、又は、前記利益率がより高い注文品を前記下位フレーズ群の表示画面においてより高い順位に表示する、
音声翻訳装置。 An input unit for inputting a voice of a user and / or a conversation person, a translation unit for translating the contents of the input voice into contents of different languages, and an output unit for outputting the translation contents of the input voice as voice and / or text A speech translation device comprising:
A storage unit that hierarchically stores an upper phrase group including at least one upper phrase, and a plurality of lower phrase groups including at least one lower phrase associated with each upper phrase;
Display the upper phrase group, and when the specific phrase is selected from the upper phrases, the process of displaying the lower phrase group including the lower phrase associated with the specific phrase is sequentially executed hierarchically A display unit to
Further comprising
The upper phrase group includes a specific question as the upper phrase,
Wherein the display unit, when the particular questionnaire is selected, a different display form and the display of the lower phrase, displays a screen for inputting any answers to the specific questions,
The upper phrase and the lower phrase are preset automatically or manually for each type of business to which the user belongs or for each store of the user,
The storage unit stores the number of times of selection of each upper phrase and each lower phrase,
The display unit displays the higher order phrase having a higher number of selections in a higher order on the display screen of the first phrase group, and the lower order phrase having a higher selection number is displayed on the display screen of the lower order phrase group. In a higher ranking,
If the specific phrase is an order inquiry and the sub-phrase group including the sub-phrase associated with the specific phrase is a list of a plurality of orders,
The storage unit stores the number of times each order item is selected, or the profit rate of each order item,
The display unit displays an ordered item with a larger number of selections or an ordered item with a higher profit margin in a higher order on the display screen of the lower phrase group.
Speech translation device.
請求項1記載の音声翻訳装置。 The display unit displays the upper phrase group and the lower phrase group as separate screens,
The speech translation apparatus according to claim 1.
前記表示部は、前記特定の質問事項が選択されたか否かを、前記質問事項フラグの有無により判定し、前記特定の質問事項が選択されたと判定したときに、前記特定の質問事項への前記任意の回答を入力するための画面データに基づいて、前記任意の回答を入力するための画面を表示する、
請求項1又は2記載の音声翻訳装置。 The storage unit stores a high-level phrase that is the specific question item with a question flag, and stores screen data for inputting the arbitrary answer to the specific question item. Remember it associated with the high-level phrase that is the question,
The display unit determines whether or not the specific question is selected based on the presence or absence of the question flag, and determines that the specific question is selected when the specific question is selected. Based on the screen data for inputting an arbitrary answer, a screen for inputting the arbitrary answer is displayed.
The speech translation apparatus according to claim 1 or 2.
請求項1乃至3の何れか記載の音声翻訳装置。 The display unit displays a translation of each upper phrase and each lower phrase in a different language, or the output unit outputs a translation of each upper phrase and each lower phrase in a different language by voice;
The speech translation apparatus according to any one of claims 1 to 3 .
前記入力部が、ユーザ及び/又は対話者の音声を入力するステップと、
前記翻訳部が、入力音声の内容を異なる言語の内容に翻訳するステップと、
前記出力部が、前記入力音声の翻訳内容を音声及び/又はテキストで出力するステップと、
前記記憶部が、少なくとも1つの上位フレーズを含む上位フレーズ群、及び、該各上位フレーズに関連付けられた少なくとも1つの下位フレーズを含む複数の下位フレーズ群を階層的に記憶するステップと、
前記表示部が、前記上位フレーズ群を表示し、前記上位フレーズのなかから特定のフレーズが選択されたときに、該特定のフレーズに関連付けられた下位フレーズを含む下位フレーズ群を表示する処理を、階層的に順次実行するステップと、
を含み、
前記上位フレーズ群には、前記上位フレーズとして特定の質問事項が含まれており、
前記表示部は、前記特定の質問事項が選択されたときに、前記下位フレーズの表示とは異なる表示形態で、該特定の質問事項への任意の回答を入力するための画面を表示し、
前記上位フレーズ及び前記下位フレーズは、前記ユーザが属する業種毎又は前記ユーザの店舗毎に、自動又は手動で予め設定されたものであり、
前記記憶部は、前記各上位フレーズ及び前記各下位フレーズの選択回数を記憶し、
前記表示部は、前記選択回数がより多い前記上位フレーズを前記第1フレーズ群の表示画面においてより高い順位に表示し、かつ、前記選択回数がより多い前記下位フレーズを前記下位フレーズ群の表示画面においてより高い順位に表示し、
前記特定のフレーズが注文の問い合わせであり、該特定のフレーズに関連付けられた前記下位フレーズを含む下位フレーズ群が複数の注文品のリストである場合、
前記記憶部は、前記各注文品の選択回数、又は、前記各注文品の利益率を記憶し、
前記表示部は、前記選択回数がより多い注文品、又は、前記利益率がより高い注文品を前記下位フレーズ群の表示画面においてより高い順位に表示する、
音声翻訳方法。 Using a speech translation device including an input unit, a translation unit, an output unit, a storage unit, and a display unit,
The input unit inputs a voice of a user and / or a conversation person;
The translation unit translating the content of the input speech into content of a different language;
The output unit outputting the content of translation of the input speech as speech and / or text;
The storage unit hierarchically stores a plurality of lower phrase groups including an upper phrase group including at least one upper phrase and at least one lower phrase associated with each upper phrase;
The display unit displays the upper phrase group, and when a specific phrase is selected from the upper phrases, a process of displaying a lower phrase group including a lower phrase associated with the specific phrase, Steps to be executed sequentially in a hierarchy;
Including
The upper phrase group includes a specific question as the upper phrase,
Wherein the display unit, when the particular questionnaire is selected, a different display form and the display of the lower phrase, displays a screen for inputting any answers to the specific questions,
The upper phrase and the lower phrase are preset automatically or manually for each type of business to which the user belongs or for each store of the user,
The storage unit stores the number of times of selection of each upper phrase and each lower phrase,
The display unit displays the higher order phrase having a higher number of selections in a higher order on the display screen of the first phrase group, and the lower order phrase having a higher selection number is displayed on the display screen of the lower order phrase group. In a higher ranking,
If the specific phrase is an order inquiry and the sub-phrase group including the sub-phrase associated with the specific phrase is a list of a plurality of orders,
The storage unit stores the number of times each order item is selected, or the profit rate of each order item,
The display unit displays an ordered item with a larger number of selections or an ordered item with a higher profit margin in a higher order on the display screen of the lower phrase group.
Speech translation method.
ユーザ及び/又は対話者の音声を入力するための入力部と、
入力音声の内容を異なる言語の内容に翻訳する翻訳部と、
前記入力音声の翻訳内容を音声及び/又はテキストで出力する出力部と、
少なくとも1つの上位フレーズを含む上位フレーズ群、及び、該各上位フレーズに関連付けられた少なくとも1つの下位フレーズを含む複数の下位フレーズ群を階層的に記憶する記憶部と、
前記上位フレーズ群を表示し、前記上位フレーズのなかから特定のフレーズが選択されたときに、該特定のフレーズに関連付けられた下位フレーズを含む下位フレーズ群を表示する処理を、階層的に順次実行する表示部と、
して機能させ、
前記上位フレーズ群には、前記上位フレーズとして特定の質問事項が含まれており、
前記表示部は、前記特定の質問事項が選択されたときに、前記下位フレーズの表示とは異なる表示形態で、該特定の質問事項への任意の回答を入力するための画面を表示し、
前記上位フレーズ及び前記下位フレーズは、前記ユーザが属する業種毎又は前記ユーザの店舗毎に、自動又は手動で予め設定されたものであり、
前記記憶部は、前記各上位フレーズ及び前記各下位フレーズの選択回数を記憶し、
前記表示部は、前記選択回数がより多い前記上位フレーズを前記第1フレーズ群の表示画面においてより高い順位に表示し、かつ、前記選択回数がより多い前記下位フレーズを前記下位フレーズ群の表示画面においてより高い順位に表示し、
前記特定のフレーズが注文の問い合わせであり、該特定のフレーズに関連付けられた前記下位フレーズを含む下位フレーズ群が複数の注文品のリストである場合、
前記記憶部は、前記各注文品の選択回数、又は、前記各注文品の利益率を記憶し、
前記表示部は、前記選択回数がより多い注文品、又は、前記利益率がより高い注文品を前記下位フレーズ群の表示画面においてより高い順位に表示する、
音声翻訳プログラム。 Computer
An input unit for inputting a voice of a user and / or a dialogue person;
A translation unit that translates the content of the input speech into content of a different language;
An output unit that outputs the translated content of the input speech as speech and / or text;
A storage unit that hierarchically stores an upper phrase group including at least one upper phrase, and a plurality of lower phrase groups including at least one lower phrase associated with each upper phrase;
Display the upper phrase group, and when the specific phrase is selected from the upper phrases, the process of displaying the lower phrase group including the lower phrase associated with the specific phrase is sequentially executed hierarchically A display unit to
To function,
The upper phrase group includes a specific question as the upper phrase,
Wherein the display unit, when the particular questionnaire is selected, a different display form and the display of the lower phrase, displays a screen for inputting any answers to the specific questions,
The upper phrase and the lower phrase are preset automatically or manually for each type of business to which the user belongs or for each store of the user,
The storage unit stores the number of times of selection of each upper phrase and each lower phrase,
The display unit displays the higher order phrase having a higher number of selections in a higher order on the display screen of the first phrase group, and the lower order phrase having a higher selection number is displayed on the display screen of the lower order phrase group. In a higher ranking,
If the specific phrase is an order inquiry and the sub-phrase group including the sub-phrase associated with the specific phrase is a list of a plurality of orders,
The storage unit stores the number of times each order item is selected, or the profit rate of each order item,
The display unit displays an ordered item with a larger number of selections or an ordered item with a higher profit margin in a higher order on the display screen of the lower phrase group.
Speech translation program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016066152A JP6174746B1 (en) | 2016-03-29 | 2016-03-29 | Speech translation device, speech translation method, and speech translation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016066152A JP6174746B1 (en) | 2016-03-29 | 2016-03-29 | Speech translation device, speech translation method, and speech translation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6174746B1 true JP6174746B1 (en) | 2017-08-02 |
JP2017181662A JP2017181662A (en) | 2017-10-05 |
Family
ID=59505165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016066152A Expired - Fee Related JP6174746B1 (en) | 2016-03-29 | 2016-03-29 | Speech translation device, speech translation method, and speech translation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6174746B1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7436184B2 (en) * | 2019-11-22 | 2024-02-21 | Go株式会社 | Communication systems, communication methods and information terminals |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0877176A (en) * | 1994-09-07 | 1996-03-22 | Hitachi Ltd | Foreign language translating device |
JP2012243060A (en) * | 2011-05-19 | 2012-12-10 | Dat Japan Kk | Translation system |
-
2016
- 2016-03-29 JP JP2016066152A patent/JP6174746B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2017181662A (en) | 2017-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102048030B1 (en) | Facilitate end-to-end multilingual communication with automated assistants | |
US10679622B2 (en) | Dependency graph generation in a networked system | |
JP6182272B2 (en) | Natural expression processing method, processing and response method, apparatus, and system | |
CN111414561B (en) | Method and device for presenting information | |
US20080195375A1 (en) | Echo translator | |
JP6141483B1 (en) | Speech translation device, speech translation method, and speech translation program | |
JP6290479B1 (en) | Speech translation device, speech translation method, and speech translation program | |
JP6449181B2 (en) | Speech translation system, speech translation method, and speech translation program | |
JP6353860B2 (en) | Speech translation device, speech translation method, and speech translation program | |
JP6174746B1 (en) | Speech translation device, speech translation method, and speech translation program | |
JP6250209B1 (en) | Speech translation device, speech translation method, and speech translation program | |
JP5998298B1 (en) | Speech translation device, speech translation method, and speech translation program | |
JP6310950B2 (en) | Speech translation device, speech translation method, and speech translation program | |
JP6383748B2 (en) | Speech translation device, speech translation method, and speech translation program | |
JP6110539B1 (en) | Speech translation device, speech translation method, and speech translation program | |
US20040078189A1 (en) | Phonetic identification assisted Chinese input system and method thereof | |
JP6334589B2 (en) | Fixed phrase creation device and program, and conversation support device and program | |
JP6198879B1 (en) | Speech translation device, speech translation method, and speech translation program | |
JP5289261B2 (en) | Text conversion device, method and program | |
Samanta et al. | Development of multimodal user interfaces to Internet for common people | |
JP7488617B1 (en) | Program, method, information processing device, and system | |
JP6147387B1 (en) | Speech translation system, control method thereof, and speech translation program | |
JP6298806B2 (en) | Speech translation system, control method therefor, and speech translation program | |
Laitila | The Development of a Content Management System for Small-Scale Voice Controlled Websites | |
Tsourakis et al. | Design Issues for a Bidirectional Mobile Medical Speech Translator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170426 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20170511 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170614 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170706 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6174746 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |