JP2017181727A - Voice translating device, voice translating method, and voice translating program - Google Patents

Voice translating device, voice translating method, and voice translating program Download PDF

Info

Publication number
JP2017181727A
JP2017181727A JP2016067706A JP2016067706A JP2017181727A JP 2017181727 A JP2017181727 A JP 2017181727A JP 2016067706 A JP2016067706 A JP 2016067706A JP 2016067706 A JP2016067706 A JP 2016067706A JP 2017181727 A JP2017181727 A JP 2017181727A
Authority
JP
Japan
Prior art keywords
input
mode
voice
log
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016067706A
Other languages
Japanese (ja)
Other versions
JP6198879B1 (en
Inventor
知高 大越
Tomotaka Ogoshi
知高 大越
千春 宇賀神
Chiharu Ugajin
千春 宇賀神
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Recruit Lifestyle Co Ltd
Original Assignee
Recruit Lifestyle Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Recruit Lifestyle Co Ltd filed Critical Recruit Lifestyle Co Ltd
Priority to JP2016067706A priority Critical patent/JP6198879B1/en
Application granted granted Critical
Publication of JP6198879B1 publication Critical patent/JP6198879B1/en
Publication of JP2017181727A publication Critical patent/JP2017181727A/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To make possible improvement of the accuracy of speech analysis of inputted voice and enhanced efficiency of the workload of analytical work thereby to improve the accuracy of voice translation.SOLUTION: A voice translating device according to an aspect is equipped with an input unit for accepting input of the user's voice, a translating unit that translates the contents of inputted voice into another language, an output unit for outputting the translated contents of the inputted voice in voice and/or written text, a log recording unit for recording a log of the inputted voice, and a mode switching unit for switching over between a first mode for voice inputting of conversation between the user and a user's conversation partner and a second mode for voice inputting in non-conversational actions between the user and the partner. The log recording unit distinguishes the log of inputted voice in the first mode and the log of inputted voice in the second mode in recording them.SELECTED DRAWING: Figure 2

Description

本発明は、音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムに関する。   The present invention relates to a speech translation device, a speech translation method, and a speech translation program.

互いの言語を理解できない人同士の会話、例えば店員(飲食店等の店舗の販売員)と外国人(海外からの観光客等)との会話を可能ならしめるべく、話者の発話音声をテキスト化し、そのテキストの内容を相手の言語に機械翻訳した上で画面に表示したり、或いは、音声合成技術を用いてそのテキストの内容を音声再生したりする音声翻訳技術が提案されている(例えば特許文献1参照)。また、かかる音声翻訳技術を具現化したスマートフォン等の情報端末で動作する音声翻訳アプリケーションも実用化されている(例えば非特許文献1参照)。   To make conversations between people who do not understand each other's language, for example, conversations between shop assistants (sales staff at restaurants, etc.) and foreigners (tourists from abroad, etc.) A speech translation technology has been proposed in which the text content is machine-translated into the language of the other party and displayed on the screen, or the text content is played back using speech synthesis technology (for example, Patent Document 1). In addition, a speech translation application that operates on an information terminal such as a smartphone that embodies such speech translation technology has been put into practical use (see, for example, Non-Patent Document 1).

特開平9−34895号公報Japanese Patent Laid-Open No. 9-34895

U−STARコンソーシアムホームページ[平成28年2月1日検索]、インターネット<URL:http://www.ustar-consortium.com/app_ja/app.html>U-STAR Consortium homepage [Search on February 1, 2016], Internet <URL: http://www.ustar-consortium.com/app_en/app.html>

かかる従来の音声翻訳アプリケーション等においては、話者の入力音声の内容が発話日時等とともに時系列に記録され(以下、このようにして記録されたデータを「入力音声のログ」という。)、会話時の発話内容、発話形態、発話状況、発話傾向、発話頻度等の分析(発話分析)が行われ得る。この発話分析の結果は、例えば、音声翻訳アプリケーション等で用いられる音声認識用モデル(音響モデル、言語モデル等)の学習に資され、音声翻訳の精度向上が図られる。   In such a conventional speech translation application or the like, the content of the input speech of the speaker is recorded in time series together with the utterance date and time (hereinafter, the recorded data is referred to as “log of input speech”), and the conversation. The analysis (utterance analysis) of the utterance content, the utterance form, the utterance situation, the utterance tendency, the utterance frequency, etc. may be performed. The result of this utterance analysis is contributed to learning of a speech recognition model (acoustic model, language model, etc.) used in a speech translation application or the like, and the accuracy of speech translation is improved.

ところで、音声翻訳アプリケーションの利用目的としては、実際の会話(コミュニケーション)を行う利用や、会話の相手(対話者)がいない状況において翻訳される内容を事前に確認するといった利用、つまり実利用の他にも、例えば以下に示すような形態の使用が考えられる。
(1)音声翻訳アプリケーションの試行又はその操作に慣れるための試行
(2)単語や熟語の意味を調べる辞書引き
(3)会話以外の文章(記事、歌詞、名言、台詞等)の翻訳
(4)外国語の発音練習
By the way, the purpose of using the speech translation application is to use the actual conversation (communication) or to confirm in advance the content to be translated in a situation where there is no conversation partner (interactive person). In addition, for example, use of the following forms is conceivable.
(1) Trial of speech translation application or trial to get used to its operation (2) Dictionary lookup to examine the meaning of words and idioms (3) Translation of sentences other than conversation (articles, lyrics, quotes, dialogues, etc.) (4) Practice pronunciation of foreign languages

しかし、実際の会話(実利用)での入力音声のログのみならず、上記(1)〜(4)で示すような形態での使用時における入力音声のログを記録し、それらのログを全て用いて実利用時における入力音声の発話分析を行うことは、分析精度の向上や分析作業の効率化の観点、及び翻訳精度を高める観点から望ましくない。   However, not only the log of the input voice in actual conversation (actual use) but also the log of the input voice at the time of use in the form as shown in the above (1) to (4) is recorded. It is not desirable to perform utterance analysis of input speech during actual use from the viewpoint of improving analysis accuracy, improving efficiency of analysis work, and improving translation accuracy.

そこで、本発明は、かかる事情に鑑みてなされたものであり、入力音声の発話分析の精度向上、及び分析作業の負荷軽減による効率化を図ることができ、これにより、音声翻訳の精度を高めることが可能な音声翻訳装置、音声翻訳方法、及び音声翻訳プログラムを提供することを目的とする。   Therefore, the present invention has been made in view of such circumstances, and can improve the accuracy of speech analysis of input speech and improve efficiency by reducing the load of analysis work, thereby improving the accuracy of speech translation. An object of the present invention is to provide a speech translation apparatus, a speech translation method, and a speech translation program.

上記課題を解決するため、本発明の一態様による音声翻訳装置は、ユーザの音声を入力するための入力部、入力音声の内容を異なる言語の内容に翻訳する翻訳部、及び、入力音声の翻訳内容(対訳)を音声及び/又はテキストで出力する出力部を備える。そして、当該音声翻訳装置は、入力音声のログを記録するログ記録部と、ユーザと対話者(会話の相手方)との会話における音声入力を行うための第1のモードと、ユーザと対話者との会話以外の動作における音声入力を行うための第2のモードとを切り替えるモード切替部とを更に備えるとともに、ログ記録部は、第1のモードにおける入力音声のログ、及び、第2のモードにおける入力音声のログを、互いに区別して記録する。なお、「会話」には、対話者がいない状況において、翻訳される内容を事前に確認するといった会話のための準備をする利用も含まれるものとする。   In order to solve the above problems, a speech translation apparatus according to an aspect of the present invention includes an input unit for inputting a user's speech, a translation unit that translates the content of the input speech into content of a different language, and translation of the input speech An output unit is provided for outputting the contents (parallel translation) as audio and / or text. The speech translation apparatus includes: a log recording unit that records a log of input speech; a first mode for performing speech input in a conversation between a user and a conversation person (conversation partner); a user and a conversation person; And a mode switching unit that switches between the second mode for performing voice input in an operation other than the conversation of the user, and the log recording unit includes a log of input voice in the first mode and a second mode. Input audio logs are recorded separately from each other. It should be noted that “conversation” includes use for preparing for a conversation such as confirming in advance the contents to be translated in a situation where there is no interlocutor.

また、具体的には、モード切替部は、ユーザが第1のモードと第2のモードとを切り替えるための切替手段を、ユーザが使用するユーザ装置に表示するようにしてもよい。   Specifically, the mode switching unit may display switching means for the user to switch between the first mode and the second mode on the user device used by the user.

さらに、ログ記録部は、第1のモードにおける入力音声のログ、及び、第2のモードにおける入力音声のログを同一のデータベースに記録してもよい。   Further, the log recording unit may record the input voice log in the first mode and the input voice log in the second mode in the same database.

またさらに、第1のモードにおける入力音声のログのみを用いて発話分析を行う分析部を更に備えても好適である。   Furthermore, it is preferable to further include an analysis unit that performs speech analysis using only the log of the input speech in the first mode.

また、本発明の一態様による音声翻訳方法は、入力部、翻訳部、出力部、ログ記録部、及びモード切替部を備える音声翻訳装置を用いる方法である。すなわち、当該方法は、ユーザの音声を入力するステップと、翻訳部が、入力音声の内容を異なる言語の内容に翻訳するステップと、出力部が、翻訳内容を音声及び/又はテキストで出力するステップと、 ログ記録部が、入力音声のログを記録するステップと、モード切替部が、ユーザと対話者との会話における音声入力を行うための第1のモードと、ユーザと対話者との会話以外の動作における音声入力を行うための第2のモードとを切り替えるステップとを含む。そして、ログを記録するステップにおいては、第1のモードにおける入力音声のログ、及び、第2のモードにおける入力音声のログが、互いに区別して記録される。   A speech translation method according to an aspect of the present invention is a method using a speech translation apparatus including an input unit, a translation unit, an output unit, a log recording unit, and a mode switching unit. That is, in the method, the step of inputting the user's voice, the step of the translation unit translating the content of the input voice into the content of a different language, and the step of outputting the translation content by voice and / or text A step in which the log recording unit records a log of the input voice, a mode switching unit performs a voice input in a conversation between the user and the conversation person, and a conversation other than the conversation between the user and the conversation person. And switching to the second mode for performing voice input in the operation. In the step of recording the log, the input voice log in the first mode and the input voice log in the second mode are recorded separately from each other.

また、本発明の一態様による音声翻訳プログラムは、コンピュータ(単数又は単一種に限られず、複数又は複数種でもよい;以下同様)を、ユーザの音声を入力するための入力部と、入力音声の内容を異なる言語の内容に翻訳する翻訳部と、翻訳内容を音声及び/又はテキストで出力する出力部と、入力音声のログを記録するログ記録部と、ユーザと対話者との会話における音声入力を行うための第1のモードと、ユーザと対話者との会話以外の動作における音声入力を行うための第2のモードとを切り替えるモード切替部として機能させる。そして、ログ記録部は、第1のモードにおける入力音声のログ、及び、第2のモードにおける入力音声のログを、互いに区別して記録する。   A speech translation program according to an aspect of the present invention includes a computer (not limited to a single type or a single type, but may be a plurality or a plurality of types; the same applies hereinafter), an input unit for inputting a user's voice, A translation unit that translates content into different language content, an output unit that outputs the translated content in speech and / or text, a log recording unit that records a log of input speech, and voice input in a conversation between a user and a conversation person And a mode switching unit that switches between a first mode for performing voice input and a second mode for performing voice input in operations other than conversation between the user and the interlocutor. Then, the log recording unit records the input voice log in the first mode and the input voice log in the second mode separately from each other.

本発明によれば、ユーザと対話者との会話(すなわち音声翻訳装置等の実利用時)における音声入力を行うための第1のモードと、ユーザと対話者との会話以外の動作(すなわち試行、辞書引き、会話以外の文章翻訳、発音練習等)における音声入力を行うための第2のモードが用意されており、それらのモードを適宜切り替えることができる。また、第1のモード(実利用)における入力音声のログ、及び、第2のモード(実利用以外の使用)における入力音声のログを、互いに区別して記録することができる。したがって、第1のモードにおける入力音声のログのみ(つまり実利用時の発話情報のみ)を簡易に抽出でき、それを用いることにより、実利用時の発話分析を正確に行い、かつ、その際の負荷を軽減することができる。その結果、入力音声の発話分析の精度向上及び分析作業の効率化を図ることができ、これにより、音声翻訳の精度を高めることが可能となる。   According to the present invention, the first mode for performing speech input in the conversation between the user and the conversation person (that is, when the speech translation apparatus or the like is actually used) and the operation other than the conversation between the user and the conversation person (that is, trial) , Dictionary lookup, sentence translation other than conversation, pronunciation practice, etc.) are provided for the second mode, and these modes can be switched as appropriate. Also, the input voice log in the first mode (actual use) and the input voice log in the second mode (use other than actual use) can be recorded separately from each other. Therefore, only the log of the input voice in the first mode (that is, only the utterance information at the time of actual use) can be easily extracted, and by using it, the utterance analysis at the time of actual use can be accurately performed, and The load can be reduced. As a result, it is possible to improve the accuracy of speech analysis of input speech and increase the efficiency of analysis work, thereby improving the accuracy of speech translation.

本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。1 is a system block diagram schematically showing a preferred embodiment of a network configuration and the like related to a speech translation apparatus according to the present invention. 本発明による音声翻訳装置の好適な一実施形態における処理の流れ(一部)の一例を示すフローチャートである。It is a flowchart which shows an example of the flow (part) of the process in suitable one Embodiment of the speech translation apparatus by this invention. (A)乃至(C)は、第1実施形態による情報端末における表示画面の遷移の一例を示す平面図である。(A) thru | or (C) are top views which show an example of the transition of the display screen in the information terminal by 1st Embodiment. 音声ログデータベースのデータ構造の一例を示す模式図である。It is a schematic diagram which shows an example of the data structure of an audio log database.

以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。   Hereinafter, embodiments of the present invention will be described in detail. The following embodiments are examples for explaining the present invention, and are not intended to limit the present invention only to the embodiments. The present invention can be variously modified without departing from the gist thereof. Furthermore, those skilled in the art can employ embodiments in which the elements described below are replaced with equivalent ones, and such embodiments are also included in the scope of the present invention. Furthermore, positional relationships such as up, down, left, and right shown as needed are based on the display shown unless otherwise specified. Furthermore, various dimensional ratios in the drawings are not limited to the illustrated ratios.

(装置構成)
図1は、本発明による音声翻訳装置に係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。この例において、音声翻訳装置100は、ユーザが使用する情報端末10(ユーザ装置)にネットワークNを介して電子的に接続されるサーバ20を備える(但し、これに限定されない)。
(Device configuration)
FIG. 1 is a system block diagram schematically showing a preferred embodiment such as a network configuration related to a speech translation apparatus according to the present invention. In this example, the speech translation apparatus 100 includes a server 20 that is electronically connected to the information terminal 10 (user apparatus) used by the user via the network N (but is not limited to this).

情報端末10は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末10は、ネットワークNとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末10は、プロセッサ11、記憶資源12、音声入出力デバイス13、通信インターフェイス14、入力デバイス15、表示デバイス16、及びカメラ17を備えている。また、情報端末10は、インストールされた音声翻訳アプリケーションソフト(本発明の一実施形態による音声翻訳プログラムの少なくとも一部)が動作することにより、本発明の一実施形態による音声翻訳装置の一部又は全部として機能するものである。   The information terminal 10 employs a user interface such as a touch panel and a display with high visibility, for example. The information terminal 10 here is a portable tablet terminal device including a mobile phone represented by a smartphone having a communication function with the network N. The information terminal 10 further includes a processor 11, a storage resource 12, a voice input / output device 13, a communication interface 14, an input device 15, a display device 16, and a camera 17. In addition, the information terminal 10 operates by the installed speech translation application software (at least a part of the speech translation program according to the embodiment of the present invention), so that a part of the speech translation apparatus according to the embodiment of the present invention or It functions as a whole.

プロセッサ11は、算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成される。また、プロセッサ11は、記憶資源12に格納されているプログラムP10である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムP10としての音声翻訳アプリケーションソフトは、例えばサーバ20からネットワークNを通じて配信可能なものであり、手動で又は自動でインストール及びアップデートされてもよい。   The processor 11 includes an arithmetic logic unit and various registers (program counter, data register, instruction register, general-purpose register, etc.). Further, the processor 11 interprets and executes speech translation application software, which is the program P10 stored in the storage resource 12, and performs various processes. The speech translation application software as the program P10 can be distributed from the server 20 through the network N, for example, and may be installed and updated manually or automatically.

なお、ネットワークNは、例えば、有線ネットワーク(近距離通信網(LAN)、広域通信網(WAN)、又は付加価値通信網(VAN)等)と無線ネットワーク(移動通信網、衛星通信網、ブルートゥース(Bluetooth(登録商標))、WiFi(Wireless Fidelity)、HSDPA(High Speed Downlink Packet Access)等)が混在して構成される通信網である。   The network N includes, for example, a wired network (a short-range communication network (LAN), a wide-area communication network (WAN), a value-added communication network (VAN), etc.) and a wireless network (mobile communication network, satellite communication network, Bluetooth ( Bluetooth (registered trademark)), WiFi (Wireless Fidelity), HSDPA (High Speed Downlink Packet Access), etc.).

記憶資源12は、物理デバイス(例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体)の記憶領域が提供する論理デバイスであり、情報端末10の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス13を制御するための入出力デバイスドライバプログラム、入力デバイス15を制御するための入力デバイスドライバプログラム、表示デバイス16を制御するための表示デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス13は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。   The storage resource 12 is a logical device provided by a storage area of a physical device (for example, a computer-readable recording medium such as a semiconductor memory), and an operating system program, a driver program, various data, etc. used for processing of the information terminal 10 Is stored. Examples of the driver program include an input / output device driver program for controlling the audio input / output device 13, an input device driver program for controlling the input device 15, and a display device driver program for controlling the display device 16. Can be mentioned. Furthermore, the voice input / output device 13 is, for example, a general microphone and a sound player capable of reproducing sound data.

通信インターフェイス14は、例えばサーバ20との接続インターフェイスを提供するものであり、無線通信インターフェイス及び/又は有線通信インターフェイスから構成される。また、入力デバイス15は、例えば、表示デバイス16に表示されるアイコン、ボタン、仮想キーボード等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末10に外付けされる各種入力装置を例示することができる。   The communication interface 14 provides a connection interface with the server 20, for example, and is configured from a wireless communication interface and / or a wired communication interface. The input device 15 provides an interface for accepting an input operation by a tap operation such as an icon, a button, or a virtual keyboard displayed on the display device 16, and is externally attached to the information terminal 10 in addition to the touch panel. Various input devices can be exemplified.

表示デバイス16は、画像表示インターフェイスとして各種の情報をユーザや、必要に応じて対話者(会話の相手方)に提供するものであり、例えば、有機ELディスプレイ、液晶ディスプレイ、CRTディスプレイ等が挙げられる。また、カメラ17は、種々の被写体の静止画や動画を撮像するためのものである。   The display device 16 provides various types of information as an image display interface to a user or a dialoguer (conversation partner) as necessary. Examples thereof include an organic EL display, a liquid crystal display, and a CRT display. The camera 17 is for capturing still images and moving images of various subjects.

サーバ20は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される(図示においては単数で示すが、これに限定されない)。そして、各サーバ20は、プロセッサ21、通信インターフェイス22、及び記憶資源23を備える。   The server 20 is constituted by, for example, a host computer having a high arithmetic processing capability, and expresses a server function by operating a predetermined server program in the host computer, for example, a speech recognition server, a translation server, And a single or a plurality of host computers functioning as a speech synthesis server (in the drawing, it is indicated by a single, but is not limited thereto). Each server 20 includes a processor 21, a communication interface 22, and a storage resource 23.

プロセッサ21は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成され、記憶資源23に格納されているプログラムP20を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス22は、ネットワークNを介して情報端末10に接続するためのハードウェアモジュールであり、例えば、ISDNモデム、ADSLモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。   The processor 21 is composed of an arithmetic and logic unit for processing arithmetic operations, logical operations, bit operations and the like and various registers (program counter, data register, instruction register, general-purpose register, etc.), and is stored in the storage resource 23. P20 is interpreted and executed, and a predetermined calculation processing result is output. The communication interface 22 is a hardware module for connecting to the information terminal 10 via the network N. For example, the communication interface 22 is a modulation / demodulation device such as an ISDN modem, an ADSL modem, a cable modem, an optical modem, or a soft modem.

記憶資源23は、例えば、物理デバイス(ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等)の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数のプログラムP20、各種モジュールL20、各種データベースD20、及び各種モデルM20が格納されている。また、記憶資源23には、ユーザが対話者へ話しかけるために予め用意された複数の質問定型文、入力音声の履歴データ、各種設定用のデータ等も記憶されている。   The storage resource 23 is a logical device provided by, for example, a storage area of a physical device (a computer-readable recording medium such as a disk drive or a semiconductor memory), and each includes one or a plurality of programs P20, various modules L20, and various databases. D20 and various models M20 are stored. The storage resource 23 also stores a plurality of question phrases prepared in advance for the user to speak to the conversation person, input voice history data, various setting data, and the like.

プログラムP20は、サーバ20のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールL20は、情報端末10から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムP10の動作中に適宜呼び出されて実行されるソフトウェアモジュール(モジュール化されたサブプログラム)である。かかるモジュールL20としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。   The program P20 is the above-described server program that is the main program of the server 20. In addition, the various modules L20 perform a series of information processing related to requests and information transmitted from the information terminal 10, so that they are appropriately called and executed during the operation of the program P10 (moduleized subprograms). ). Examples of the module L20 include a speech recognition module, a translation module, and a speech synthesis module.

また、各種データベースD20としては、音声翻訳処理のために必要な各種コーパス(例えば、日本語と英語の音声翻訳の場合、日本語音声コーパス、英語音声コーパス、日本語文字(語彙)コーパス、英語文字(語彙)コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等)、音声データベース、ユーザに関する情報を管理するための管理用データベース等が挙げられる。また、各種モデルM20としては、音声認識に使用する音響モデルや言語モデル等が挙げられる。   The various databases D20 include various corpora required for speech translation processing (for example, in the case of Japanese and English speech translation, a Japanese speech corpus, an English speech corpus, a Japanese character (vocabulary) corpus, an English character) (Vocabulary) Corpus, Japanese dictionary, English dictionary, Japanese-English bilingual dictionary, Japanese-English bilingual corpus, etc.), voice database, management database for managing information about users, and the like. Examples of the various models M20 include acoustic models and language models used for speech recognition.

以上のとおり構成された音声翻訳装置100における、音声翻訳処理の操作及び動作の一例について、以下に更に説明する。   An example of operations and operations of speech translation processing in the speech translation apparatus 100 configured as described above will be further described below.

図2は、音声翻訳装置100における処理の流れ(の一部)の一例を示すフローチャートである。また、図3(A)乃至(C)は、情報端末10の画面表示における遷移(の一部)の一例を示す平面図である。なお、ここでは、情報端末10のユーザが日本語を話す飲食店等の店員であり、対話者(会話の相手)が英語、中国語(例えば書体により2種類)、又はハングル語を話す外国人である場合の会話を想定する(但し、言語はこれに限定されない)。   FIG. 2 is a flowchart showing an example of (a part of) the processing flow in the speech translation apparatus 100. 3A to 3C are plan views showing an example of (a part of) a transition in the screen display of the information terminal 10. Here, the user of the information terminal 10 is a store clerk of a restaurant or the like that speaks Japanese, and the foreigner who speaks English, Chinese (for example, two types depending on the typeface), or Korean Is assumed (however, the language is not limited to this).

まず、ユーザ(店員)が当該アプリケーションを起動する(ステップSU1)と、情報端末10の表示デバイス16に、図3(A)に示す対話者の言語選択画面が表示される(ステップSJ1)。この言語選択画面には、対話者に言語を尋ねることをユーザに促すための日本語テキストT1、対話者に言語を尋ねる旨の英語テキストT2、及び、想定される複数の代表的な言語(ここでも、英語、中国語(例えば書体により2種類)、ハングル語)を示す言語ボタン31が表示される。   First, when the user (store clerk) starts the application (step SU1), the dialog language selection screen shown in FIG. 3A is displayed on the display device 16 of the information terminal 10 (step SJ1). The language selection screen includes Japanese text T1 for prompting the user to ask the language about the conversation person, English text T2 for asking the conversation person about the language, and a plurality of typical languages (here However, the language button 31 indicating English, Chinese (for example, two types depending on the typeface), or Hangul) is displayed.

このとき、図3(A)に示す如く、日本語テキストT1及び英語テキストT2は、プロセッサ11及び表示デバイス16により、情報端末10の表示デバイス16の画面において、異なる領域によって区分けされ、且つ、互いに逆向き(互いに異なる向き;図示において上下逆向き)に表示される。これにより、ユーザと対話者が対面している状態で会話を行う場合、ユーザは日本語テキストT1を確認し易い一方、対話者は、英語テキストT2を確認し易くなる。また、日本語テキストT1と英語テキストT2が区分けして表示されるので、両者を明別して更に確認し易くなる利点がある。   At this time, as shown in FIG. 3A, the Japanese text T1 and the English text T2 are separated by different areas on the screen of the display device 16 of the information terminal 10 by the processor 11 and the display device 16, and They are displayed in reverse directions (different directions; upside down in the figure). Thereby, when a conversation is performed in a state where the user and the conversation person face each other, the user can easily confirm the Japanese text T1, while the conversation person can easily confirm the English text T2. Further, since the Japanese text T1 and the English text T2 are displayed separately, there is an advantage that they can be clearly distinguished and further confirmed.

ユーザがその言語選択画面の英語テキストT2の表示を対話者に提示し、対話者に例えば英語(English)のボタンをタップしてもらうことにより、又は、ユーザ自らが、対話者の言語を選択することができる。こうして対話者の言語が選択されると、サーバ20のプロセッサ21及び情報端末10のプロセッサ11により、ホーム画面として、日本語と英語の音声入力の待機画面が表示デバイス16に表示される(図3(B);ステップSJ2)。この待機画面には、ユーザと対話者の言語の何れを発話するかを問う日本語テキストT3、並びに、日本語の音声入力を行うための日本語入力ボタン32a及び英語の音声入力を行うための英語入力ボタン32bが表示される。   The user presents the display of the English text T2 on the language selection screen to the dialog person and asks the dialog person to tap, for example, an English button, or the user himself selects the language of the dialog person. be able to. When the language of the conversation person is selected in this manner, the processor 21 of the server 20 and the processor 11 of the information terminal 10 display a standby screen for voice input in Japanese and English on the display device 16 as the home screen (FIG. 3). (B); Step SJ2). On this standby screen, the Japanese text T3 asking which of the user's language and the talker's language is to be spoken, the Japanese input button 32a for performing Japanese speech input, and the English speech input. An English input button 32b is displayed.

また、この待機画面には、予め設定されている複数の質問定型文のリスト表示を選択するためのお声がけボタン33、図3(A)の言語選択画面に戻って対話者の言語を切り替える(言語選択をやり直す)ための言語選択ボタン34、これまでになされた音声入力内容の履歴表示を選択するための履歴ボタン35、及び当該アプリケーションソフトの各種設定を行うための設定ボタン36も表示される。   Also, on this standby screen, a voice button 33 for selecting a list display of a plurality of preset question phrases, and the language selection screen of FIG. A language selection button 34 for re-selecting the language, a history button 35 for selecting the history display of the voice input contents made so far, and a setting button 36 for performing various settings of the application software are also displayed. The

ここで、図2には、これ以降の処理として、ユーザが設定ボタン36を選択し、かつ、後述する「練習モード」(第2のモード)をONにするか否かに着目した場合分け(ステップSU2,SU3)のフローを示す。なお、通常の音声翻訳処理においては、図3(B)に示す待機画面から、ユーザと対話者の会話及び/又は会話準備のための音声入力を行うことができる(それ以降の処理を「通常モード」(第1のモード)という)。以下、通常モード及び練習モードにおける処理の流れについて、順に説明する。   Here, in FIG. 2, as a subsequent process, the user selects the setting button 36, and the case is focused on whether or not a “practice mode” (second mode) to be described later is turned on ( The flow of steps SU2, SU3) is shown. Note that in normal speech translation processing, speech input for conversation and / or conversation preparation between the user and the conversation person can be performed from the standby screen shown in FIG. Mode "(referred to as the first mode). Hereinafter, the flow of processing in the normal mode and the practice mode will be described in order.

[通常モード(第1のモード)]
図3(B)に示す待機画面において、ユーザが日本語入力ボタン32aをタップして日本語の音声入力を選択すると、その音声入力が可能な状態となる。この状態で、ユーザが対話者への伝達事項等を発話すると、音声入出力デバイス13を通して音声入力が行われる(ステップSJ3)。情報端末10のプロセッサ11は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。このとおり、情報端末10自体、又はプロセッサ11及び音声入出力デバイス13が「入力部」として機能する。
[Normal mode (first mode)]
When the user taps the Japanese input button 32a and selects Japanese voice input on the standby screen shown in FIG. 3B, the voice input is enabled. In this state, when the user utters a matter to be communicated to the interlocutor, voice input is performed through the voice input / output device 13 (step SJ3). The processor 11 of the information terminal 10 generates an audio signal based on the audio input, and transmits the audio signal to the server 20 through the communication interface 14 and the network N. As described above, the information terminal 10 itself, or the processor 11 and the voice input / output device 13 function as an “input unit”.

サーバ20のプロセッサ21は、通信インターフェイス22を通してその音声信号を受信し、音声認識処理を行う(ステップSJ4)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等)を呼び出し、入力音声の「音」を「読み」(文字)へ変換する。このとおり、プロセッサ21、又は、サーバ20が全体として「音声認識サーバ」として機能する。   The processor 21 of the server 20 receives the voice signal through the communication interface 22 and performs voice recognition processing (step SJ4). At this time, the processor 21 calls the necessary module L20, database D20, and model M20 (speech recognition module, Japanese speech corpus, acoustic model, language model, etc.) from the storage resource 23, and obtains “sound” of the input speech. Convert to "reading" (character). As described above, the processor 21 or the server 20 functions as a “voice recognition server” as a whole.

次に、入力音声が認識された場合、プロセッサ21は、その音声入力が「通常モード」でなされたものか「練習モード」でなされたものかを判定する(モード判定)。そして、ここでは、通常モードにおける音声入力であるので、認識された入力音声にフラグとして例えば「1」を割り当てる(スッテプSJ5)。それから、プロセッサ21は、認識された入力音声のログを、記憶資源23に記憶されているデータベースD20の1つである音声ログデータベースD21に記録する(ステップSJ6)。このとおり、プロセッサ21及び記憶資源23が、「ログ記録部」として機能する。   Next, when the input voice is recognized, the processor 21 determines whether the voice input is performed in the “normal mode” or the “practice mode” (mode determination). Here, since the voice input is in the normal mode, for example, “1” is assigned as a flag to the recognized input voice (step SJ5). Then, the processor 21 records the log of the recognized input voice in the voice log database D21 which is one of the databases D20 stored in the storage resource 23 (step SJ6). As described above, the processor 21 and the storage resource 23 function as a “log recording unit”.

ここで、図4は、かかる音声ログデータベースD21のデータ構造の一例を示す模式図である。音声ログデータベースD21は、例えばデータテーブル40として表現することができ、このデータテーブル40は、音声ログデータD毎に、データ番号41、モード種別42、ユーザID43、記録日(発話日)44、入力音声テキスト45等の複数のデータレコードを有する。これらのデータレコードのなかで、モード種別42には、上述したフラグが記録される。この通常モードでは、プロセッサ21は、認識された入力音声のログを、例えばデータ番号41=「1」又は「3」の音声ログデータDに関連付け、そのモード種別42を通常モードに割り当てられたフラグである「1」として、音声ログデータベースD21に記録する。   Here, FIG. 4 is a schematic diagram showing an example of the data structure of the voice log database D21. The voice log database D21 can be expressed as, for example, a data table 40. The data table 40 is a data number 41, a mode type 42, a user ID 43, a recording date (utterance date) 44, an input for each voice log data D. It has a plurality of data records such as voice text 45. Among these data records, the above-described flag is recorded in the mode type 42. In this normal mode, the processor 21 associates the recognized input voice log with the voice log data D with the data number 41 = “1” or “3”, for example, and sets the mode type 42 to the flag assigned to the normal mode. Is recorded in the voice log database D21 as “1”.

次に、プロセッサ21は、認識された音声の「読み」(文字)を他の言語に翻訳する多言語翻訳処理へ移行する(ステップSJ7)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20及びデータベースD20(翻訳モジュール、日本語文字コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等)を呼び出し、認識結果である入力音声の「読み」(文字列)を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する英語を抽出し、それらを英文法に従って並び替えて自然な英語の句、節、文等へと変換する。このとおり、プロセッサ21は、「翻訳部」としても機能し、サーバ20は、全体として「翻訳サーバ」としても機能する。なお、入力音声がうまく認識されなかった場合には、音声の再入力を行うことができる(画面表示を図示せず)。   Next, the processor 21 proceeds to multilingual translation processing for translating the recognized “reading” (characters) of the recognized speech into another language (step SJ7). At this time, the processor 21 calls the necessary module L20 and database D20 (translation module, Japanese character corpus, Japanese dictionary, English dictionary, Japanese-English bilingual dictionary, Japanese-English bilingual corpus, etc.) from the storage resource 23 and recognizes them. The resulting input speech “reading” (character string) is properly sorted and converted into Japanese phrases, clauses, sentences, etc., the English corresponding to the conversion result is extracted, and these are sorted according to the English grammar. To natural English phrases, clauses, sentences, etc. As described above, the processor 21 also functions as a “translation unit”, and the server 20 also functions as a “translation server” as a whole. If the input voice is not recognized well, the voice can be re-input (screen display is not shown).

また、プロセッサ21は、認識された入力音声の内容を記憶資源23に記憶する。次に、多言語翻訳処理、及び、入力音声の内容の記憶処理が完了すると、プロセッサ21は、音声合成処理へ移行する(ステップSJ8)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声合成モジュール、英語音声コーパス、音響モデル、言語モデル等)を呼び出し、翻訳結果である英語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ21は、「音声合成部」としても機能し、サーバ20は、全体として「音声合成サーバ」としても機能する。   Further, the processor 21 stores the content of the recognized input voice in the storage resource 23. Next, when the multilingual translation processing and the storage processing of the contents of the input speech are completed, the processor 21 proceeds to speech synthesis processing (step SJ8). At this time, the processor 21 calls the necessary module L20, database D20, and model M20 (speech synthesis module, English speech corpus, acoustic model, language model, etc.) from the storage resource 23, and the English phrase that is the translation result, Convert clauses, sentences, etc. to natural speech. As described above, the processor 21 also functions as a “speech synthesizer”, and the server 20 also functions as a “speech synthesizer” as a whole.

次いで、プロセッサ21は、合成された音声に基づいて音声出力用の音声信号を生成し、通信インターフェイス22及びネットワークNを通して、情報端末10へ送信する。情報端末10のプロセッサ11は、通信インターフェイス14を通してその音声信号を受信し、音声入出力デバイス13を用いて、音声出力処理を行う(ステップSJ9)。このとおり、プロセッサ11及び音声入出力デバイス13が、「出力部」として機能する。   Next, the processor 21 generates a voice signal for voice output based on the synthesized voice, and transmits the voice signal to the information terminal 10 through the communication interface 22 and the network N. The processor 11 of the information terminal 10 receives the audio signal through the communication interface 14, and performs an audio output process using the audio input / output device 13 (step SJ9). As described above, the processor 11 and the voice input / output device 13 function as an “output unit”.

[練習モード(第2のモード)]
一方、図3(B)に示す待機画面において、ユーザが設定ボタン36をタップする(ステップSU2において「Yes」)と、情報端末10のプロセッサ11は、各種設定メニューの一覧を表示するための指令信号をサーバ20へ送信する。その指令信号を受信したサーバ20のプロセッサ21は、設定メニューリストの表示画像データを情報端末10のプロセッサ11へ送信し、プロセッサ11は、例えば図3(C)に示す設定メニュー画面を表示デバイス16に表示する(ステップSJ10)。この設定メニュー画面には、ユーザが理解できる日本語の設定メニュー37が横書きで画面縦方向にリスト表示され、ユーザが各設定メニューのテキスト部分をタップすることにより、所望の設定メニューを選択することができる。
[Practice mode (second mode)]
On the other hand, when the user taps the setting button 36 on the standby screen shown in FIG. 3B (“Yes” in step SU2), the processor 11 of the information terminal 10 issues a command for displaying a list of various setting menus. A signal is transmitted to the server 20. The processor 21 of the server 20 that has received the command signal transmits display image data of the setting menu list to the processor 11 of the information terminal 10, and the processor 11 displays a setting menu screen shown in FIG. (Step SJ10). On this setting menu screen, a Japanese setting menu 37 that can be understood by the user is displayed as a list in horizontal writing in the vertical direction, and the user selects a desired setting menu by tapping the text portion of each setting menu. Can do.

そして、この設定メニュー37には、「練習モード」が用意されており、その練習モードを表す日本語テキストT4とともに、それに隣接してスライドスイッチ38が表示される。このスライドスイッチ38は、練習モードのON/OFFを切り替えるためのものであり、ユーザが必要に応じて、スライドスイッチ38をONにすることにより、当該音声翻訳アプリケーションの試行又はその操作に慣れるための試行としての「練習」を、通常モードと区別して行うことができる。このとおり、スライドスイッチ38が、第1のモードと第2のモードを切り替えるための「切替手段」に相当し、また、プロセッサ11,21が、「モード切替部」として機能する。   In the setting menu 37, a “practice mode” is prepared, and a slide switch 38 is displayed adjacent to the Japanese text T4 representing the practice mode. The slide switch 38 is used to switch the practice mode ON / OFF. When the user turns on the slide switch 38 as necessary, the slide switch 38 is used to get used to the trial or operation of the speech translation application. “Practice” as a trial can be performed separately from the normal mode. As described above, the slide switch 38 corresponds to a “switching unit” for switching between the first mode and the second mode, and the processors 11 and 21 function as a “mode switching unit”.

そうしてユーザが練習モードをONにして設定メニューを閉じると、表示デバイス16には、図3(B)に示す待機画面が再表示され、前述した「通常モード」におけるステップSJ3〜SJを、同様の手順で実行することができる。その際、練習モードにおける処理が通常モードにおける処理と異なるのは、ステップSJ5,SJ6における処理のみであるため、その他のステップにおける処理については、ここでの詳細な説明を省略する。   When the user turns on the practice mode and closes the setting menu, the standby screen shown in FIG. 3B is displayed again on the display device 16, and steps SJ3 to SJ in the “normal mode” described above are performed. The same procedure can be executed. At this time, since the process in the practice mode is different from the process in the normal mode only in the processes in steps SJ5 and SJ6, detailed description here is omitted for the processes in the other steps.

すなわち、この練習モードでは、サーバ20のプロセッサ21は、スッテプSJ5において、認識された入力音声にフラグとして例えば「2」を割り当てる。それから、この練習モードでは、プロセッサ21は、ステップSJ6において、認識された入力音声のログを、例えばデータ番号41=「2」の音声ログデータDに関連付け、そのモード種別42を練習モードに割り当てられたフラグである「2」として、音声ログデータベースD21に記録する。   That is, in this practice mode, the processor 21 of the server 20 assigns, for example, “2” as a flag to the recognized input voice in step SJ5. Then, in this practice mode, in step SJ6, the processor 21 associates the recognized input voice log with the voice log data D with the data number 41 = "2", for example, and assigns the mode type 42 to the practice mode. Is recorded in the voice log database D21 as “2” which is a flag.

[発話分析]
以上のとおり、ステップSJ6における入力音声のログ記録においては、通常モード(第1のモード)における入力音声のログ、及び、練習モード(第2のモード)における入力音声のログが、フラグにより互いに区別された状態で音声ログデータベースD21に記録される。そして、サーバ20のプロセッサ21は、音声ログデータベースD21に記録された複数の音声ログデータDのうち、通常モード(第1のモード)における入力音声のログのみ(つまりモード種別42が「1」である音声ログデータDのみ)を抽出し、それを用いて発話分析を行う(ステップSJ20)。このとおり、プロセッサ21は、「分析部」としても機能する。
[Speech analysis]
As described above, in the input voice log recording in step SJ6, the input voice log in the normal mode (first mode) and the input voice log in the practice mode (second mode) are distinguished from each other by flags. Recorded in the voice log database D21. The processor 21 of the server 20 then only logs the input voice in the normal mode (first mode) among the plurality of voice log data D recorded in the voice log database D21 (that is, the mode type 42 is “1”). A certain voice log data D) is extracted, and utterance analysis is performed using it (step SJ20). As described above, the processor 21 also functions as an “analysis unit”.

以上のように構成された音声翻訳装置100及びそれを用いた音声翻訳方法並びに音声翻訳プログラムによれば、ユーザと対話者との会話(音声翻訳装置100の実利用時)における音声入力を行うための通常モード(第1のモード)と、ユーザと対話者との会話以外の動作である音声翻訳装置100における音声入力を行うための練習モード(第2のモード)が用意されており、ユーザは、それらのモードを適宜切り替えて音声翻訳を利用することができる。また、通常モード及び練習モードにおける入力音声のログが、それぞれのフラグにより互いに区別して音声ログデータベースD21に記録され、通常モードにおける入力音声のログのみを用いて発話分析を行うことができる。   According to the speech translation apparatus 100 configured as described above, the speech translation method using the speech translation apparatus, and the speech translation program, it is possible to perform speech input in a conversation between the user and the conversation person (when the speech translation apparatus 100 is actually used). A normal mode (first mode) and a practice mode (second mode) for performing speech input in the speech translation apparatus 100, which is an operation other than the conversation between the user and the interlocutor. These modes can be switched as appropriate to use speech translation. In addition, the input voice logs in the normal mode and the practice mode are recorded in the voice log database D21 separately from each other by the respective flags, and the speech analysis can be performed using only the input voice logs in the normal mode.

したがって、練習モードで発話された入力音声の内容(実利用時に必ずしも発話されるとは限らない音声内容)が発話分析に混入してしまうことを、確実に抑止することができる。その結果、実利用時の発話情報のみを用いた発話分析が可能となり、また、分析作業量を低減して発話分析の負荷を軽減することができる。これにより、実利用時の発話分析の精度(学習精度)を向上させ、かつ、その分析作業の効率化を図ることができるので、音声翻訳自体の精度を高めることが可能となる。   Therefore, it is possible to reliably prevent the content of the input speech uttered in the practice mode (speech content that is not necessarily uttered during actual use) from being mixed into the utterance analysis. As a result, it is possible to perform utterance analysis using only utterance information during actual use, and it is possible to reduce the amount of analysis work and reduce the load of utterance analysis. Thereby, the accuracy (learning accuracy) of utterance analysis during actual use can be improved and the efficiency of the analysis work can be improved, so that the accuracy of speech translation itself can be increased.

なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース(ハードウェア資源又はソフトウェア資源)を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。   Note that, as described above, each of the above embodiments is an example for explaining the present invention, and is not intended to limit the present invention to the embodiment. The present invention can be variously modified without departing from the gist thereof. For example, those skilled in the art can replace the resources (hardware resources or software resources) described in the embodiments with equivalents, and such replacements are also included in the scope of the present invention.

また、上記実施形態のとおり通常モード及び練習モードの双方にフラグを立ててもよいが、何れか一方のみにフラグを立てるようにしてもよく、かかる構成においても、両モードで認識されたそれぞれの入力音声のログを、互いに区別することができる。さらに、通常モード及び練習モードにおけるそれぞれの入力音声のログを、別々の音声ログデータベースに記録してもよい。またさらに、練習モードを、設定メニュー以外の他のメニューから、或いは、設定メニューを経なくとも選択できるようにしてもよい。例えば、図3(A)や図3(B)に示す画面に、練習モードを直接選択することができるボタン等を表示するようにしてもよい。   In addition, as in the above embodiment, a flag may be set for both the normal mode and the practice mode, but a flag may be set for only one of them. In such a configuration, each of the modes recognized in both modes may be set. Input audio logs can be distinguished from each other. Furthermore, the log of each input voice in the normal mode and the practice mode may be recorded in separate voice log databases. Furthermore, the practice mode may be selected from a menu other than the setting menu or without going through the setting menu. For example, you may make it display the button etc. which can select practice mode directly on the screen shown to FIG. 3 (A) or FIG. 3 (B).

また、スッテプSJ5,SJ6は、ステップSJ4以降であれば、何れの時点で実行してもよい。さらにまた、入力音声のログを音声ログデータベースD21へ記録する処理は、発話毎に行ってもよく、複数の入力音声のログを所定の時点でまとめて記録しても構わない。また、練習モードにおいては、単に、音声翻訳アプリケーションの試行又はその操作に慣れるための試行のみならず、例えば、単語や熟語の意味を調べる辞書引き、会話以外の文章(記事、歌詞、名言、台詞等)の翻訳、外国語の発音練習等の実利用以外の動作に利用することもできる。このようにすれば、それらの実利用以外の動作における入力音声も、実利用時の入力音声と区別することが可能となる。   Further, the steps SJ5 and SJ6 may be executed at any time as long as they are after step SJ4. Furthermore, the process of recording the input voice log in the voice log database D21 may be performed for each utterance, or a plurality of input voice logs may be recorded at a predetermined time. Also, in the practice mode, not only the trial of the speech translation application or the trial to get used to its operation, but also, for example, a dictionary lookup to examine the meaning of words and idioms, sentences other than conversation (articles, lyrics, quotes, dialogue) Etc.) can also be used for operations other than actual use, such as translation practice and pronunciation practice of foreign languages. In this way, it is possible to distinguish the input voice in the operation other than the actual use from the input voice in the actual use.

また、音声認識、翻訳、及び音声合成の各処理をサーバ20によって実行する例について記載したが、これらの処理を情報端末10において実行するように構成してもよい。この場合、それらの処理に用いるモジュールL20は、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。さらに、音声データベースであるデータベースD20、及び/又は、音響モデル等のモデルM20も、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。このとおり、音声翻訳装置は、ネットワークN及びサーバ20を備えなくてもよい。   Moreover, although the example which performs each process of speech recognition, translation, and a speech synthesis by the server 20 was described, you may comprise so that these processes may be performed in the information terminal 10. FIG. In this case, the module L20 used for these processes may be stored in the storage resource 12 of the information terminal 10 or may be stored in the storage resource 23 of the server 20. Furthermore, the database D20 that is a voice database and / or a model M20 such as an acoustic model may be stored in the storage resource 12 of the information terminal 10 or may be stored in the storage resource 23 of the server 20. . As described above, the speech translation apparatus may not include the network N and the server 20.

また、情報端末10とネットワークNとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末10は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。   Of course, a gateway server for converting a communication protocol between the information terminal 10 and the network N may be interposed. The information terminal 10 is not limited to a portable device, and may be a desktop personal computer, a notebook personal computer, a tablet personal computer, a laptop personal computer, or the like.

本発明によれば、入力音声の発話分析の精度向上及び分析作業の効率化を図ることができ、これにより、音声翻訳の精度を高めることが可能となるので、例えば、互いの言語を理解できない人同士の会話に関するサービスの提供分野における、プログラム、装置、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。   According to the present invention, it is possible to improve the accuracy of speech analysis of input speech and increase the efficiency of the analysis work, thereby improving the accuracy of speech translation. The present invention can be widely used for activities such as design, manufacture, provision, and sales of programs, devices, systems, and methods in the field of providing services related to conversation between people.

10 情報端末
11 プロセッサ
12 記憶資源
13 音声入出力デバイス
14 通信インターフェイス
15 入力デバイス
16 表示デバイス
17 カメラ
20 サーバ
21 プロセッサ
22 通信インターフェイス
23 記憶資源
31 言語ボタン
32a 日本語入力ボタン
32b 英語入力ボタン
33 お声がけボタン
34 言語選択ボタン
35 履歴ボタン
36 設定ボタン
37 設定メニュー
38 スライドスイッチ
40 データテーブル
41 データ番号
42 モード種別
43 ユーザID
44 記録日
45 入力音声テキスト
100 音声翻訳装置
D 音声ログデータ
D20 データベース
D21 音声ログデータベース
L20 モジュール
M20 モデル
N ネットワーク
P10 プログラム
P20 プログラム
T1 日本語テキスト
T2 英語テキスト
T3 日本語テキスト
T4 日本語テキスト
10 information terminal 11 processor 12 storage resource 13 voice input / output device 14 communication interface 15 input device 16 display device 17 camera 20 server 21 processor 22 communication interface 23 storage resource 31 language button 32a Japanese input button 32b English input button 33 Button 34 Language selection button 35 History button 36 Setting button 37 Setting menu 38 Slide switch 40 Data table 41 Data number 42 Mode type 43 User ID
44 recording date 45 input speech text 100 speech translation device D speech log data D20 database D21 speech log database L20 module M20 model N network P10 program P20 program T1 Japanese text T2 English text T3 Japanese text T4 Japanese text

そうしてユーザが練習モードをONにして設定メニューを閉じると、表示デバイス16には、図3(B)に示す待機画面が再表示され、前述した「通常モード」におけるステップSJ3〜SJを、同様の手順で実行することができる。その際、練習モードにおける処理が通常モードにおける処理と異なるのは、ステップSJ5,SJ6における処理のみであるため、その他のステップにおける処理については、ここでの詳細な説明を省略する。 Then the user closes the configuration menu ON the practice mode, the display device 16 to redisplay the standby screen shown in FIG. 3 (B), the step SJ3~SJ 9 in the "normal mode" as described above Can be executed in the same procedure. At this time, since the process in the practice mode is different from the process in the normal mode only in the processes in steps SJ5 and SJ6, detailed description here is omitted for the processes in the other steps.

Claims (6)

ユーザの音声を入力するための入力部、入力音声の内容を異なる言語の内容に翻訳する翻訳部、及び、前記入力音声の翻訳内容を音声及び/又はテキストで出力する出力部を備える音声翻訳装置であって、
前記入力音声のログを記録するログ記録部と、
前記ユーザと前記対話者との会話における音声入力を行うための第1のモードと、前記ユーザと前記対話者との会話以外の動作における音声入力を行うための第2のモードとを切り替えるモード切替部と、
を更に備え、
前記ログ記録部は、前記第1のモードにおける入力音声のログ、及び、前記第2のモードにおける入力音声のログを、互いに区別して記録する、
音声翻訳装置。
A speech translation apparatus comprising: an input unit for inputting a user's speech; a translation unit that translates the content of the input speech into content of a different language; and an output unit that outputs the translation content of the input speech as speech and / or text Because
A log recording unit for recording the log of the input voice;
Mode switching for switching between a first mode for performing voice input in a conversation between the user and the talker and a second mode for performing voice input in an operation other than the conversation between the user and the talker And
Further comprising
The log recording unit records the input audio log in the first mode and the input audio log in the second mode separately from each other;
Speech translation device.
前記モード切替部は、前記ユーザが前記第1のモードと前記第2のモードとを切り替えるための切替手段を、前記ユーザが使用するユーザ装置に表示する、
請求項1記載の音声翻訳装置。
The mode switching unit displays switching means for the user to switch between the first mode and the second mode on a user device used by the user.
The speech translation apparatus according to claim 1.
前記ログ記録部は、前記第1のモードにおける入力音声のログ、及び、前記第2のモードにおける入力音声のログを同一のデータベースに記録する、
請求項1又は2記載の音声翻訳装置。
The log recording unit records the input voice log in the first mode and the input voice log in the second mode in the same database;
The speech translation apparatus according to claim 1 or 2.
前記第1のモードにおける入力音声のログのみを用いて発話分析を行う分析部を更に備える、
請求項1乃至3の何れかに記載の音声翻訳装置。
An analysis unit that performs speech analysis using only the log of the input voice in the first mode;
The speech translation apparatus according to any one of claims 1 to 3.
入力部、翻訳部、出力部、ログ記録部、及びモード切替部を備える音声翻訳装置を用い、
前記入力部が、ユーザの音声を入力するステップと、
前記翻訳部が、入力音声の内容を異なる言語の内容に翻訳するステップと、
前記出力部が、翻訳内容を音声及び/又はテキストで出力するステップと、
前記ログ記録部が、前記入力音声のログを記録するステップと、
前記モード切替部が、前記ユーザと対話者との会話における音声入力を行うための第1のモードと、前記ユーザと前記対話者との会話以外の動作における音声入力を行うための第2のモードとを切り替えるステップと、
を含み、
前記ログを記録するステップにおいては、前記第1のモードにおける入力音声のログ、及び、前記第2のモードにおける入力音声のログを、互いに区別して記録する、
音声翻訳方法。
Using a speech translation device including an input unit, a translation unit, an output unit, a log recording unit, and a mode switching unit,
The input unit inputs a user's voice;
The translation unit translating the content of the input speech into content of a different language;
The output unit outputting the translated content in speech and / or text;
The log recording unit recording a log of the input voice;
A first mode for performing voice input in a conversation between the user and the conversation person, and a second mode for performing voice input in an operation other than the conversation between the user and the conversation person. A step of switching between and
Including
In the step of recording the log, the input voice log in the first mode and the input voice log in the second mode are recorded separately from each other,
Speech translation method.
コンピュータを、
ユーザの音声を入力するための入力部と、
入力音声の内容を異なる言語の内容に翻訳する翻訳部と、
翻訳内容を音声及び/又はテキストで出力する出力部と、
前記入力音声のログを記録するログ記録部と、
前記ユーザと対話者との会話における音声入力を行うための第1のモードと、前記ユーザと前記対話者との会話以外の動作における音声入力を行うための第2のモードとを切り替えるモード切替部と、
して機能させ、
前記ログ記録部は、前記第1のモードにおける入力音声のログ、及び、前記第2のモードにおける入力音声のログを、互いに区別して記録する、
音声翻訳プログラム。
Computer
An input unit for inputting the user's voice;
A translation unit that translates the content of the input speech into content of a different language;
An output unit that outputs the translated content in audio and / or text;
A log recording unit for recording the log of the input voice;
A mode switching unit that switches between a first mode for performing voice input in a conversation between the user and the talker and a second mode for performing voice input in an operation other than the conversation between the user and the talker. When,
To function,
The log recording unit records the input audio log in the first mode and the input audio log in the second mode separately from each other;
Speech translation program.
JP2016067706A 2016-03-30 2016-03-30 Speech translation device, speech translation method, and speech translation program Expired - Fee Related JP6198879B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016067706A JP6198879B1 (en) 2016-03-30 2016-03-30 Speech translation device, speech translation method, and speech translation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016067706A JP6198879B1 (en) 2016-03-30 2016-03-30 Speech translation device, speech translation method, and speech translation program

Publications (2)

Publication Number Publication Date
JP6198879B1 JP6198879B1 (en) 2017-09-20
JP2017181727A true JP2017181727A (en) 2017-10-05

Family

ID=59895747

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016067706A Expired - Fee Related JP6198879B1 (en) 2016-03-30 2016-03-30 Speech translation device, speech translation method, and speech translation program

Country Status (1)

Country Link
JP (1) JP6198879B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI698857B (en) * 2018-11-21 2020-07-11 財團法人工業技術研究院 Speech recognition system and method thereof, and computer program product

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07191995A (en) * 1993-12-27 1995-07-28 Sharp Corp Machine translation device
JP2015125499A (en) * 2013-12-25 2015-07-06 株式会社東芝 Voice interpretation device, voice interpretation method, and voice interpretation program
JP2015521404A (en) * 2012-04-25 2015-07-27 コピン コーポレーション Instant translation system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07191995A (en) * 1993-12-27 1995-07-28 Sharp Corp Machine translation device
JP2015521404A (en) * 2012-04-25 2015-07-27 コピン コーポレーション Instant translation system
JP2015125499A (en) * 2013-12-25 2015-07-06 株式会社東芝 Voice interpretation device, voice interpretation method, and voice interpretation program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI698857B (en) * 2018-11-21 2020-07-11 財團法人工業技術研究院 Speech recognition system and method thereof, and computer program product
US11527240B2 (en) 2018-11-21 2022-12-13 Industrial Technology Research Institute Speech recognition system, speech recognition method and computer program product

Also Published As

Publication number Publication date
JP6198879B1 (en) 2017-09-20

Similar Documents

Publication Publication Date Title
US20200410174A1 (en) Translating Languages
US9355094B2 (en) Motion responsive user interface for realtime language translation
JP2002116796A (en) Voice processor and method for voice processing and storage medium
US20120046933A1 (en) System and Method for Translation
JP6141483B1 (en) Speech translation device, speech translation method, and speech translation program
JP6290479B1 (en) Speech translation device, speech translation method, and speech translation program
WO2017135214A1 (en) Speech translation system, speech translation method, and speech translation program
JP6250209B1 (en) Speech translation device, speech translation method, and speech translation program
JP6310950B2 (en) Speech translation device, speech translation method, and speech translation program
JP6353860B2 (en) Speech translation device, speech translation method, and speech translation program
JP6198879B1 (en) Speech translation device, speech translation method, and speech translation program
JP5998298B1 (en) Speech translation device, speech translation method, and speech translation program
JP6110539B1 (en) Speech translation device, speech translation method, and speech translation program
JP6334589B2 (en) Fixed phrase creation device and program, and conversation support device and program
US20070244687A1 (en) Dialog supporting device
JP6383748B2 (en) Speech translation device, speech translation method, and speech translation program
WO2017086434A1 (en) Speech translation program, speech translation device, and control method for same
JP2021144256A (en) Translation device, system, method, program, and learning method
JP6174746B1 (en) Speech translation device, speech translation method, and speech translation program
JP2018173910A (en) Voice translation system and voice translation program
JP6147387B1 (en) Speech translation system, control method thereof, and speech translation program
JP6298806B2 (en) Speech translation system, control method therefor, and speech translation program
Hovde et al. Aural Language Translation with Augmented Reality Glasses

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170724

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170822

R150 Certificate of patent or registration of utility model

Ref document number: 6198879

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees