JP5598998B2 - 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 - Google Patents

音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 Download PDF

Info

Publication number
JP5598998B2
JP5598998B2 JP2011534094A JP2011534094A JP5598998B2 JP 5598998 B2 JP5598998 B2 JP 5598998B2 JP 2011534094 A JP2011534094 A JP 2011534094A JP 2011534094 A JP2011534094 A JP 2011534094A JP 5598998 B2 JP5598998 B2 JP 5598998B2
Authority
JP
Japan
Prior art keywords
speech
translation
unit
speaker
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011534094A
Other languages
English (en)
Other versions
JPWO2011040056A1 (ja
Inventor
哲 中村
英一郎 隅田
豊 葦苅
法幸 木村
智織 堀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2011534094A priority Critical patent/JP5598998B2/ja
Publication of JPWO2011040056A1 publication Critical patent/JPWO2011040056A1/ja
Application granted granted Critical
Publication of JP5598998B2 publication Critical patent/JP5598998B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Description

本発明は、音声翻訳を行う音声翻訳システム等に関するものである。
従来の音声翻訳システムにおいて、音声認識の精度を向上させたり、翻訳処理の精度を向上させたり等、各部分処理の精度を向上させるための技術が存在した(例えば、特許文献1、特許文献2参照)。
特開2008−243080号公報(第1頁、第1図等) 特開2009−140503号公報(第1頁、第1図等)
しかしながら、従来の音声翻訳システムにおいては、音声翻訳において、話者の属性に応じて音声認識や翻訳や音声合成を行う装置やモデルを変更できなかったために、音声認識や翻訳や音声合成の各処理において、精度が低下したり、不適切な出力が生じたりしていた。
本第一の発明の音声翻訳システムは、音声を入力する第一端末装置、2以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、第一端末装置は、話者の属性値である話者属性を、1以上格納し得る第一話者属性格納部と、音声を受け付ける第一音声受付部と、1以上の話者属性に応じて、2以上の音声認識サーバ装置のうち一の音声認識サーバ装置を選択する第一音声認識サーバ選択部と、第一音声認識サーバ選択部が選択した音声認識サーバ装置に、第一音声受付部が受け付けた音声から構成される音声情報を送信する第一音声送信部とを具備し、音声認識サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、音声情報受信部が受信した音声情報を、音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、音声認識結果を受信する音声認識結果受信部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、翻訳結果を受信する翻訳結果受信部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。
かかる構成により、音声翻訳において、話者の属性に応じて音声認識を行う装置を変更でき、音声認識処理において、精度が向上する。
また、本第二の発明の音声翻訳システムは、音声を入力する第一端末装置、1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、第一端末装置は、音声を受け付ける第一音声受付部と、第一音声受付部が受け付けた音声から構成される音声情報を、音声認識サーバ装置に送信する第一音声送信部とを具備し、音声認識サーバ装置は、話者の属性値である話者属性を、1以上格納し得る第三話者属性格納部と、2以上の言語のうちのすべての言語または2以上の一部の言語について、2以上の音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、1以上の話者属性に応じて、2以上の音声認識モデルから、一の音声認識モデルを選択する音声認識モデル選択部と、音声情報受信部が受信した音声情報を、音声認識モデル選択部が選択した音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、音声認識結果を受信する音声認識結果受信部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、翻訳結果を受信する翻訳結果受信部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。
かかる構成により、音声翻訳において、話者の属性に応じて音声認識を行うモデルを変更でき、音声認識処理において、精度が向上する。
また、本第三の発明の音声翻訳システムは、1以上の音声認識サーバ装置、2以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、音声認識サーバ装置は、話者の属性値である話者属性を、1以上格納し得る第三話者属性格納部と、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、音声情報受信部が受信した音声情報を、音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、1以上の話者属性に応じて、2以上の翻訳サーバ装置のうち一の翻訳サーバ装置を選択する翻訳サーバ選択部と、翻訳サーバ選択部が選択した翻訳サーバ装置に、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、音声認識結果を受信する音声認識結果受信部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、翻訳結果を受信する翻訳結果受信部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。
かかる構成により、音声翻訳において、話者の属性に応じて翻訳を行う装置を変更でき、翻訳処理において、精度が向上する。
また、本第四の発明の音声翻訳システムは、1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、音声認識サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、音声情報受信部が受信した音声情報を、音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、翻訳サーバ装置に、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、2以上の翻訳モデルを格納し得る翻訳モデル格納部と、1以上の話者属性を格納し得る第四話者属性格納部と、音声認識結果を受信する音声認識結果受信部と、1以上の話者属性に応じて、2以上の翻訳モデルから、一の翻訳モデルを選択する翻訳モデル選択部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル選択部が選択した翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、翻訳結果を受信する翻訳結果受信部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。
かかる構成により、音声翻訳において、話者の属性に応じて翻訳行うモデルを変更でき、翻訳処理において、精度が向上する。
また、本第五の発明の音声翻訳システムは、1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、2以上の音声合成サーバ装置とを有する音声翻訳システムであって、音声認識サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、音声情報受信部が受信した音声情報を、音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、翻訳サーバ装置に、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、1以上の話者属性を格納し得る第四話者属性格納部と、音声認識結果を受信する音声認識結果受信部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、1以上の話者属性に応じて、2以上の音声合成サーバ装置のうち一の音声合成サーバ装置を選択する音声合成サーバ選択部と、音声合成サーバ選択部が選択した音声合成サーバ装置に、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、翻訳結果を受信する翻訳結果受信部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。
かかる構成により、音声翻訳において、話者の属性に応じて音声合成を行う装置を変更でき、音声合成処理において、適切な出力が行われる。
また、本第六の発明の音声翻訳システムは、1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、音声認識サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、音声情報を受信する音声情報受信部と、音声情報受信部が受信した音声情報を、音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、翻訳サーバ装置に、音声認識結果を送信する音声認識結果送信部とを具備し、翻訳サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、音声認識結果を受信する音声認識結果受信部と、音声認識結果受信部が受信した音声認識結果を、翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、音声合成サーバ装置に、翻訳結果を送信する翻訳結果送信部とを具備し、音声合成サーバ装置は、2以上の言語のうちのすべての言語または2以上の一部の言語について、2以上の音声合成モデルを格納し得る音声合成モデル格納部と、1以上の話者属性を格納し得る第五話者属性格納部と、翻訳結果を受信する翻訳結果受信部と、1以上の話者属性に応じて、2以上の音声合成モデルから、一の音声合成モデルを選択する音声合成モデル選択部と、翻訳結果受信部が受信した翻訳結果を、音声合成モデル選択部が選択した音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムである。
かかる構成により、音声翻訳において、話者の属性に応じて音声合成を行うモデルを変更でき、音声合成処理において、適切な出力が行われる。
また、本第七の発明の音声翻訳システムは、第一の発明に対して、第一端末装置は、1以上の話者属性を受け付ける第一話者属性受付部と、1以上の話者属性を、第一話者属性格納部に蓄積する第一話者属性蓄積部とを具備する音声翻訳システムである。
かかる構成により、話者が用いる端末において、話者属性の設定ができるために、音声認識や翻訳や音声合成の各処理において話者属性が利用でき、音声認識や翻訳や音声合成の各処理において、精度が向上し、適切な出力が行われる。
また、本第八の発明の音声翻訳システムは、第二から第六いずれかの発明に対して、音声認識サーバ装置は、音声情報受信部が受信した音声情報から、1以上の音声に関する話者属性を取得する音声話者属性取得部と、音声話者属性取得部が取得した1以上の話者属性を、第三話者属性格納部に蓄積する第三話者属性蓄積部とをさらに具備する音声翻訳システムである。
かかる構成により、自動的に音声に関する話者属性が取得できるために、音声認識や翻訳や音声合成の各処理において話者属性が利用でき、音声認識や翻訳や音声合成の各処理において、精度が向上し、適切な出力が行われる。
また、本第九の発明の音声翻訳システムは、第二から第六いずれかの発明に対して、翻訳サーバ装置は、音声認識結果受信部が受信した音声認識結果から、1以上の言語に関する話者属性を取得する言語話者属性取得部と、言語話者属性取得部が取得した1以上の話者属性を、第四話者属性格納部に蓄積する第四話者属性蓄積部とをさらに具備する音声翻訳システムである。
かかる構成により、自動的に言語に関する話者属性が取得できるために、音声認識や翻訳や音声合成の各処理において話者属性が利用でき、音声認識や翻訳や音声合成の各処理において、精度が向上し、適切な出力が行われる。
また、本第十の発明の音声翻訳システムは、第一から第九いずれかの発明に対して、話者が使用する言語である原言語を特定する原言語識別子、および翻訳先の言語である目的言語を特定する目的言語識別子、および1以上の話者属性を含む音声翻訳制御情報が、音声認識サーバ装置から1以上の翻訳サーバ装置を経由して、音声合成サーバ装置に送信され、音声認識サーバ選択部、または音声認識部、または音声認識モデル選択部、または翻訳サーバ選択部、または翻訳部、または翻訳モデル選択部、音声合成サーバ選択部、または音声合成部、または音声合成モデル選択部は、音声翻訳制御情報を用いて、各々の処理を行う音声翻訳システムである。
かかる構成により、話者属性を含む音声翻訳制御情報が流通し、音声認識、翻訳、および音声合成において、同一の話者を想定した処理が行われ、音声認識や翻訳や音声合成の各処理において、精度が向上し、適切な出力が行われる。
本発明による音声翻訳システムによれば、音声翻訳において、音声認識、または翻訳、または音声合成の各処理において、精度が向上し、適切な出力が行われる。
以下、音声翻訳システム等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、ネットワーク型音声翻訳システムにおいて、話者属性に基づいて、音声認識を行うサーバ装置や音声認識モデルを適切に変更したり、翻訳を行うサーバ装置や翻訳モデルを適切に変更したり、音声合成を行うサーバ装置や音声合成モデルを適切に変更したりすることにより、精度の高い音声翻訳を行えるネットワーク型音声翻訳システムについて説明する。
図1は、本実施の形態における音声翻訳システムの概念図である。音声翻訳システムは、1以上の第一端末装置1、1以上の第二端末装置2、1以上の音声認識サーバ装置3、1以上の翻訳サーバ装置4、1以上の音声合成サーバ装置5を具備する。
音声翻訳システムにおいて、例えば、第一端末装置1のユーザ(ユーザA)である日本人が日本語で「おはようございます」と発話した場合、音声認識サーバ装置3は日本語「おはようございます」を音声認識する。そして、翻訳サーバ装置4は音声認識結果を、例えば、英語「Good morning」に翻訳する。次に、音声合成サーバ装置5は英文「Good morning」から「Good morning」の音声情報を作りだす。そして、英語のネイティブであるユーザBの第二端末装置2から、音声「Good morning」が出力される。
第一端末装置1および第二端末装置2は、例えば、通話する端末(電話、携帯電話を含む)である。ここでは、主として、第一端末装置1を発話する側の端末、第二端末装置2を発話される側の端末として説明するが、両者は入れ替われることは言うまでもない。また、通常、第一端末装置1と第二端末装置2とが、発話する側の端末、発話される側の端末として、順次、連続的に入れ替わりながら、第一端末装置1のユーザAと第二端末装置2のユーザBとが会話を進めていく。また、第一端末装置1および第二端末装置2は、同様の機能(下記の構成要素)を有するとして説明するが、それぞれ、一部に有しない機能があっても良いことは言うまでもない。また、第一端末装置1のユーザ(話者)をユーザA、第二端末装置2のユーザ(話者)をユーザBとして、以下、説明する。
図2は、本実施の形態における音声翻訳システムのブロック図である。また、図3は、音声認識サーバ装置3のブロック図である。図4は、翻訳サーバ装置4のブロック図である。図5は、音声合成サーバ装置5のブロック図である。
音声翻訳システムは、1以上の第一端末装置1、1以上の第二端末装置2、1以上の音声認識サーバ装置3、1以上の翻訳サーバ装置4、1以上の音声合成サーバ装置5を備える。
第一端末装置1は、第一話者属性格納部11、第一話者属性受付部12、第一話者属性蓄積部13、第一音声受付部14、第一音声認識サーバ選択部15、第一音声送信部16、第一音声受信部17、第一音声出力部18、第一話者属性送信部19を備える。第一音声認識サーバ選択部15は、第一サーバ選択情報格納手段151、第一サーバ選択手段152を備える。
第二端末装置2は、第二話者属性格納部21、第二話者属性受付部22、第二話者属性蓄積部23、第二音声受付部24、第二音声認識サーバ選択部25、第二音声送信部26、第二音声受信部27、第二音声出力部28、第二話者属性送信部29を備える。第二音声認識サーバ選択部25は、第二サーバ選択情報格納手段251、第二サーバ選択手段252を備える。
音声認識サーバ装置3は、第三話者属性格納部301、音声認識モデル格納部302、第三話者属性受信部303、音声話者属性取得部304、第三話者属性蓄積部305、音声情報受信部306、音声認識モデル選択部307、音声認識部308、翻訳サーバ選択部309、音声認識結果送信部310、第三話者属性送信部311を備える。音声認識モデル選択部307は、第三モデル選択情報格納手段3071、第三モデル選択手段3072を備える。また、翻訳サーバ選択部309は、第三サーバ選択情報格納手段3091、第三サーバ選択手段3092を備える。
翻訳サーバ装置4は、第四話者属性格納部401、翻訳モデル格納部402、第四話者属性受信部403、言語話者属性取得部404、第四話者属性蓄積部405、音声認識結果受信部406、翻訳モデル選択部407、翻訳部408、音声合成サーバ選択部409、翻訳結果送信部410、第四話者属性送信部411を備える。翻訳モデル選択部407は、第四モデル選択情報格納手段4071、第四モデル選択手段4072を備える。音声合成サーバ選択部409は、第四サーバ選択情報格納手段4091、第四サーバ選択手段4092を備える。
音声合成サーバ装置5は、第五話者属性格納部501、音声合成モデル格納部502、第五話者属性受信部503、第五話者属性蓄積部504、翻訳結果受信部505、音声合成モデル選択部506、音声合成部507、音声合成結果送信部508を備える。音声合成モデル選択部506は、第五モデル選択情報格納手段5061、第五モデル選択手段5062を備える。
以下、各構成要素の機能、実現手段等について説明する。ただし、第一端末装置1の構成要素の機能と、対応する第二端末装置2の構成要素の機能とは同じ(例えば、第一話者属性受付部12と第二話者属性受付部22の機能は同じ)であるので、第一端末装置1の構成要素についてのみ説明する。
第一端末装置1を構成する第一話者属性格納部11は、1以上の話者属性を格納し得る。話者属性とは、話者の属性値である。話者属性とは、例えば、話者の性別、年齢、話速、話者クラス(話者が使用する言語に関して、使う単語の難しさ,文法の正しさなどを考慮した熟練度)などである。話者クラスは、使う単語の難しさの度合いを示す情報、使う用語の丁寧さの度合いを示す情報、文法の正しさの度合いを示す情報、およびこれらの複合的な度合いを示す情報、ネイティブか否かを示す情報などである。また、話者属性には、話者の感情(嬉しい、悲しいなど)なども含まれても良い。なお、話者属性の内容は問わないことは言うまでもない。また、話者属性には、話者が特定されれば、一時的には変化の無い属性である静的話者属性情報と、時々により変化し得る属性である動的話者属性情報とがある。静的話者属性情報には、例えば、上述した話者の性別、年齢、話者クラスなどがある。また、動的話者属性情報には、話速や感情などがある。
第一話者属性格納部11に格納されている話者属性は、通常、第一端末装置1のユーザが入力した情報である。また、第一話者属性格納部11に格納されている話者属性は、通常、静的話者属性情報である。第一話者属性格納部11は、1以上の話者属性を含む音声翻訳制御情報を格納していても良い。かかる場合、第一話者属性格納部11は、第一音声翻訳制御情報格納部11と呼んでも良い。
第一話者属性受付部12は、第一端末装置1のユーザから、1以上の話者属性を受け付ける。ここで、受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。話者属性の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。
第一話者属性蓄積部13は、第一話者属性受付部12が受け付けた1以上の話者属性を、第一話者属性格納部11に蓄積する。
第一音声受付部14は、第一端末装置1のユーザ(ユーザAという)から音声を受け付ける。
第一音声認識サーバ選択部15は、1以上の話者属性に応じて、2以上の音声認識サーバ装置3のうち一の音声認識サーバ装置3を選択する。例えば、第一音声認識サーバ選択部15は、音声認識サーバ選択情報管理表を用いて選択する。第一音声認識サーバ選択部15は、図示しないサーバ装置(後述する制御装置256)にあっても良い。かかる場合、第一音声送信部16も図示しないサーバ装置に存在しても良い。ここで、音声認識サーバ装置3の選択とは、例えば、一の音声認識サーバ装置3と通信するための情報(例えば、一の音声認識サーバ装置3のIPアドレス)などを取得する処理である。また、第一音声認識サーバ選択部15は、1以上の話者属性を含む音声翻訳制御情報を用いて、2以上の音声認識サーバ装置3のうち一の音声認識サーバ装置3を選択することは好適である。音声翻訳制御情報とは、音声認識サーバ装置3、翻訳サーバ装置4、および音声合成サーバ装置5が、それぞれ音声認識、翻訳、および音声合成を行ったり、処理結果を送信したりするための情報を有する。音声翻訳制御情報は、例えば、処理結果を送信する先を特定する情報(IPアドレスや電話番号など)、原言語や目的言語を特定する情報(日本語、英語、ドイツ語など)などを有する。第一端末装置1(第二端末装置2も同様である)の図示しない受付部(第一話者属性受付部12でも良い)は、例えば、原言語と目的言語を、ユーザから受け付ける。また、第一音声認識サーバ選択部15は、例えば、第二端末装置2の電話番号やIPアドレスなどから、自動的に原言語と目的言語を決定する。かかる場合、第一音声認識サーバ選択部15は、電話番号やIPアドレスなどの情報と、言語を特定する情報を対応付けて保持していたり、電話番号やIPアドレスなどの情報をキーとして他の装置から言語を特定する情報を取得したりする。また、第一音声認識サーバ選択部15は、原言語や目的言語から音声認識すべき音声認識サーバ装置3を特定する情報(IPアドレスなど)や、翻訳サーバ装置4を特定する情報(IPアドレスなど)や、音声合成サーバ装置5を特定する情報(IPアドレスなど)を取得する。つまり、第一音声認識サーバ選択部15は、原言語や目的言語と、各サーバ装置を特定する情報とを対応付けて有していたり、原言語や目的言語を用いて、他の装置から、各サーバ装置を特定する情報を取得したりする。また、音声翻訳制御情報は、通常、1以上の話者属性を有し、かつ、入力音声のフォーマットを示す情報、出力音声のフォーマットを示す情報、入出力音声の声質を指定する情報、入力テキストのフォーマットを示す情報、出力テキストのフォーマットを示す情報なども有しても良い。
第一サーバ選択情報格納手段151は、音声認識サーバ装置3を識別する音声認識サーバ識別子と、1以上の話者属性とを対応付けて有する音声認識サーバ選択情報を、2以上有する音声認識サーバ選択情報管理表を格納している。音声認識サーバ識別子は、例えば、音声認識サーバ装置3と通信するための情報(例えば、一の音声認識サーバ装置3のIPアドレス)である。
第一サーバ選択手段152は、第一話者属性格納部11に格納されている1以上の話者属性に対応する音声認識サーバ識別子を、第一サーバ選択情報格納手段151から検索する。
第一音声送信部16は、第一音声受付部14が受け付けた音声から構成した音声情報を送信する。音声の送信先は、1以上の音声認識サーバ装置3のうちのいずれかである。第一音声送信部16は、第一音声認識サーバ選択部15が選択した音声認識サーバ装置3に、第一音声受付部14が受け付けた音声から構成される音声情報を送信することは好適である。なお、第一音声送信部16は、2以上の音声認識サーバ装置3に音声情報を送信しても良い。また、ここで、音声情報は、音声から構成されるデジタル情報であることは好適である。さらに、第一音声送信部16は、直接的に音声を1以上の音声認識サーバ装置3に送信しても良いし、他の装置経由で(間接的に)、音声を1以上の音声認識サーバ装置3に送信しても良い。
第一音声受信部17は、第二端末装置2のユーザBから発声された音声から構成された音声情報を音声翻訳した結果である音声情報を受信する。この音声情報は、通常、第一端末装置1のユーザAが理解できる言語に翻訳された音声の情報である。この音声情報は、通常、第二端末装置2から音声認識サーバ装置3、翻訳サーバ装置4、および音声合成サーバ装置5を経由して送信されてきた情報である。
第一音声出力部18は、第一音声受信部17が受信した音声情報を出力する。ここで、出力とは、通常、スピーカへの音声出力である。
第一話者属性送信部19は、第一話者属性格納部11に格納されている1以上の話者属性を、第一音声認識サーバ選択部15が選択した音声認識サーバ装置3に送信する。第一話者属性送信部19は、1以上の話者属性を含む音声翻訳制御情報を、第一音声認識サーバ選択部15が選択した音声認識サーバ装置3に送信しても良い。かかる場合、第一話者属性送信部19は、第一音声翻訳制御情報送信部19と言い換えても良い。
音声認識サーバ装置3を構成する第三話者属性格納部301は、話者の属性値である話者属性を、1以上格納し得る。ここでの話者属性は、音声認識サーバ装置3で取得した話者属性でも良いし、第一端末装置1や第二端末装置2からから送信された話者属性でも良いし、音声認識サーバ装置3で取得した話者属性および第一端末装置1や第二端末装置2からから送信された話者属性の両方を含むものでも良い。また、第三話者属性格納部301は、1以上の話者属性を含む音声翻訳制御情報を格納していても良い。第三話者属性格納部301は、第三音声翻訳制御情報格納部301と呼んでも良い。
音声認識モデル格納部302は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る。音声認識モデル格納部302は、2以上の音声認識モデルを格納しても良い。音声認識モデルとは、例えば、隠れマルコフモデル(HMM)の音響モデルである。ただし、音声認識モデルは、必ずしも、HMMの音響モデルである必要はない。音声認識モデルは、単一ガウス分布モデルや、確率モデル(GMM:ガウシャンミクスチャモデル)や、統計モデルなど、他のモデルに基づく音響モデルでも良い。
第三話者属性受信部303は、第一端末装置1から、直接的または間接的に、1以上の話者属性を受信する。第三話者属性受信部303は、第一端末装置1から、音声翻訳制御情報を受信しても良い。かかる場合、第三話者属性受信部303は、第三音声翻訳制御情報受信部303と呼んでも良い。
音声話者属性取得部304は、音声情報受信部306が受信した音声情報から、1以上の音声話者属性を取得する。音声話者属性とは、音声に関する話者属性であり、音声から取得できる話者属性である。音声話者属性取得部304は、動的話者属性情報を取得することは好適である。また、音声話者属性取得部304は、静的話者属性情報を取得しても良い。
また、音声話者属性取得部304は、例えば、音声情報をスペクトル分析し、1以上の特徴量を取得する。そして、音声話者属性取得部304は、1以上の特徴量から、話者の年齢、性別、話速、感情などの話者属性を決定する。音声話者属性取得部304は、例えば、男性または/および女性であることを決定するための特徴量の情報(特徴量をパラメータとする条件)を保持しており、取得した1以上の特徴量から、話者が男性か女性かを決定して、性別の情報(例えば、男性「0」、女性「1」)を取得する。また、音声話者属性取得部304は、例えば、特定の年齢、または特定の年齢層(例えば、10代、20代など)を決定するための特徴量の情報を保持しており、取得した1以上の特徴量から、話者の年齢または年齢層を決定して、年齢または年齢層の情報(例えば、9歳まで「0」、10代「1」など)を取得する。また、音声話者属性取得部304は、音声情報を解析し、話速(例えば、4.5音/秒)を取得する。話速を取得する技術は公知技術であるので、詳細な説明を省略する。また、音声話者属性取得部304は、例えば、取得した1以上の特徴量から感情(動的話者属性情報の一種)を取得しても良い。さらに具体的には、音声話者属性取得部304は、例えば、感情「普通」の場合のピッチとパワーの値を保持している。そして、音声話者属性取得部304は、抽出した有声部分のピッチとパワーの値から平均値・最大値・最小値を求める。そして、音声話者属性取得部304は、感情「普通」の場合のピッチとパワーの値と、抽出した有声部分のピッチとパワーの平均値・最大値・最小値とを用いて、平均ピッチが低く、平均パワーが高い場合は、感情「怒り」を取得する。また、音声話者属性取得部304は、感情「普通」の場合のピッチとパワーの値と比較して、最小ピッチが高く、最大パワーが低い場合、感情「悲しみ」を取得する。また、感情「普通」の場合のピッチとパワーの値と比較して、特徴量が大きい場合、音声話者属性取得部304は、感情「喜び」を取得する。
音声話者属性取得部304は、取得した1以上の特徴量のうち、パワーおよび韻律を用いて感情を取得することは好適である。感情を取得する手法については、URL「http://www.kansei.soft.iwate-pu.ac.jp/abstract/2007/0312004126.pdf」の論文を参照のこと。
なお、音声話者属性取得部304が、話速等の属性を取得する音声情報の単位は問わない。つまり、音声話者属性取得部304は、文の単位で話速等の属性を取得しても良いし、単語の単位で話速等の属性を取得しても良いし、認識結果の単位で話速等の属性を取得しても良いし、複数の文の単位で話速等の属性を取得しても良い。
また、音声話者属性取得部304は、音声認識部308が音声認識した結果である音声認識結果から、話者クラス(この話者クラスは、言語話者属性の一種である)を決定しても良い。例えば、音声話者属性取得部304は、難解度を有する用語辞書(用語と難解度とを対応づけて有する2以上の用語情報の集合)を保持しており、音声認識結果に含まれる1以上の用語の難解度(n1,n2,・・・)を取得し、当該1以上の難解度から話者クラス(難解度が高「0」、難解度が中「1」、難解度が低「2」など)を決定する。また、音声話者属性取得部304は、1以上の用語の難解度(n1,n2,・・・)、および文法ミスの有無を用いて話者クラスを決定する。例えば、音声話者属性取得部304は、文法ミスが存在する場合には、1以上の難解度から取得される最終難解度(高「0」、難解度が中「1」、難解度が低「2」)に「1」を加えた値を話者クラスとして取得する。なお、文の中に文法ミスが存在するか否かの検査処理は、公知の自然言語処理であるので、詳細な説明は省略する。なお、音声話者属性取得部304は、上述した方法以外の方法により、話者属性を取得しても良いし、いかなる話者属性を取得しても良い。また、音声話者属性取得部304に関する技術は、例えば、「不特定話者の音声自動認識のための性別・年齢差による話者分類の考察」(中川聖一他,電子通信学会論文誌)に開示されている(http://www.slp.ics.tut.ac.jp/shiryou/number-1/J1980-06.pdf参照)。また、音声話者属性取得部304は、機械学習を用いて、性別や年齢などの話者属性を決定しても良い。つまり、音声話者属性取得部304は、性別(男性または女性)と1以上の特徴量とを有する情報の組を複数組格納しており、音声情報受信部306が受信した音声情報から得られた1以上の特徴量に対して、SVMや決定木などの機械学習のアルゴリズムにより、音声情報受信部306が受信した音声情報に対応する話者の性別を決定しても良い。
第三話者属性蓄積部305は、音声話者属性取得部304が取得した1以上の話者属性を、第三話者属性格納部301に蓄積する。なお、ここでの蓄積は、一時的な蓄積でも良い。
音声情報受信部306は、第一端末装置1から、直接的にまたは間接的に音声情報を受信する。
音声認識モデル選択部307は、1以上の話者属性に応じて、2以上の音声認識モデルから、一の音声認識モデルを選択する。
第三モデル選択情報格納手段3071は、音声認識モデル選択情報管理表を格納している。音声認識モデル選択情報管理表は、1以上の話者属性に関する条件(1以上の話者属性でも良い)と、音声認識モデルを識別する音声認識モデル識別子とを有するレコードを1以上含む表である。
第三モデル選択手段3072は、第三話者属性格納部301に格納されている1以上の話者属性から音声認識モデル選択情報管理表を検索し、1以上の話者属性に対応する音声認識モデル識別子を取得する。なお、音声認識部308は、第三モデル選択手段3072が取得した音声認識モデル識別子で識別される音声認識モデルを、音声認識モデル格納部302から読み出し、当該音声認識モデルを用いて、音声認識処理を行う。
音声認識部308は、音声情報受信部306が受信した音声情報を、音声認識モデル格納部302の音声認識モデルを用いて音声認識し、音声認識結果を取得する。また、音声認識部308は、音声情報受信部306が受信した音声情報を、音声認識モデル選択部307が選択した音声認識モデルを用いて音声認識し、音声認識結果を取得することは好適である。音声認識部308は、いかなる音声認識方法でも良い。音声認識部308は公知技術である。また、音声認識の対象の言語(原言語)の情報は、例えば、音声翻訳制御情報の中に含まれる。例えば、音声翻訳制御情報は、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、音声合成サーバ装置、および第二端末装置2の間を転送されていく。音声認識結果は、通常、原言語(第一端末装置1のユーザAが発話した音声の言語)の文字列である。
翻訳サーバ選択部309は、1以上の話者属性に応じて、2以上の翻訳サーバ装置4のうち一の翻訳サーバ装置4を選択する。なお、翻訳サーバ選択部309は、図示しないサーバ装置にあっても良い。かかる場合、通常、音声認識結果送信部310も図示しないサーバ装置に存在する。また、かかる場合、選択すべき翻訳サーバ装置4の情報が図示しないサーバ装置から送信されても良い。
第三サーバ選択情報格納手段3091は、翻訳サーバ選択情報管理表を格納している。翻訳サーバ選択情報管理表は、1以上の話者属性に関する条件(1以上の話者属性でも良い)と、翻訳サーバ装置4を識別する翻訳サーバ装置識別子とを有するレコードを1以上含む表である。
第三サーバ選択手段3092は、第三話者属性格納部301に格納されている1以上の話者属性から翻訳サーバ選択情報管理表を検索し、1以上の話者属性に対応する翻訳サーバ装置識別子を取得する。なお、音声認識結果送信部310は、第三サーバ選択手段3092が取得した翻訳サーバ装置識別子に対応する翻訳サーバ装置4に、音声認識結果を送信する。
音声認識結果送信部310は、翻訳サーバ装置4に、直接的にまたは間接的に音声認識結果を送信する。音声認識結果送信部310は、翻訳サーバ選択部309が選択した一の翻訳サーバ装置4に、直接的にまたは間接的に音声認識結果を送信することは好適である。
第三話者属性送信部311は、第三話者属性格納部301に格納されている1以上の話者属性を、直接的にまたは間接的に翻訳サーバ装置4に送信する。第三話者属性送信部311は、音声翻訳制御情報を翻訳サーバ装置4に送信しても良い。かかる場合、第三話者属性送信部311は、第三音声翻訳制御情報送信部311と呼んでも良い。
翻訳サーバ装置4を構成する第四話者属性格納部401は、1以上の話者属性を格納し得る。第四話者属性格納部401は、音声翻訳制御情報を格納していても良い。かかる場合、第四話者属性格納部401は、第四音声翻訳制御情報格納部401と呼んでも良い。
翻訳モデル格納部402は、2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳用情報を格納し得る。翻訳モデル格納部402は、2以上の翻訳用情報を格納していても良い。翻訳用情報は、例えば、翻訳モデルと言語モデルである。また、翻訳モデル格納部402は、言語モデルを有さず、1以上の翻訳モデルのみを格納していても良い。かかる場合、翻訳モデル格納部402は、1以上の翻訳モデルを格納し得る。なお、後述する翻訳モデルの選択は、翻訳用情報の選択と同意義である、とする。
第四話者属性受信部403は、1以上の話者属性を、音声認識サーバ装置3から直接にまたは間接的に受信する。第四話者属性受信部403は、音声翻訳制御情報を音声認識サーバ装置3から受信しても良い。かかる場合、第四話者属性受信部403は、第四音声翻訳制御情報受信部403と呼んでも良い。
言語話者属性取得部404は、音声認識結果受信部406が受信した音声認識結果から、1以上の言語話者属性を取得する。言語話者属性とは、言語処理によって取得され得る話者属性である。言語話者属性取得部404は、例えば、音声認識結果を自然言語処理に、話者クラスを特定する。話者クラスとは、例えば、使う単語の難しさ,文法の正しさなどを考慮した言語の熟練度により、話者をカテゴライズした情報である。言語話者属性取得部404は、例えば、音声認識結果の中で、難解な用語が使われている頻度や割合から、話者クラスを決定する。また、言語話者属性取得部404は、例えば、音声認識結果の中で、丁寧語が使われているか否か、丁寧語が使われている頻度や割合から、話者クラスを決定する。また、言語話者属性取得部404は、例えば、音声認識結果の中で、女子高生が多用する新語が使われているか否か、新語が使われている頻度や割合から、話者クラスを決定する。言語話者属性取得部404は、例えば、難解な用語や丁寧語を構成する形態素や女子高生が多用する新語などを格納しており、音声認識結果を形態素解析し、難解な用語や丁寧語を構成する形態素や女子高生が多用する新語などが存在する頻度や割合を取得し、予め決められた条件(ランクA:難解な用語が10%以上、B:難解な用語が1%以上10%未満、C:難解な用語が1%未満など)により、話者クラス(ランク)を決定する。言語話者属性取得部404は、その他のアルゴリズムにより、音声認識結果を自然言語処理し、1以上の言語話者属性を取得しても良い。なお、言語話者属性取得部404は、音声話者属性取得部304における言語話者属性の取得方法と同様の方法により、1以上の言語話者属性を取得しても良い。
第四話者属性蓄積部405は、第四話者属性受信部403が受信した以上の話者属性を、第四話者属性格納部401に、少なくとも一時的に蓄積する。第四話者属性蓄積部405は、音声翻訳制御情報を第四話者属性格納部401に蓄積しても良い。かかる場合、第四話者属性蓄積部405は、第四音声翻訳制御情報蓄積部405と呼んでも良い。
音声認識結果受信部406は、音声認識結果を、音声認識サーバ装置3から直接、または間接的に受信する。
翻訳モデル選択部407は、第四話者属性受信部403が受信した1以上の話者属性に応じて、2以上の翻訳モデルから、一の翻訳モデルを選択する。
第四モデル選択情報格納手段4071は、翻訳モデル選択情報管理表を格納している。翻訳モデル選択情報管理表は、1以上の話者属性に関する条件(1以上の話者属性でも良い)と、翻訳モデルを識別する翻訳モデル識別子とを有するレコードを1以上含む表である。
第四モデル選択手段4072は、第四話者属性格納部401に格納されている1以上の話者属性から翻訳モデル選択情報管理表を検索し、1以上の話者属性に対応する翻訳モデル装置識別子を取得する。なお、翻訳部408は、第四モデル選択手段4072が取得した翻訳モデル識別子に対応する翻訳モデルを翻訳モデル格納部402から取得し、当該翻訳モデルを用いて翻訳処理を行う。
翻訳部408は、音声認識結果受信部406が受信した音声認識結果を、翻訳モデル格納部402の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する。翻訳部408は、音声認識結果受信部406が受信した音声認識結果を、翻訳モデル選択部407が選択した翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得することは好適である。なお、原言語と目的言語を特定する情報は、例えば、音声翻訳制御情報の中に含まれる。また、翻訳部408における翻訳方法と問わない。翻訳部408は公知技術である。
音声合成サーバ選択部409は、1以上の話者属性に応じて、2以上の音声合成サーバ装置5のうち一の音声合成サーバ装置5を選択する。
第四サーバ選択情報格納手段4091は、音声合成サーバ選択情報管理表を格納している。音声合成サーバ選択情報管理表は、1以上の話者属性に関する条件(1以上の話者属性でも良い)と、音声合成サーバ装置5を識別する音声合成装置識別子とを有するレコードを1以上含む表である。
第四サーバ選択手段4092は、第四話者属性格納部401に格納されている1以上の話者属性から音声合成サーバ選択情報管理表を検索し、1以上の話者属性に対応する音声合成サーバ装置識別子を取得する。なお、翻訳結果送信部410は、第四サーバ選択手段4092が取得した音声合成サーバ装置識別子に対応する音声合成サーバ装置5に、翻訳結果を送信する。
翻訳結果送信部410は、翻訳部408が翻訳処理を行った結果である翻訳結果を、音声合成サーバ装置5に、直接または間接的に送信する。また、翻訳結果送信部410は、音声合成サーバ選択部409はが選択した音声合成サーバ装置5に、翻訳結果を、直接または間接的に送信することは好適である。
第四話者属性送信部411は、音声合成サーバ装置5に、直接または間接的に、第四話者属性受信部403が受信した1以上の話者属性を送信する。第四話者属性送信部411は、音声翻訳制御情報を音声合成サーバ装置5に送信しても良い。かかる場合、第四話者属性送信部411は、第四音声翻訳制御情報送信部411と呼んでも良い。
音声合成サーバ装置5を構成する第五話者属性格納部501は、1以上の話者属性を格納し得る。第五話者属性格納部501は、音声翻訳制御情報を格納していても良い。かかる場合、第五話者属性格納部501は、第五音声翻訳制御情報格納部501と呼んでも良い。
音声合成モデル格納部502は、2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る。音声合成モデル格納部502は、2以上の音声合成モデルを格納していても良い。
第五話者属性受信部503は、1以上の話者属性を、音声認識サーバ装置3から直接にまたは間接的に受信する。第五話者属性受信部503は、音声翻訳制御情報を音声認識サーバ装置3から受信しても良い。かかる場合、第五話者属性受信部503は、第五音声翻訳制御情報受信部503と呼んでも良い。
第五話者属性蓄積部504は、第五話者属性受信部503が受信した1以上の話者属性を、第五話者属性格納部501に、少なくとも一時的に蓄積する。第五話者属性蓄積部504は、音声翻訳制御情報を第五話者属性格納部501に蓄積しても良い。かかる場合、第五話者属性蓄積部504は、第五音声翻訳制御情報蓄積部504と呼んでも良い。
翻訳結果受信部505は、翻訳サーバ装置4から直接または間接的に、翻訳結果を受信する。
音声合成モデル選択部506は、第五話者属性受信部503が受信した1以上の話者属性に応じて、2以上の音声合成モデルから、一の音声合成モデルを選択する。
第五モデル選択情報格納手段5061は、音声合成モデル選択情報管理表を格納している。音声合成モデル選択情報管理表は、1以上の話者属性に関する条件(1以上の話者属性でも良い)と、音声合成モデルを識別する音声合成モデル識別子とを有するレコードを1以上含む表である。
第五モデル選択手段5062は、第五話者属性格納部501に格納されている1以上の話者属性から音声合成モデル選択情報管理表を検索し、1以上の話者属性に対応する音声合成モデル装置識別子を取得する。なお、音声合成部507は、第五モデル選択手段5062が取得した音声合成モデル識別子に対応する音声合成モデルを音声合成モデル格納部502から取得し、当該音声合成モデルを用いて音声合成処理を行う。
音声合成部507は、翻訳結果受信部505が受信した翻訳結果を、音声合成モデル格納部502の音声合成モデルを用いて音声合成し、音声合成結果を取得する。音声合成部507は、翻訳結果受信部505が受信した翻訳結果を、音声合成モデル選択部506が選択した音声合成モデルを用いて音声合成し、音声合成結果を取得することは好適である。ここで、音声合成をする目的言語を特定する情報は、例えば、音声翻訳制御情報の中に含まれる。
音声合成結果送信部508は、音声合成部507が取得した音声合成結果を、直接または間接的に第二端末装置2に送信する。
第一話者属性格納部11、第一サーバ選択情報格納手段151、第二話者属性格納部21、第二サーバ選択情報格納手段251、第三話者属性格納部301、音声認識モデル格納部302、第三モデル選択情報格納手段3071、第三サーバ選択情報格納手段3091、第四話者属性格納部401、翻訳モデル格納部402、第四モデル選択情報格納手段4071、第四サーバ選択情報格納手段4091、第五話者属性格納部501、音声合成モデル格納部502、および第五モデル選択情報格納手段5061は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。第一話者属性格納部11等に、上記の情報が記憶される過程は問わない。例えば、記録媒体を介して上記の情報が第一話者属性格納部11等で記憶されるようになってもよく、通信回線等を介して送信された上記の情報が第一話者属性格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された上記の情報が第一話者属性格納部11等で記憶されるようになってもよい。
第一話者属性受付部12、および第二話者属性受付部22は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
第一音声受付部14、および第二音声受付部24は、例えば、マイクとそのデバイスドライバーなどにより実現され得る。
第一音声送信部16、第一音声受信部17、第一話者属性送信部19、第二音声送信部26、第二音声受信部27、第二話者属性送信部29、第三話者属性受信部303、音声情報受信部306、音声認識結果送信部310、第三話者属性送信部311、第四話者属性受信部403、音声認識結果受信部406、翻訳結果送信部410、第四話者属性送信部411、第五話者属性受信部503、翻訳結果受信部505、および音声合成結果送信部508は、通常、無線または有線の通信手段で実現されるが、放送手段または放送受信手段で実現されても良い。
第一音声出力部18、および第二音声出力部28は、スピーカおよびそのドライバーソフト等で実現され得る。
第一話者属性蓄積部13、第一音声認識サーバ選択部15、第一サーバ選択情報格納手段151、第二話者属性蓄積部23、第二音声認識サーバ選択部25、第二サーバ選択手段252、音声話者属性取得部304、第三話者属性蓄積部305、音声認識モデル選択部307、音声認識部308、翻訳サーバ選択部309、第三モデル選択手段3072、第三サーバ選択手段3092、言語話者属性取得部404、第四話者属性蓄積部405、翻訳モデル選択部407、翻訳部408、音声合成サーバ選択部409、第四モデル選択手段4072、第四サーバ選択手段4092、第五話者属性蓄積部504、音声合成モデル選択部506、音声合成部507、および第五モデル選択手段5062は、通常、MPUやメモリ等から実現され得る。第一話者属性蓄積部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、音声翻訳システムの動作について図6から図10のフローチャートを用いて説明する。まず、第一端末装置1の動作について図6のフローチャートを用いて説明する。
(ステップS601)第一話者属性受付部12等の受付部は、ユーザAからの入力を受け付けたか否かを判断する。入力を受け付ければステップS602に行き、入力を受け付けなければステップS606に行く。
(ステップS602)第一話者属性受付部12は、ステップS601で受け付けた入力が話者属性であるか否かを判断する。話者属性であればステップS603に行き、話者属性でなければステップS604に行く。
(ステップS603)第一話者属性蓄積部13は、受け付けられた1以上の話者属性を、第一話者属性格納部11に蓄積する。ステップS601に戻る。
(ステップS604)図示しない受付部は、ステップS601で受け付けた入力が発呼要求であるか否かを判断する。発呼要求であればステップS605に行き、発呼要求でなければステップS601に戻る。なお、発呼要求は、第二端末装置2のユーザBに対しての通話の依頼であり、通常、第二端末装置2の第二端末装置識別子(電話番号など)が含まれる。
(ステップS605)図示しない発呼部は、第二端末装置2に対して、発呼する。そして、発呼の結果、通話が開始される。ステップS601に戻る。
(ステップS606)第一音声受付部14は、ユーザAの音声を受け付けたか否かを判断する。音声を受け付ければステップS607に行き、音声を受け付けなければステップS601に戻る。
(ステップS607)第一サーバ選択手段152は、第一話者属性格納部11から、1以上の話者属性を読み出す。
(ステップS608)第一サーバ選択手段152は、ステップS607で読み出した1以上の話者属性を、第一サーバ選択情報格納手段151の第一サーバ選択情報(音声認識サーバ選択情報管理表)に適用し、音声認識サーバ装置3を選択する。ここで、音声認識サーバ装置3の選択とは、例えば、一の音声認識サーバ装置識別子を取得することである。
(ステップS609)第一話者属性送信部19は、第一話者属性格納部11に格納されている1以上の話者属性を用いて、音声翻訳制御情報を構成する。第一話者属性送信部19は、例えば、入力された第二端末装置2の電話番号から決定した目的言語の識別子を取得する。また、第一話者属性送信部19は、格納されている第一端末装置1の電話番号から決定した原言語の識別子を取得する。例えば、電話番号は国コードを含むので、第一話者属性送信部19は、かかる国コードから目的言語を決定する。第一話者属性送信部19は、国コードと目的言語識別子との対応表(例えば、「81:日本語」「82:韓国語」などのレコードを有する表)を保持している。そして、第一話者属性送信部19は、第一話者属性格納部11に格納されている1以上の話者属性と、原言語の識別子と目的言語の識別子等から、音声翻訳制御情報を構成する。
(ステップS610)第一音声送信部16は、ステップS606で受け付けた音声をデジタル化し、音声情報を取得する。そして、第一音声送信部16は、当該音声情報を、ステップS608で選択された音声認識サーバ装置3に送信する。
(ステップS611)第一話者属性送信部19は、ステップS609で構成された音声翻訳制御情報を、ステップS608で選択された音声認識サーバ装置3に送信する。なお、ここで、第一話者属性送信部19は、1以上の話者属性のみを、ステップS608で選択された音声認識サーバ装置3に送信しても良い。ステップS601に戻る。
なお、図6のフローチャートにおいて、通話中に、再度、ステップS607、ステップS608、ステップS609、およびステップS611の処理を行わないことは好適である。つまり、一通話において、一度または、音声情報の送信より少ない回数、テップS607、ステップS608、ステップS609、およびステップS611の処理を行うことは好適である。
さらに、図6のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
また、第二端末装置2の動作は、第一端末装置1の動作と同様であるので、説明を省略する。
次に、音声認識サーバ装置3の動作について図7のフローチャートを用いて説明する。
(ステップS701)音声情報受信部306は、音声情報を受信したか否かを判断する。音声情報を受信すればステップS702に行き、音声情報を受信しなければステップS701に戻る。
(ステップS702)第三話者属性受信部303は、音声翻訳制御情報を受信したか否かを判断する。音声翻訳制御情報を受信すればステップS703に行き、受信しなければステップS710に行く。
(ステップS703)音声話者属性取得部304は、ステップS701で受信された音声情報から、1以上の話者属性を取得する。かかる処理を話者属性取得処理といい、図8のフローチャートを用いて説明する。
(ステップS704)第三話者属性蓄積部305は、ステップS702で受信した音声翻訳制御情報に、ステップS703で取得した1以上の話者属性を加え、新たな音声翻訳制御情報を構成し、当該音声翻訳制御情報を第三話者属性格納部301に、少なくとも一時的に蓄積する。なお、第三話者属性蓄積部305は、ステップS703で取得したすべての話者属性をステップS702で受信した音声翻訳制御情報に加える必要はない。また、第三話者属性蓄積部305は、ステップS703で取得したすべての話者属性を優先し、ステップS702で受信した音声翻訳制御情報の一部の話者属性を修正しても良い。ステップS703で取得したすべての話者属性を優先させた場合、例えば、女性的な男性の音声に対しても、音声認識しやすくなるなどのメリットがある。
(ステップS705)第三モデル選択手段3072は、第三話者属性格納部301に格納されている音声翻訳制御情報が有する1以上の話者属性を用いて、音声認識モデル選択情報管理表を検索し、音声認識モデル識別子を取得する。つまり、第三モデル選択手段3072は、音声認識モデルを選択する。そして、第三モデル選択手段3072は、選択した音声認識モデルを、音声認識モデル格納部302から読み出す。
(ステップS706)音声認識部308は、読み出された音声認識モデルを用いて、ステップS701で受信された音声情報に対して、音声認識処理を行う。そして、音声認識部308は、音声認識結果を得る。
(ステップS707)第三サーバ選択手段3092は、第三話者属性格納部301に格納されている音声翻訳制御情報が有する1以上の話者属性を用いて、翻訳サーバ選択情報管理表を検索し、1以上の話者属性に対応する翻訳サーバ装置識別子を取得する。
(ステップS708)音声認識結果送信部310は、ステップS707で取得された翻訳サーバ装置識別子に対応する翻訳サーバ装置4に、ステップS706で得られた音声認識結果を送信する。
(ステップS709)第三話者属性送信部311は、第三話者属性格納部301に格納されている音声翻訳制御情報を、ステップS707で取得された翻訳サーバ装置識別子に対応する翻訳サーバ装置4に送信し、ステップS701に戻る。
(ステップS710)第三モデル選択手段3072は、第三話者属性格納部301に音声翻訳制御情報が格納されているか否かを判断する。音声翻訳制御情報が格納されていればステップS711に行き、格納されていなければステップS712に行く。
(ステップS711)第三モデル選択手段3072は、第三話者属性格納部301に格納されている音声翻訳制御情報を読み出し、ステップS705に行く
(ステップS712)第三モデル選択手段3072は、音声認識モデル格納部302に格納されている任意の音声認識モデルを読み出し、ステップS706に行く。
なお、図7のフローチャートにおいて、話者属性取得処理で音声認識が行われている場合、再度の音声認識処理を行わなくても良い。ただし、話者属性取得処理で音声認識が行われている場合でも、音声認識モデルを選択し、精度の高い音声認識処理を行うことは好適である。
また、図7のフローチャートにおいて、ステップS703の話者属性取得処理を、音声認識処理した結果に対して行っても良い。
さらに、図7のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
ステップS703の話者属性取得処理を、図8のフローチャートを用いて説明する。
(ステップS801)音声話者属性取得部304は、音声情報から1以上の特徴量を取得する(音声分析する)。音声話者属性取得部304が取得した1以上の特徴量から構成されるベクトルである特徴ベクトルデータは、例えば、三角型フィルタを用いたチャネル数24のフィルタバンク出力を離散コサイン変換したMFCCであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ12次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー(39次元)を有する。
(ステップS802)音声話者属性取得部304は、ステップS801で取得した1以上の特徴量を用いて、話者の性別を決定する。
(ステップS803)音声話者属性取得部304は、ステップS801で取得した1以上の特徴量を用いて、話者の年齢層を決定する。
(ステップS804)音声話者属性取得部304は、音声情報から、話速を取得する。なお、話速を取得する処理は公知技術である。
(ステップS805)音声話者属性取得部304は、音声認識部308に音声認識処理を依頼し、音声認識結果を得る。
(ステップS806)音声話者属性取得部304は、ステップS805で得られた音声認識結果を自然言語処理し、話者クラスを決定する。上位処理にリターンする。
なお、図8のフローチャートにおいて、受信された音声翻訳制御情報(話者属性)に含まれている話者属性(例えば、性別)について、取得する処理(例えば、ステップS802)を行わなくても良い。処理の高速化になる。また、会話によって不変の話者属性(性別、年齢層など)は、一度のみ取得し、会話中に変化する話者属性(話速など)は、都度、取得する、または、累積された情報をも用いて、変化させていくことは好適である。
次に、翻訳サーバ装置4の動作について図9のフローチャートを用いて説明する。
(ステップS901)音声認識結果受信部406は、音声認識結果を受信したか否かを判断する。音声認識結果を受信すればステップS902に行き、音声認識結果を受信しなければステップS901に戻る。
(ステップS902)第四話者属性受信部403は、音声翻訳制御情報を受信したか否かを判断する。音声翻訳制御情報を受信すればステップS903に行き、受信しなければステップS909に行く。
(ステップS903)言語話者属性取得部404は、ステップS901で受信された音声認識結果を自然言語処理し、1以上の言語話者属性を取得する。言語話者属性取得部404は、例えば、音声認識結果から、話者クラスを取得する。
(ステップS904)第四話者属性蓄積部405は、ステップS902で受信した音声翻訳制御情報に、ステップS903で取得された1以上の言語話者属性を加えて、音声翻訳制御情報を構成し、当該音声翻訳制御情報を、第四話者属性格納部401に、少なくとも一時的に蓄積する。
(ステップS905)第四モデル選択手段4072は、ステップS902で受信した音声翻訳制御情報が有する1以上の話者属性、または第四話者属性格納部401に格納されている音声翻訳制御情報が有する1以上の話者属性を用いて、翻訳モデル選択情報管理表を検索し、翻訳モデル識別子を取得する。つまり、第四モデル選択手段4072は、翻訳モデルを選択する。そして、第四モデル選択手段4072は、選択した翻訳モデルを、翻訳モデル格納部402から読み出す。
(ステップS906)翻訳部408は、読み出された翻訳モデルを用いて、ステップS901で受信された音声認識結果に対して、翻訳処理を行う。そして、翻訳部408は、翻訳結果を得る。
(ステップS907)第四サーバ選択手段4092は、第四話者属性格納部401に格納されている音声翻訳制御情報が有する1以上の話者属性を用いて、音声合成サーバ選択情報管理表を検索し、1以上の話者属性に対応する音声合成サーバ装置識別子を取得する。
(ステップS908)翻訳結果送信部410は、ステップS907で取得された音声合成サーバ装置識別子に対応する音声合成サーバ装置5に、ステップS906で得られた翻訳結果を送信する。
(ステップS909)第四話者属性送信部411は、第四話者属性格納部401に格納されている音声翻訳制御情報を、ステップS907で取得された音声合成サーバ装置識別子に対応する音声合成サーバ装置5に送信する。ステップS901に戻る。
(ステップS910)第四モデル選択手段4072は、第四話者属性格納部401に音声翻訳制御情報が格納されているか否かを判断する。音声翻訳制御情報が格納されていればステップS911に行き、格納されていなければステップS912に行く。
(ステップS911)第四モデル選択手段4072は、第四話者属性格納部401に格納されている音声翻訳制御情報を読み出す。ステップS905に行く
(ステップS912)第四モデル選択手段4072は、翻訳モデル格納部402に格納されている任意の翻訳モデルを読み出す。ステップS906に行く。
なお、図9のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
次に、音声合成サーバ装置5の動作について図10のフローチャートを用いて説明する。
(ステップS1001)翻訳結果受信部505は、翻訳結果を受信したか否かを判断する。翻訳結果を受信すればステップS1002に行き、翻訳結果を受信しなければステップS1001に戻る。
(ステップS1002)第五話者属性受信部503は、音声翻訳制御情報を受信したか否かを判断する。音声翻訳制御情報を受信すればステップS1003に行き、受信しなければステップS1007に行く。
(ステップS1003)第五話者属性蓄積部504は、ステップS1002で受信した音声翻訳制御情報を、第五話者属性格納部501に、少なくとも一時的に蓄積する。
(ステップS1004)第五モデル選択手段5062は、第五話者属性格納部501に格納されている音声翻訳制御情報が有する1以上の話者属性を用いて、音声合成モデル選択情報管理表を検索し、音声合成モデル識別子を取得する。つまり、第五モデル選択手段5062は、音声合成モデルを選択する。そして、第五モデル選択手段5062は、選択した音声合成モデルを、音声合成モデル格納部502から読み出す。
(ステップS1005)音声合成部507は、読み出された音声合成モデルを用いて、ステップS1001で受信された翻訳結果に対して、音声合成処理を行う。そして、音声合成部507は、音声合成された音声情報(音声合成結果)を得る。
(ステップS1006)音声合成結果送信部508は、第二端末装置2に、ステップS1005で得られた音声合成結果を送信する。なお、例えば、第二端末装置2を識別する第二端末装置識別子(例えば、第二端末装置2の電話番号やIPアドレスなど)は、音声翻訳制御情報に含まれる。ステップS1001に戻る。
(ステップS1007)第五モデル選択手段5062は、第五話者属性格納部501に音声翻訳制御情報が格納されているか否かを判断する。音声翻訳制御情報が格納されていればステップS1008に行き、格納されていなければステップS1009に行く。
(ステップS1010)第五モデル選択手段5062は、第五話者属性格納部501に格納されている音声翻訳制御情報を読み出す。ステップS1004に行く
(ステップS1011)第五モデル選択手段5062は、音声合成モデル格納部502に格納されている任意の音声合成モデルを読み出す。ステップS1005に行く。
なお、図10のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以下、本実施の形態における音声翻訳システムの具体的な動作について説明する。音声翻訳システムの概念図は図1である。
今、第一端末装置1のユーザAは、日本語を話す、37歳の女性であり、日本語はネイティブである。また、第二端末装置2ユーザBは、英語を話す、38歳の男性であり、英語はネイティブである。
そして、第一端末装置1の第一話者属性格納部11には、図11に示す第一話者属性管理表が格納されている。第一話者属性管理表は、性別「女性」、年齢「37歳」、使用言語「日本語」、およびNative「yes」が格納されている。
また、第二端末装置2の第二話者属性格納部21には、図12に示す第二話者属性管理表が格納されている。
また、第一端末装置1の第一サーバ選択情報格納手段151、および第二端末装置2の第二サーバ選択情報格納手段251には、図13に示す音声認識サーバ選択情報管理表が格納されている。音声認識サーバ選択情報管理表は、「ID」「言語」「話者属性」「音声認識サーバ装置識別子」の属性値を有するレコードを1以上格納している。「言語」は、音声認識の対象の言語である。「話者属性」は、「性別」「年齢(ここでは、年齢のカテゴリ)」などを有する。「音声認識サーバ装置識別子」は、音声認識サーバ装置3と通信するための情報であり、ここでは、IPアドレスである。なお、第一サーバ選択情報格納手段151には、音声認識サーバ選択情報管理表のうちの、言語「日本語」に対応するレコードが存在すれば良い。また、第二サーバ選択情報格納手段251には、音声認識サーバ選択情報管理表のうちの、言語「英語」に対応するレコードが存在すれば良い。
また、音声認識サーバ装置3の第三モデル選択情報格納手段3071には、図14に示す音声認識モデル選択情報管理表が格納されている。音声認識モデル選択情報管理表は、「言語」「話者属性」「音声認識モデル識別子」の属性値を有するレコードを1以上格納している。「音声認識モデル識別子」は、音声認識モデルを識別する情報であり、例えば、音声認識モデルを読み出すために利用される。ここでは、例えば、「音声認識モデル識別子」は、音声認識モデルが格納されているファイル名などである。
また、音声認識サーバ装置3の第三サーバ選択情報格納手段3091には、図15に示す翻訳サーバ選択情報管理表が格納されている。翻訳サーバ選択情報管理表は、「ID」「原言語」「目的言語」「話者属性」「翻訳サーバ装置識別子」の属性値を有するレコードを1以上格納している。「原言語」は翻訳の元の言語である。「目的言語」は翻訳の先の言語である。「話者属性」は、ここでは、「性別」「年齢」「第一話者クラス」などを有する。「第一話者クラス」は、使う単語の難しさから決定される、話者の知的レベルを推定した情報である。「第一話者クラス」が「A」である場合、話者は知的レベルが高いとする。「第一話者クラス」が「B」または「C」である場合、話者は知的レベルが中程度、または低いとする。知的レベルの推定方法の例は、後述する。「翻訳サーバ装置識別子」は、翻訳サーバ装置4と通信するための情報であり、ここでは、IPアドレスである。
また、翻訳サーバ装置4の第四モデル選択情報格納手段4071は、図16に示す翻訳モデル選択情報管理表を保持している。翻訳モデル選択情報管理表は、「ID」「原言語」「話者属性」「翻訳モデル識別子」の属性値を有するレコードを1以上格納している。「話者属性」は、ここでは、「性別」「年齢」「第二話者クラス」などを有する。「第二話者クラス」は、使用言語について、ネイティブか否かを示す。ネイティブである場合は「Y」、ネイティブでない場合は「N」の属性値となる。「翻訳モデル識別子」は、翻訳モデルを識別する情報であり、例えば、翻訳モデルを読み出すために利用される。ここでは、例えば、「翻訳モデル識別子」は、翻訳モデルが格納されているファイル名などである。
また、翻訳サーバ装置4の第四サーバ選択情報格納手段4091は、図17に示す音声合成サーバ選択情報管理表が格納されている。音声合成サーバ選択情報管理表は、「ID」「目的言語」「話者属性」「音声合成サーバ装置識別子」の属性値を有するレコードを1以上格納している。「話者属性」は、ここでは、「性別」「年齢」「話速」「第一話者クラス」「第二話者クラス」などを有する。「話速」は、話す速度であり、ここでは、「速い」「中程度」「遅い」の3つのいずれかの値をとり得る。「速い」は、例えば、話すスピードが「5音節/秒」以上である場合、「中程度」は、例えば、話すスピードが「5音節/秒」未満「3音節/秒」以上である場合、「遅い」は、例えば、話すスピードが「3音節/秒」未満である場合である。ただし、「話速」のカテゴライズの種類、カテゴライズの方法、アルゴリズムなどは問わない。「音声合成サーバ装置識別子」は、音声合成サーバ装置5と通信するための情報であり、ここでは、IPアドレスである。
さらに、音声合成サーバ装置5の第五モデル選択情報格納手段5061は、図18に示す音声合成モデル選択情報管理表を保持している。音声合成モデル選択情報管理表は、「ID」「目的言語」「話者属性」「音声合成モデル識別子」の属性値を有するレコードを1以上格納している。「話者属性」は、ここでは、「性別」「年齢」「第二話者クラス」などを有する。「話者属性」として、「話速」や「第一話者クラス」を有することはさらに好適である。「音声合成モデル識別子」は、音声合成モデルを識別する情報であり、例えば、音声合成モデルを読み出すために利用される。ここでは、例えば、「音声合成モデル識別子」は、音声合成モデルが格納されているファイル名などである。
かかる状況において、ユーザAは、ユーザBに電話をかけようとする。そして、ユーザAは、第一端末装置1から、相手(ユーザB)の電話番号などを入力する画面であり、図19の画面を呼び出した。そして、第一端末装置1は、第一話者属性格納部11に格納されている第一話者属性管理表(図11)を読み出し、図19の画面を表示する。そして、ユーザは、相手の使用言語と、相手の電話番号とを入力し、「発信」ボタンを押下した、とする。なお、図19において、自分の電話番号「080−1111−2256」は、図示しない記録媒体に格納されている、とする。
次に、第一端末装置1の、図示しない発呼部は、第二端末装置2に対して、発呼する。そして、通話が開始される。
次に、第一端末装置1の第一音声受付部14は、ユーザAの音声「おはようございます」を受け付ける。
次に、第一サーバ選択手段152は、第一話者属性格納部11から、図11の話者属性を読み出す。
次に、第一サーバ選択手段152は、読み出した1以上の話者属性「性別:女性,年齢:37歳,使用言語:日本語・・・」を、図13の音声認識サーバ選択情報管理表に適用し、「ID=7」のレコードを検索し、音声認識サーバ装置識別子「186.221.1.27」を取得する。
次に、第一話者属性送信部19は、1以上の話者属性を用いて、音声翻訳制御情報を構成する。第一話者属性送信部19は、例えば、図20に示す音声翻訳制御情報を構成する。この音声翻訳制御情報は、1以上の話者属性、および図19の画面からユーザAにより入力された情報(相手の使用言語[目的言語])を含む。さらに、音声翻訳制御情報は、音声認識サーバ装置識別子「186.221.1.27」を含む。
次に、第一音声送信部16は、受け付けた音声「おはようございます」をデジタル化し、「おはようございます」の音声情報を取得する。そして、第一音声送信部16は、当該音声情報を、「186.221.1.27」で識別される音声認識サーバ装置3に送信する。
次に、第一話者属性送信部19は、図20の音声翻訳制御情報を、「186.221.1.27」で識別される音声認識サーバ装置3に送信する。
次に、音声認識サーバ装置3の音声情報受信部306は、音声情報「おはようございます」を受信する。そして、第三話者属性受信部303は、図20の音声翻訳制御情報を受信する。
次に、音声話者属性取得部304は、受信された音声情報「おはようございます」から、1以上の話者属性を取得する。つまり、第三話者属性受信部303は、音声情報「おはようございます」から1以上の特徴量を取得する。そして、第三話者属性受信部303は、1以上の特徴量を用いて、予め決められた情報を取得する。ここで、図20の音声翻訳制御情報に、性別や年齢などの話者属性を含むが、第三話者属性受信部303は、音声翻訳制御情報と重複する話者属性(性別や年齢など)を取得し、取得した話者属性を優先させて、音声認識や、後の翻訳や、音声合成に利用しても良い。
次に、音声話者属性取得部304は、音声情報「おはようございます」から、話速を取得する。ここで、音声話者属性取得部304は、4音節/秒であると、判断し、話速「中程度」を取得した、とする。
次に、第三モデル選択手段3072は、第三話者属性格納部301に格納されている音声翻訳制御情報が有する1以上の話者属性、および音声話者属性取得部304が取得した1以上の話者属性(ここでは、話速「中程度」)を用いて、音声認識モデル選択情報管理表(図14)から、「ID=18」のレコードを検索し、音声認識モデル識別子「JR6」を取得する。そして、第三モデル選択手段3072は、選択した音声認識モデル「JR6」を、音声認識モデル格納部302から読み出す。
音声認識部308は、読み出された音声認識モデルを用いて、受信された音声情報に対して、音声認識処理を行い、音声認識結果「おはようございます」を得る。
次に、音声話者属性取得部304は、音声認識部308に音声認識処理を依頼し、音声認識結果「おはようございます」を得る。
音声話者属性取得部304は、得られた音声認識結果を自然言語処理し、丁寧語であるので、第一話者クラス「A」を取得する。音声話者属性取得部304は、例えば、丁寧語を構成する用語「ございます」「です」や、難易度の高い用語「齟齬」「誤謬」などを格納しており、かかる用語の出現頻度、出現割合などにより、第一話者クラスを決定しても良い。音声話者属性取得部304は、「おはようございます」を形態素解析し、「おはよう」「ございます」の2つの形態素に分割する。そして、音声話者属性取得部304は、「ございます」が管理されている用語に合致することを検知する。次に、音声話者属性取得部304は、管理用語である割合「50%」と算出する。次に、音声話者属性取得部304は、格納している判断条件「A:管理用語の出現割合が5%以上,B:管理用語の出現割合が1%以上かつ5%未満,C:管理用語の出現割合が1%未満」から、第一話者クラス「A」と決定する。なお、次々と会話がなされるごとに、音声話者属性取得部304は、管理用語の出現割合を、都度、算出し、第一話者クラスを決定、変更していくことは好適である。
次に、第三話者属性蓄積部305は、受信した音声翻訳制御情報(図20)に、話者属性である話速「中程度」、および第一話者クラス「A」を加える。そして、第三話者属性蓄積部305は、図21の音声翻訳制御情報を、第三話者属性格納部301に、少なくとも一時的に蓄積する。
次に、第三サーバ選択手段3092は、第三話者属性格納部301に格納されている音声翻訳制御情報(図21)が有する1以上の話者属性を用いて、翻訳サーバ選択情報管理表(図15)を検索し、1以上の話者属性に対応する「ID=25」のレコードの翻訳サーバ装置識別子「77.128.50.80」を取得する。そして、第三話者属性蓄積部305は、翻訳サーバ装置識別子「77.128.50.80」を音声翻訳制御情報に加えて、第三話者属性格納部301に蓄積する。かかる更新された音声翻訳制御情報を図22に示す。
次に、音声認識結果送信部310は、取得された翻訳サーバ装置識別子「77.128.50.80」に対応する翻訳サーバ装置4に、音声認識結果「おはようございます」を送信する。
そして、第三話者属性送信部311は、第三話者属性格納部301に格納されている音声翻訳制御情報(図22)を、取得された翻訳サーバ装置識別子「77.128.50.80」に対応する翻訳サーバ装置4に送信する。
次に、翻訳サーバ装置4の音声認識結果受信部406は、音声認識結果「おはようございます」を受信する。そして、第四話者属性受信部403は、音声翻訳制御情報(図22)を受信する。
次に、第四話者属性蓄積部405は、受信した音声翻訳制御情報(図22)を、第四話者属性格納部401に、少なくとも一時的に蓄積する。
次に、第四モデル選択手段4072は、図22の音声翻訳制御情報が有する1以上の話者属性を用いて、翻訳モデル選択情報管理表(図16)から、「ID=18」のレコードを検索し、翻訳モデル識別子「JT4」を取得する。そして、第四モデル選択手段4072は、「JT4」の翻訳モデルを、翻訳モデル格納部402から読み出す。
次に、翻訳部408は、読み出された翻訳モデル「JT4」を用いて、受信された音声認識結果「おはようございます」に対して、翻訳処理を行う。そして、翻訳部408は、翻訳結果「Good morning.」を得る。
次に、第四サーバ選択手段4092は、図22の音声翻訳制御情報が有する1以上の話者属性を用いて、音声合成サーバ選択情報管理表(図17)から、1以上の話者属性に対応する「ID=33」のレコードを検索し、音声合成サーバ装置識別子「238.3.55.7」を取得する。
そして、第四話者属性蓄積部405は、図22の音声翻訳制御情報に、音声合成サーバ装置識別子「238.3.55.7」を加えた音声翻訳制御情報(図23)を構成し、当該音声翻訳制御情報を第四話者属性格納部401に蓄積する。
次に、翻訳結果送信部410は、音声合成サーバ装置識別子「238.3.55.7」に対応する音声合成サーバ装置5に、翻訳結果「Good morning.」を送信する。
次に、第四話者属性送信部411は、図23の音声翻訳制御情報を、音声合成サーバ装置識別子「238.3.55.7」に対応する音声合成サーバ装置5に送信する。
次に、音声合成サーバ装置5の翻訳結果受信部505は、翻訳結果を受信する。また、第五話者属性受信部503は、図23の音声翻訳制御情報を受信する。
そして、第五話者属性蓄積部504は、受信した音声翻訳制御情報を、第五話者属性格納部501に、少なくとも一時的に蓄積する。
次に、第五モデル選択手段5062は、第五話者属性格納部501に格納されている音声翻訳制御情報(図23)が有する1以上の話者属性を用いて、音声合成モデル選択情報管理表から、「ID=18」のレコードを検索し、音声合成モデル識別子「JC9」を取得する。そして、第五モデル選択手段5062は、選択した音声合成モデル「JC9」を、音声合成モデル格納部502から読み出す。
次に、音声合成部507は、読み出された音声合成モデルを用いて、翻訳結果「Good morning.」に対して、音声合成処理を行う。そして、音声合成部507は、音声合成された音声情報(音声合成結果)を得る。
次に、音声合成結果送信部508は、第二端末装置2に、得られた音声合成結果を送信する。
次に、第二端末装置2の第二音声受信部27は、音声合成結果「Good morning」を受信する。そして、第二音声出力部28は、音声「Good morning」を出力する。
以上の処理により、ユーザAが発生した「おはようございます」が、第二端末装置2に至るまでに「Good morning」の音声に変換され、第二端末装置2に「Good morning」が出力される。
また、第二端末装置2のユーザBが、「Good morning」に答えて「Good morning」と発生した音声は、上記と同様の処理により、「おはよう」に変換され、第一端末装置1に音声「おはよう」が出力される。
以上、本実施の形態によれば、音声認識、翻訳、音声合成の各処理において、話者属性に合致する適切な装置、または適切なモデルを選択できる。その結果、精度の高い、または話者の属性を引き継いだネットワーク型音声翻訳システムが提供できる。
また、本実施の形態によれば、会話中に、話速や話者クラスなどの話者属性が変化した場合、当該変化に合わせた装置(音声認識、翻訳、音声合成の各装置)やモデル(音声認識、翻訳、音声合成の各モデル)が適用され、適切に音声認識、翻訳、音声合成等の処理が行える。
なお、本実施の形態によれば、音声認識、翻訳、音声合成の各処理において、話者属性に合致する適切な装置、または適切なモデルを、すべて選択できた。しかし、音声認識を行う装置またはモデルのみが選択できても良いし、翻訳を行う装置またはモデルのみが選択できても良いし、音声合成を行う装置またはモデルのみが選択できても良い。
また、本実施の形態によれば、例えば、ユーザが、翻訳サーバ装置または翻訳モデルを指定した場合は、指定された翻訳サーバ装置または翻訳モデルを使用して、翻訳処理を行うことは好適である。ユーザは、自分で使用したい表現を蓄積した翻訳サーバ装置または翻訳モデルを利用したい場合もあるからである。かかる場合、例えば、第一端末装置1に、利用したい翻訳サーバ装置を識別する翻訳サーバ装置識別子または翻訳モデルを識別する翻訳モデル識別子が格納されている。そして、かかる翻訳サーバ装置識別子または翻訳モデル識別子が音声翻訳制御情報に付加される。そして、かかる音声翻訳制御情報は、第一端末装置1から、音声認識サーバ装置3を経由して、翻訳サーバ装置4に送信される。
また、同様に、本実施の形態において、例えば、ユーザが、音声合成サーバ装置または音声合成モデルを指定した場合は、指定された音声合成サーバ装置または音声合成モデルを使用して、音声合成処理を行うことは好適である。ユーザは、例えば、自分の音声を集めた音声合成モデル、または自分の音声を集めた音声合成モデルを格納した音声合成サーバ装置を利用して、目的言語の音声合成を行いたい場合もあるからである。かかる場合、例えば、第一端末装置1に、利用したい音声合成サーバ装置を識別する音声合成サーバ装置識別子または音声合成モデルを識別する音声合成モデル識別子が格納されている。そして、かかる音声合成サーバ装置識別子または音声合成モデル識別子が音声翻訳制御情報に付加される。そして、かかる音声翻訳制御情報は、第一端末装置1から、音声認識サーバ装置3、および翻訳サーバ装置4を経由して、音声合成サーバ装置5に送信される。
ユーザが指定した翻訳サーバ装置を識別する情報、およびユーザが指定した音声合成サーバ装置を識別する情報が付加された音声翻訳制御情報の例は、図24である。
また、本実施の形態によれば、第一端末装置1が音声認識サーバ装置3の選択処理を行った。また、音声認識サーバ装置3が、音声認識モデルの選択処理、および翻訳サーバ装置4の選択処理を行った。また、翻訳サーバ装置4が、翻訳モデルの選択処理、および音声合成サーバ装置5の選択処理を行った。さらに、音声合成サーバ装置5が、音声合成モデルの選択処理を行った。しかし、かかるモデルやサーバ装置の選択処理は、他の装置が行っても良い。例えば、一の制御装置が、かかるサーバ装置の選択処理を行う場合の、音声翻訳システム6の概念図は、図25である。図25において、音声翻訳システムは、1以上の第一端末装置251、1以上の第二端末装置252、1以上の音声認識サーバ装置253、1以上の翻訳サーバ装置254、1以上の音声合成サーバ装置5、および制御装置256を具備する。この音声翻訳システム6と、上述した音声翻訳システムとの差異は、サーバ装置の選択処理を行う装置が異なるために生じる差異である。なお、図25において、モデルの選択は、音声認識サーバ装置253、翻訳サーバ装置254、および音声合成サーバ装置5で、それぞれ行う。
また、図25において、第一端末装置251、第二端末装置252、音声認識サーバ装置253、翻訳サーバ装置254、および音声合成サーバ装置5は、それぞれ、処理前の結果を制御装置256から受信し、処理後の結果を制御装置256に送信する。つまり、第一端末装置251は、ユーザAから受け付けた音声情報を制御装置256に送信する。そして、制御装置256は、音声認識を行う音声認識サーバ装置253を決定し、音声情報を音声認識サーバ装置253に送信する。次に、音声認識サーバ装置253は音声情報を受信し、必要に応じて、音声認識モデルを選択し、音声認識処理を行う。そして、音声認識サーバ装置253は、音声認識結果を制御装置256に送信する。次に、制御装置256は、音声認識結果を音声認識サーバ装置253から受信し、翻訳を行う翻訳サーバ装置254を選択する。そして、制御装置256は、選択した翻訳サーバ装置254に、音声認識結果を送信する。次に、翻訳サーバ装置254は、音声認識結果を受信し、必要に応じて、翻訳モデルを選択し、翻訳処理を行う。そして、翻訳サーバ装置254は、翻訳結果を制御装置256に送信する。次に、制御装置256は、翻訳結果を翻訳サーバ装置254から受信し、音声合成を行う音声合成サーバ装置5を選択する。そして、制御装置256は、選択した音声合成サーバ装置5に、翻訳結果を送信する。次に、音声合成サーバ装置5は、翻訳結果を受信し、必要に応じて、音声合成モデルを選択し、音声合成処理を行う。そして、音声合成サーバ装置5は、音声合成結果を制御装置256に送信する。次に、制御装置256は、音声合成結果を音声合成サーバ装置5から受信し、第二端末装置252に送信する。次に、第二端末装置252は、音声合成結果を受信し、出力する。
図26は、音声翻訳システム6のブロック図である。図26において、第一端末装置251の第一音声送信部16、第一音声受信部17、および第一話者属性送信部19、第二端末装置252の第二音声送信部26、第二音声受信部27、および第二話者属性送信部29が情報の送受信を行う装置は、制御装置256である。
図26において、第一端末装置251は、第一話者属性格納部11、第一話者属性受付部12、第一話者属性蓄積部13、第一音声受付部14、第一音声送信部16、第一音声受信部17、第一音声出力部18、第一話者属性送信部19を備える。第二端末装置252は、第二話者属性格納部21、第二話者属性受付部22、第二話者属性蓄積部23、第二音声受付部24、第二音声送信部26、第二音声受信部27、第二音声出力部28、第二話者属性送信部29を備える。
図27は、制御装置256のブロック図である。制御装置256は、話者属性格納部2561、送受信部2562、話者属性蓄積部2563、第二音声認識サーバ選択部25、翻訳サーバ選択部309、音声合成サーバ選択部409を備える。話者属性格納部2561は、1以上の話者属性を格納し得る。話者属性格納部2561は、音声翻訳制御情報を格納していても良い。送受信部2562は、第一端末装置251、第二端末装置252、音声認識サーバ装置253、翻訳サーバ装置254、および音声合成サーバ装置5との間で、各種の情報を送受信する。各種の情報とは、音声情報、音声認識結果、翻訳結果、音声合成結果、および音声翻訳制御情報(一部の話者属性も含む)などである。送受信部2562は、通常、無線又は有線の通信手段により実現され得る。話者属性蓄積部2563は、送受信部2562が受信した1以上の話者属性(音声翻訳制御情報でも良い)を、話者属性格納部2561に蓄積する。
また、図28は、音声認識サーバ装置253のブロック図である。音声認識サーバ装置253は、第三話者属性格納部301、音声認識モデル格納部302、第三話者属性受信部303、音声話者属性取得部304、第三話者属性蓄積部305、音声情報受信部306、音声認識モデル選択部307、音声認識部308、音声認識結果送信部310、第三話者属性送信部311を備える。
また、図29は、翻訳サーバ装置254のブロック図である。翻訳サーバ装置254は、第四話者属性格納部401、翻訳モデル格納部402、第四話者属性受信部403、第四話者属性蓄積部405、音声認識結果受信部406、翻訳モデル選択部407、翻訳部408、翻訳結果送信部410、第四話者属性送信部411を備える。
また、本実施の形態において、音声翻訳制御情報の例は、図20から図24を用いて説明した。ただし、音声翻訳制御情報のフォーマットは問わない。音声翻訳制御情報は、図30に示すようなXMLのフォーマットでも良いことは言うまでもない。図30に示す音声翻訳制御情報の記述言語を、音声翻訳用マークアップランゲージ STML(Speech Translation Markup Language)という。図30において、ユーザID(話者のユーザを特定する情報"Mike")、音声認識の出力結果のフォーマット、またはサイズ(MaxNBest="2")、原言語「英語」(language="en")、翻訳対象を特定する情報(ここでは、Task="Dictation"、会話のドメイン(ここでは、「Travel(旅行)」)、入力音声のフォーマットを示す情報(ここでは、"ADPCM")が記載されている。また、図30において、話者属性のうちの性別(ここでは、"male")、年齢(ここでは、"30")、およびネイティブか否か(ここでは、"no")が記載されている。また、図30において、出力テキストのフォーマットを示す情報(ここでは、"SurfaceForm")が記載されている。さらに、音声翻訳制御情報において、出力音声のフォーマットを示す情報、入出力音声の声質を指定する情報、入力テキストのフォーマットを示す情報を示す情報などが存在しても良い。また、上記の(MaxNBest="2")は、音声認識結果の上位2番目までの候補を出力し、送信することを示している。なお、Nbestは音声認識結果の上位N番目までの候補という意味である。
また、本実施の形態において、音声認識サーバ装置3、および翻訳サーバ装置4は、それぞれ、音声認識モデルの選択や翻訳モデルの選択を行わなくても良い。また、音声認識処理を行う音声認識サーバ装置3や、翻訳処理を行う翻訳サーバ装置4の選択も行わなくても良い。かかる場合、話者属性に応じた音声合成サーバ装置5の選択や、音声合成モデルの選択が行われる。かかる音声合成サーバ装置5の選択処理、音声合成モデルの選択処理は、上述した通りである。また、音声合成サーバ装置5の音声合成部507は、話者属性(例えば、話速や音の高低や音質など)に応じて、音声を変換して、出力する音声情報を構成しても良い。つまり、音声合成部507は、翻訳結果受信部505が受信した翻訳結果を、第五話者属性受信部503が受信した1以上の話者属性が示す属性に合致するように、音声合成モデル格納部502の音声合成モデルを用いて音声合成し、音声合成結果を取得しても良い。また、音声合成部507は、翻訳結果受信部505が受信した翻訳結果を、音声翻訳制御情報の話者属性が示す属性に合致するように、音声合成モデル格納部52の音声合成モデルを用いて音声合成し、音声合成結果を取得しても良い。かかる場合も、音声合成モデルの選択と言っても良い。
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における第一端末装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声を受け付ける第一音声受付部と、記憶媒体に格納している1以上の話者属性に応じて、2以上の音声認識サーバ装置のうち一の音声認識サーバ装置を選択する第一音声認識サーバ選択部と、前記第一音声認識サーバ選択部が選択した音声認識サーバ装置に、前記第一音声受付部が受け付けた音声から構成される音声情報を送信する第一音声送信部として機能させるためのプログラム、である。
また、本実施の形態における音声認識サーバ装置を実現するソフトウェアは、コンピュータを、音声情報を受信する音声情報受信部と、記憶媒体に格納している1以上の話者属性に応じて、記憶媒体に格納している2以上の音声認識モデルから、一の音声認識モデルを選択する音声認識モデル選択部と、前記音声情報受信部が受信した音声情報を、前記音声認識モデル選択部が選択した音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、前記音声認識結果を送信する音声認識結果送信部として機能させるためのプログラム、である。
また、本実施の形態における音声認識サーバ装置を実現するソフトウェアは、コンピュータを、音声情報を受信する音声情報受信部と、前記音声情報受信部が受信した音声情報を、記憶媒体に格納している音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、記憶媒体に格納している1以上の話者属性に応じて、2以上の翻訳サーバ装置のうち一の翻訳サーバ装置を選択する翻訳サーバ選択部と、前記翻訳サーバ選択部が選択した翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部として機能させるためのプログラム、である。
また、本実施の形態における音声認識サーバ装置を実現するソフトウェアは、コンピュータを、前記音声情報受信部が受信した音声情報から、1以上の音声に関する話者属性を取得する音声話者属性取得部と、前記音声話者属性取得部が取得した1以上の話者属性を、記憶媒体に蓄積する第三話者属性蓄積部として、さらに機能させるためのプログラム、である。
また、本実施の形態における翻訳サーバ装置を実現するソフトウェアは、コンピュータを、1以上の話者属性を受信する第四話者属性受信部と、音声認識結果を受信する音声認識結果受信部と、前記第四話者属性受信部が受信した1以上の話者属性に応じて、記憶媒体に格納している2以上の翻訳モデルから、一の翻訳モデルを選択する翻訳モデル選択部と、前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル選択部が選択した翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、前記翻訳結果を送信する翻訳結果送信部として機能させるためのプログラム、である。
また、本実施の形態における翻訳サーバ装置を実現するソフトウェアは、コンピュータを、1以上の話者属性を受信する第四話者属性受信部と、音声認識結果を受信する音声認識結果受信部と、前記音声認識結果受信部が受信した音声認識結果を、記憶媒体に格納している翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、前記1以上の話者属性に応じて、2以上の音声合成サーバ装置のうち一の音声合成サーバ装置を選択する音声合成サーバ選択部と、前記音声合成サーバ選択部が選択した音声合成サーバ装置に、前記翻訳結果を送信する翻訳結果送信部として機能させるためのプログラム、である。
また、本実施の形態における翻訳サーバ装置を実現するソフトウェアは、コンピュータを、前記音声認識結果受信部が受信した音声認識結果から、1以上の言語に関する話者属性を取得する言語話者属性取得部と、前記言語話者属性取得部が取得した1以上の話者属性を、記憶媒体に蓄積する第四話者属性蓄積部として機能させるためのプログラム、である。
また、本実施の形態における音声合成サーバ装置を実現するソフトウェアは、コンピュータを、1以上の話者属性を受信する第五話者属性受信部と、翻訳結果を受信する翻訳結果受信部と、前記第五話者属性受信部が受信した1以上の話者属性に応じて、記憶媒体に格納している2以上の音声合成モデルから、一の音声合成モデルを選択する音声合成モデル選択部と、前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル選択部が選択した音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、前記音声合成結果を第二端末装置に送信する音声合成結果送信部として機能させるためのプログラム、である。
また、図31は、本明細書で述べたプログラムを実行して、上述した実施の形態の音声翻訳システム等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図31は、このコンピュータシステム340の概観図であり、図32は、コンピュータシステム340の内部構成を示す図である。
図31において、コンピュータシステム340は、FDドライブ3411、CD−ROMドライブ3412を含むコンピュータ341と、キーボード342と、マウス343と、モニタ344とを含む。
図32において、コンピュータ341は、FDドライブ3411、CD−ROMドライブ3412に加えて、MPU3413と、CD−ROMドライブ3412及びFDドライブ3411に接続されたバス3414と、ブートアッププログラム等のプログラムを記憶するためのROM3415に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3416と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3417とを含む。ここでは、図示しないが、コンピュータ341は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム340に、上述した実施の形態の音声翻訳システム等の機能を実行させるプログラムは、CD−ROM3501、またはFD3502に記憶されて、CD−ROMドライブ3412またはFDドライブ3411に挿入され、さらにハードディスク3417に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ341に送信され、ハードディスク3417に記憶されても良い。プログラムは実行の際にRAM3416にロードされる。プログラムは、CD−ROM3501、FD3502またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ341に、上述した実施の形態の音声翻訳システム等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム340がどのように動作するかは周知であり、詳細な説明は省略する。
なお、上記プログラムにおいて、情報を送信するステップや、情報をする受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信するステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、一の装置に存在する2以上の通信手段(音声認識結果受信部、第四話者属性受信部など)は、物理的に一の媒体で実現されても良いことは言うまでもない。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。なお、各処理(各機能)が単一の装置(システム)によって集中処理される場合、音声翻訳システムは、一つの装置であり、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置は、一つの装置内に含められる。かかる場合、上記の情報の送信および受信は、情報の受け渡しになる。つまり、上記の受信または送信は広く解する。
さらに具体的には、音声翻訳システムが単一の装置によって集中処理される場合、当該音声翻訳システムは、例えば、図33に示す構成になる。
つまり、音声翻訳システムは、音声受付部3301、第三話者属性格納部301、音声認識モデル格納部302、音声話者属性取得部304、音声認識モデル選択部307、音声認識部308、翻訳モデル格納部402、言語話者属性取得部404、翻訳モデル選択部407、翻訳部408、音声合成モデル格納部502、音声合成モデル選択部506、音声合成部507、音声合成結果出力部3302を備える。
音声受付部3301は、ユーザから音声を受け付ける。この音声は、音声翻訳対象の音声である。音声受付部3301は、例えば、マイクとそのドライバーソフトウェア等から構成され得る。
第三話者属性格納部301は、ここでは、通常、ユーザから受け付けた話者属性を格納している。ここでの話者属性は、通常、静的話者属性情報である。
音声話者属性取得部304は、音声受付部3301が受け付けた音声から構成された音声情報から、1以上の音声話者属性を取得する。ここで取得する音声話者属性は、主として、動的話者属性情報であるが、静的話者属性情報でも良い。
音声認識モデル選択部307は、第三話者属性格納部301の話者属性または音声話者属性取得部304が取得した話者属性のうちの、1以上の話者属性に応じて、2以上の音声認識モデルから、一の音声認識モデルを選択する。
音声認識部308は、音声受付部3301が受け付けた音声から構成された音声情報を、音声認識モデル格納部302の音声認識モデルを用いて音声認識し、音声認識結果を取得する。また、音声認識部308は、音声情報を、音声認識モデル選択部307が選択した音声認識モデルを用いて音声認識し、音声認識結果を取得することは好適である。
言語話者属性取得部404は、音声認識部308が取得した音声認識結果から1以上の言語話者属性を取得する。
翻訳モデル選択部407は、1以上の話者属性に応じて、2以上の翻訳モデルから、一の翻訳モデルを選択する。ここでの話者属性は、第三話者属性格納部301の話者属性または音声話者属性取得部304が取得した話者属性または言語話者属性取得部404が取得した言語話者属性のうちの、1以上の話者属性である。
翻訳部408は、音声認識結果を、翻訳モデル格納部402の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する。翻訳部408は、音声認識結果を、翻訳モデル選択部407が選択した翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得することは好適である。
音声合成モデル選択部506は、1以上の話者属性に応じて、2以上の音声合成モデルから、一の音声合成モデルを選択する。ここでの話者属性は、第三話者属性格納部301の話者属性または音声話者属性取得部304が取得した話者属性または言語話者属性取得部404が取得した言語話者属性のうちの、1以上の話者属性である。
音声合成部507は、翻訳結果を、音声合成モデル格納部502の音声合成モデルを用いて音声合成し、音声合成結果を取得する。音声合成部507は、翻訳結果を、音声合成モデル選択部506が選択した音声合成モデルを用いて音声合成し、音声合成結果を取得することは好適である。
音声合成結果出力部3302は、音声合成部507が取得した音声合成結果を出力する。ここでの出力とは、スピーカー等を用いた音声出力、外部の装置(通常、音声出力装置)への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。音声合成結果出力部3302は、スピーカーとそのドライバーソフトウェア等から構成され得る。
なお、音声翻訳システムは、第三話者属性格納部301、音声話者属性取得部304、音声認識モデル選択部307、言語話者属性取得部404、翻訳モデル選択部407、音声合成モデル選択部506は、必須の構成要素ではない。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる音声翻訳システムは、音声翻訳において、話者の属性に応じて音声認識や翻訳や音声合成を行う装置やモデルを変更でき、音声認識や翻訳や音声合成の各処理において、精度が向上し、適切な出力が行われる、という効果を有し、音声翻訳システム等として有用である。
実施の形態1における音声翻訳システムの概念図 同音声翻訳システムのブロック図 同音声認識サーバ装置のブロック図 同翻訳サーバ装置のブロック図 同音声合成サーバ装置のブロック図 同音声翻訳システムの動作について説明するフローチャート 同音声認識サーバ装置の動作について説明するフローチャート 同話者属性取得処理の動作について説明するフローチャート 同翻訳サーバ装置の動作について説明するフローチャート 同音声翻訳システムの動作について説明するフローチャート 同第一話者属性管理表を示す図 同第二話者属性管理表を示す図 同音声認識サーバ選択情報管理表を示す図 同音声認識モデル選択情報管理表を示す図 同翻訳サーバ選択情報管理表を示す図 同翻訳モデル選択情報管理表を示す図 同音声合成サーバ選択情報管理表を示す図 同音声合成モデル選択情報管理表を示す図 同第一端末装置の話者属性等の入力画面を示す図 同音声翻訳制御情報の例を示す図 同更新された音声翻訳制御情報の例を示す図 同更新された音声翻訳制御情報の例を示す図 同更新された音声翻訳制御情報の例を示す図 同更新された音声翻訳制御情報の例を示す図 同他の音声翻訳システムの概念図 同他の音声翻訳システムのブロック図 同制御装置のブロック図 同音声認識サーバ装置のブロック図 同翻訳サーバ装置のブロック図 同音声翻訳制御情報の例であるSTMLの例を示す図 同コンピュータシステムの概観図 同コンピュータシステムのブロック図 同音声翻訳システムの他のブロック図

Claims (14)

  1. 音声を入力する第一端末装置、2以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、
    前記第一端末装置は、
    話者の属性値である話者属性を、1以上格納し得る第一話者属性格納部と、
    音声を受け付ける第一音声受付部と、
    前記1以上の話者属性に応じて、前記2以上の音声認識サーバ装置のうち一の音声認識サーバ装置を選択する第一音声認識サーバ選択部と、
    前記第一音声認識サーバ選択部が選択した音声認識サーバ装置に、前記第一音声受付部が受け付けた音声から構成される音声情報を送信する第一音声送信部とを具備し、
    前記音声認識サーバ装置は、
    2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
    前記音声情報を受信する音声情報受信部と、
    前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
    前記音声認識結果を送信する音声認識結果送信部とを具備し、
    前記翻訳サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
    前記音声認識結果を受信する音声認識結果受信部と、
    前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
    前記翻訳結果を送信する翻訳結果送信部とを具備し、
    前記音声合成サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
    前記翻訳結果を受信する翻訳結果受信部と、
    前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
    前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムであって、
    前記話者属性は、話者クラスまたは時々により変化し得る属性である動的話者属性情報を含み、
    前記話者クラスは、使う単語の難しさの度合いを示す情報、使う用語の丁寧さの度合いを示す情報、文法の正しさの度合いを示す情報、これらの複合的な度合いを示す情報、またはネイティブか否かを示す情報のうちのいずれかの情報である音声翻訳システム。
  2. 音声を入力する第一端末装置、1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、
    前記第一端末装置は、
    音声を受け付ける第一音声受付部と、
    前記第一音声受付部が受け付けた音声から構成される音声情報を、前記音声認識サーバ装置に送信する第一音声送信部とを具備し、
    前記音声認識サーバ装置は、
    話者の属性値である話者属性を、1以上格納し得る第三話者属性格納部と、
    2以上の言語のうちのすべての言語または2以上の一部の言語について、2以上の音声認識モデルを格納し得る音声認識モデル格納部と、
    前記音声情報を受信する音声情報受信部と、
    前記1以上の話者属性に応じて、前記2以上の音声認識モデルから、一の音声認識モデルを選択する音声認識モデル選択部と、
    前記音声情報受信部が受信した音声情報を、前記音声認識モデル選択部が選択した音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
    前記音声認識結果を送信する音声認識結果送信部とを具備し、
    前記翻訳サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
    前記音声認識結果を受信する音声認識結果受信部と、
    前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
    前記翻訳結果を送信する翻訳結果送信部とを具備し、
    前記音声合成サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
    前記翻訳結果を受信する翻訳結果受信部と、
    前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
    前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムであって、
    前記話者属性は、話者クラスまたは時々により変化し得る属性である動的話者属性情報を含み、
    前記話者クラスは、使う単語の難しさの度合いを示す情報、使う用語の丁寧さの度合いを示す情報、文法の正しさの度合いを示す情報、これらの複合的な度合いを示す情報、またはネイティブか否かを示す情報のうちのいずれかの情報である音声翻訳システム。
  3. 1以上の音声認識サーバ装置、2以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、
    前記音声認識サーバ装置は、
    話者の属性値である話者属性を、1以上格納し得る第三話者属性格納部と、
    2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
    音声情報を受信する音声情報受信部と、
    前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
    前記1以上の話者属性に応じて、前記2以上の翻訳サーバ装置のうち一の翻訳サーバ装置を選択する翻訳サーバ選択部と、
    前記翻訳サーバ選択部が選択した翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部とを具備し、
    前記翻訳サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
    前記音声認識結果を受信する音声認識結果受信部と、
    前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
    前記翻訳結果を送信する翻訳結果送信部とを具備し、
    前記音声合成サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
    前記翻訳結果を受信する翻訳結果受信部と、
    前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
    前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムであって、
    前記話者属性は、話者クラスまたは時々により変化し得る属性である動的話者属性情報を含み、
    前記話者クラスは、使う単語の難しさの度合いを示す情報、使う用語の丁寧さの度合いを示す情報、文法の正しさの度合いを示す情報、これらの複合的な度合いを示す情報、またはネイティブか否かを示す情報のうちのいずれかの情報である音声翻訳システム。
  4. 1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、
    前記音声認識サーバ装置は、
    2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
    音声情報を受信する音声情報受信部と、
    前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
    前記翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部とを具備し、
    前記翻訳サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、2以上の翻訳モデルを格納し得る翻訳モデル格納部と、
    1以上の話者属性を格納し得る第四話者属性格納部と、
    前記音声認識結果を受信する音声認識結果受信部と、
    前記1以上の話者属性に応じて、前記2以上の翻訳モデルから、一の翻訳モデルを選択する翻訳モデル選択部と、
    前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル選択部が選択した翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
    前記翻訳結果を送信する翻訳結果送信部とを具備し、
    前記音声合成サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
    前記翻訳結果を受信する翻訳結果受信部と、
    前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
    前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムであって、
    前記話者属性は、話者クラスまたは時々により変化し得る属性である動的話者属性情報を含み、
    前記話者クラスは、使う単語の難しさの度合いを示す情報、使う用語の丁寧さの度合いを示す情報、文法の正しさの度合いを示す情報、これらの複合的な度合いを示す情報、またはネイティブか否かを示す情報のうちのいずれかの情報である音声翻訳システム。
  5. 1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、2以上の音声合成サーバ装置とを有する音声翻訳システムであって、
    前記音声認識サーバ装置は、
    2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
    音声情報を受信する音声情報受信部と、
    前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
    前記翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部とを具備し、
    前記翻訳サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
    1以上の話者属性を格納し得る第四話者属性格納部と、
    前記音声認識結果を受信する音声認識結果受信部と、
    前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
    前記1以上の話者属性に応じて、前記2以上の音声合成サーバ装置のうち一の音声合成サーバ装置を選択する音声合成サーバ選択部と、
    前記音声合成サーバ選択部が選択した音声合成サーバ装置に、前記翻訳結果を送信する翻訳結果送信部とを具備し、
    前記音声合成サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
    前記翻訳結果を受信する翻訳結果受信部と、
    前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
    前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムであって、
    前記話者属性は、話者クラスまたは時々により変化し得る属性である動的話者属性情報を含み、
    前記話者クラスは、使う単語の難しさの度合いを示す情報、使う用語の丁寧さの度合いを示す情報、文法の正しさの度合いを示す情報、これらの複合的な度合いを示す情報、またはネイティブか否かを示す情報のうちのいずれかの情報である音声翻訳システム。
  6. 1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、
    前記音声認識サーバ装置は、
    2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
    音声情報を受信する音声情報受信部と、
    前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
    前記翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部とを具備し、
    前記翻訳サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
    前記音声認識結果を受信する音声認識結果受信部と、
    前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
    前記音声合成サーバ装置に、前記翻訳結果を送信する翻訳結果送信部とを具備し、
    前記音声合成サーバ装置は、
    前記2以上の言語のうちのすべての言語または2以上の一部の言語について、2以上の音声合成モデルを格納し得る音声合成モデル格納部と、
    1以上の話者属性を格納し得る第五話者属性格納部と、
    前記翻訳結果を受信する翻訳結果受信部と、
    前記1以上の話者属性に応じて、前記2以上の音声合成モデルから、一の音声合成モデルを選択する音声合成モデル選択部と、
    前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル選択部が選択した音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
    前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムであって、
    前記話者属性は、話者クラスまたは時々により変化し得る属性である動的話者属性情報を含み、
    前記話者クラスは、使う単語の難しさの度合いを示す情報、使う用語の丁寧さの度合いを示す情報、文法の正しさの度合いを示す情報、これらの複合的な度合いを示す情報、またはネイティブか否かを示す情報のうちのいずれかの情報である音声翻訳システム。
  7. 前記第一端末装置は、
    1以上の話者属性を受け付ける第一話者属性受付部と、
    前記1以上の話者属性を、前記第一話者属性格納部に蓄積する第一話者属性蓄積部とを具備する請求項1記載の音声翻訳システム。
  8. 前記音声認識サーバ装置は、
    前記音声情報受信部が受信した音声情報から、1以上の音声に関する話者属性を取得する音声話者属性取得部と、
    前記音声話者属性取得部が取得した1以上の話者属性を、第三話者属性格納部に蓄積する第三話者属性蓄積部とをさらに具備する請求項2または請求項3記載の音声翻訳システム。
  9. 前記翻訳サーバ装置は、
    前記音声認識結果受信部が受信した音声認識結果から、1以上の言語に関する話者属性を取得する言語話者属性取得部と、
    前記言語話者属性取得部が取得した1以上の話者属性を前記第四話者属性格納部に蓄積する第四話者属性蓄積部とをさらに具備する請求項4または請求項5記載の音声翻訳システム。
  10. 前記話者が使用する言語である原言語を特定する原言語識別子、および翻訳先の言語である目的言語を特定する目的言語識別子、および1以上の話者属性を含む音声翻訳制御情報が、前記第一端末装置から、前記音声認識サーバ装置、および前記翻訳サーバ装置を経由して、前記音声合成サーバ装置に送信され、
    前記第一音声認識サーバ選択部は、前記音声翻訳制御情報を用いて、前記2以上の音声認識サーバ装置のうち一の音声認識サーバ装置を選択する請求項1記載の音声翻訳システム。
  11. 請求項1記載の音声翻訳システムを構成する第一端末装置。
  12. 請求項2または請求項3記載の音声翻訳システムを構成する音声認識サーバ装置。
  13. 請求項4または請求項5記載の音声翻訳システムを構成する翻訳サーバ装置。
  14. 請求項6記載の音声翻訳システムを構成する音声合成サーバ装置。
JP2011534094A 2009-10-02 2010-03-03 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 Active JP5598998B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011534094A JP5598998B2 (ja) 2009-10-02 2010-03-03 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009230442 2009-10-02
JP2009230442 2009-10-02
PCT/JP2010/053419 WO2011040056A1 (ja) 2009-10-02 2010-03-03 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
JP2011534094A JP5598998B2 (ja) 2009-10-02 2010-03-03 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置

Publications (2)

Publication Number Publication Date
JPWO2011040056A1 JPWO2011040056A1 (ja) 2013-02-21
JP5598998B2 true JP5598998B2 (ja) 2014-10-01

Family

ID=43825894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011534094A Active JP5598998B2 (ja) 2009-10-02 2010-03-03 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置

Country Status (6)

Country Link
US (1) US8862478B2 (ja)
EP (1) EP2485212A4 (ja)
JP (1) JP5598998B2 (ja)
KR (1) KR101683943B1 (ja)
CN (2) CN103345467B (ja)
WO (1) WO2011040056A1 (ja)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012068705A1 (en) * 2010-11-25 2012-05-31 Telefonaktiebolaget L M Ericsson (Publ) Analysis system and method for audio data
US9082408B2 (en) * 2011-06-13 2015-07-14 Mmodal Ip Llc Speech recognition using loosely coupled components
US9159236B2 (en) 2011-12-01 2015-10-13 Elwha Llc Presentation of shared threat information in a transportation-related context
US9053096B2 (en) * 2011-12-01 2015-06-09 Elwha Llc Language translation based on speaker-related information
US9107012B2 (en) 2011-12-01 2015-08-11 Elwha Llc Vehicular threat detection based on audio signals
US8934652B2 (en) 2011-12-01 2015-01-13 Elwha Llc Visual presentation of speaker-related information
US10875525B2 (en) 2011-12-01 2020-12-29 Microsoft Technology Licensing Llc Ability enhancement
US9245254B2 (en) 2011-12-01 2016-01-26 Elwha Llc Enhanced voice conferencing with history, language translation and identification
US8811638B2 (en) 2011-12-01 2014-08-19 Elwha Llc Audible assistance
US9368028B2 (en) 2011-12-01 2016-06-14 Microsoft Technology Licensing, Llc Determining threats based on information from road-based devices in a transportation-related context
US9064152B2 (en) 2011-12-01 2015-06-23 Elwha Llc Vehicular threat detection based on image analysis
JP6023955B2 (ja) * 2012-03-27 2016-11-09 株式会社国際電気通信基礎技術研究所 コミュニケーションシステム、コミュニケーション装置、プログラムおよびコミュニケーション制御方法
WO2014024751A1 (ja) * 2012-08-10 2014-02-13 エイディシーテクノロジー株式会社 音声応答装置
JP5727980B2 (ja) * 2012-09-28 2015-06-03 株式会社東芝 表現変換装置、方法およびプログラム
US9959865B2 (en) 2012-11-13 2018-05-01 Beijing Lenovo Software Ltd. Information processing method with voice recognition
CN103811003B (zh) * 2012-11-13 2019-09-24 联想(北京)有限公司 一种语音识别方法以及电子设备
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US9135916B2 (en) * 2013-02-26 2015-09-15 Honeywell International Inc. System and method for correcting accent induced speech transmission problems
US9349372B2 (en) 2013-07-10 2016-05-24 Panasonic Intellectual Property Corporation Of America Speaker identification method, and speaker identification system
KR101834546B1 (ko) 2013-08-28 2018-04-13 한국전자통신연구원 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법
CN104700836B (zh) 2013-12-10 2019-01-29 阿里巴巴集团控股有限公司 一种语音识别方法和系统
US9230542B2 (en) * 2014-04-01 2016-01-05 Zoom International S.R.O. Language-independent, non-semantic speech analytics
US9412358B2 (en) 2014-05-13 2016-08-09 At&T Intellectual Property I, L.P. System and method for data-driven socially customized models for language generation
US9437189B2 (en) * 2014-05-29 2016-09-06 Google Inc. Generating language models
CN105161112B (zh) * 2015-09-21 2019-04-02 百度在线网络技术(北京)有限公司 语音识别方法和装置
US9678954B1 (en) * 2015-10-29 2017-06-13 Google Inc. Techniques for providing lexicon data for translation of a single word speech input
JP6755304B2 (ja) * 2016-04-26 2020-09-16 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
WO2017197312A2 (en) * 2016-05-13 2017-11-16 Bose Corporation Processing speech from distributed microphones
KR102596430B1 (ko) * 2016-08-31 2023-10-31 삼성전자주식회사 화자 인식에 기초한 음성 인식 방법 및 장치
KR101917648B1 (ko) 2016-09-08 2018-11-13 주식회사 하이퍼커넥트 단말 및 그 제어 방법
JP7000671B2 (ja) * 2016-10-05 2022-01-19 株式会社リコー 情報処理システム、情報処理装置、及び情報処理方法
CN106550156A (zh) * 2017-01-23 2017-03-29 苏州咖啦魔哆信息技术有限公司 一种基于语音识别的人工智能客服系统及其实现方法
CN108364633A (zh) * 2017-01-25 2018-08-03 晨星半导体股份有限公司 文字转语音系统以及文字转语音方法
JP7197259B2 (ja) * 2017-08-25 2022-12-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理装置およびプログラム
KR102450823B1 (ko) 2017-10-12 2022-10-05 한국전자통신연구원 사용자 맞춤형 통번역 장치 및 방법
US10665234B2 (en) * 2017-10-18 2020-05-26 Motorola Mobility Llc Detecting audio trigger phrases for a voice recognition session
JPWO2019111346A1 (ja) * 2017-12-06 2020-10-22 ソースネクスト株式会社 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
CN110021290A (zh) * 2018-01-08 2019-07-16 上海西门子医疗器械有限公司 医疗系统和用于医疗系统的实时语言转换方法
US10691894B2 (en) * 2018-05-01 2020-06-23 Disney Enterprises, Inc. Natural polite language generation system
JP1621612S (ja) 2018-05-25 2019-01-07
JP2021144256A (ja) * 2018-05-25 2021-09-24 パナソニックIpマネジメント株式会社 翻訳装置、システム、方法及びプログラム並びに学習方法
KR102107447B1 (ko) * 2018-07-03 2020-06-02 주식회사 한글과컴퓨터 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법
JP7143665B2 (ja) * 2018-07-27 2022-09-29 富士通株式会社 音声認識装置、音声認識プログラムおよび音声認識方法
CN109388699A (zh) * 2018-10-24 2019-02-26 北京小米移动软件有限公司 输入方法、装置、设备及存储介质
CN109861904B (zh) * 2019-02-19 2021-01-05 天津字节跳动科技有限公司 姓名标签显示方法和装置
JP7259447B2 (ja) * 2019-03-20 2023-04-18 株式会社リコー 発話者検出システム、発話者検出方法及びプログラム
KR102428296B1 (ko) * 2020-10-13 2022-08-02 주식회사 케이티 음성 합성 스케쥴을 조정하는 캐쉬 서버, 방법 및 음성 합성을 수행하는 음성 합성 서버

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148176A (ja) * 1998-11-18 2000-05-26 Sony Corp 情報処理装置および方法、提供媒体、音声認識システム、音声合成システム、翻訳装置および方法、並びに翻訳システム
JP2002311983A (ja) * 2001-04-11 2002-10-25 Atr Onsei Gengo Tsushin Kenkyusho:Kk 翻訳電話システム
JP2004048277A (ja) * 2002-07-10 2004-02-12 Mitsubishi Electric Corp 通信システム
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
JP2005140988A (ja) * 2003-11-06 2005-06-02 Canon Inc 音声認識装置及び方法
JP2006099296A (ja) * 2004-09-29 2006-04-13 Nec Corp 翻訳システム、翻訳通信システム、機械翻訳方法、および、プログラム
JP2006215315A (ja) * 2005-02-04 2006-08-17 Kddi Corp 音声認識装置、音声認識端末装置、音声認識システム及びコンピュータプログラム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6052657A (en) * 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US6219638B1 (en) * 1998-11-03 2001-04-17 International Business Machines Corporation Telephone messaging and editing system
US7263489B2 (en) * 1998-12-01 2007-08-28 Nuance Communications, Inc. Detection of characteristics of human-machine interactions for dialog customization and analysis
US6266642B1 (en) * 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6278968B1 (en) * 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
JP4517260B2 (ja) * 2000-09-11 2010-08-04 日本電気株式会社 自動通訳システム、自動通訳方法、および自動通訳用プログラムを記録した記憶媒体
EP1217609A3 (en) * 2000-12-22 2004-02-25 Hewlett-Packard Company Speech recognition
JP2002245038A (ja) * 2001-02-21 2002-08-30 Ricoh Co Ltd 携帯端末装置による多国語翻訳システム
US6996525B2 (en) * 2001-06-15 2006-02-07 Intel Corporation Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience
JP2003058458A (ja) 2001-08-14 2003-02-28 Nippon Telegr & Teleph Corp <Ntt> 多言語遠隔マルチユーザコミュニケーションシステム
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
CN1221937C (zh) * 2002-12-31 2005-10-05 北京天朗语音科技有限公司 语速自适应的语音识别系统
US20050144012A1 (en) * 2003-11-06 2005-06-30 Alireza Afrashteh One button push to translate languages over a wireless cellular radio
JP2005202884A (ja) * 2004-01-19 2005-07-28 Toshiba Corp 送信装置、受信装置、中継装置、および送受信システム
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7624013B2 (en) * 2004-09-10 2009-11-24 Scientific Learning Corporation Word competition models in voice recognition
WO2006083690A2 (en) * 2005-02-01 2006-08-10 Embedded Technologies, Llc Language engine coordination and switching
CN1953052B (zh) * 2005-10-20 2010-09-08 株式会社东芝 训练时长预测模型、时长预测和语音合成的方法及装置
WO2007070558A2 (en) * 2005-12-12 2007-06-21 Meadan, Inc. Language translation using a hybrid network of human and machine translators
EP2511833B1 (en) 2006-02-17 2020-02-05 Google LLC Encoding and adaptive, scalable accessing of distributed translation models
US7822606B2 (en) * 2006-07-14 2010-10-26 Qualcomm Incorporated Method and apparatus for generating audio information from received synthesis information
US7881928B2 (en) * 2006-09-01 2011-02-01 International Business Machines Corporation Enhanced linguistic transformation
US7702510B2 (en) * 2007-01-12 2010-04-20 Nuance Communications, Inc. System and method for dynamically selecting among TTS systems
JP2008243080A (ja) 2007-03-28 2008-10-09 Toshiba Corp 音声を翻訳する装置、方法およびプログラム
CN101458681A (zh) 2007-12-10 2009-06-17 株式会社东芝 语音翻译方法和语音翻译装置
CN101266600A (zh) * 2008-05-07 2008-09-17 陈光火 多媒体多语言互动同步翻译方法
US8868430B2 (en) * 2009-01-16 2014-10-21 Sony Corporation Methods, devices, and computer program products for providing real-time language translation capabilities between communication terminals
US8515749B2 (en) * 2009-05-20 2013-08-20 Raytheon Bbn Technologies Corp. Speech-to-speech translation
US8386235B2 (en) * 2010-05-20 2013-02-26 Acosys Limited Collaborative translation system and method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148176A (ja) * 1998-11-18 2000-05-26 Sony Corp 情報処理装置および方法、提供媒体、音声認識システム、音声合成システム、翻訳装置および方法、並びに翻訳システム
JP2002311983A (ja) * 2001-04-11 2002-10-25 Atr Onsei Gengo Tsushin Kenkyusho:Kk 翻訳電話システム
JP2004048277A (ja) * 2002-07-10 2004-02-12 Mitsubishi Electric Corp 通信システム
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
JP2005140988A (ja) * 2003-11-06 2005-06-02 Canon Inc 音声認識装置及び方法
JP2006099296A (ja) * 2004-09-29 2006-04-13 Nec Corp 翻訳システム、翻訳通信システム、機械翻訳方法、および、プログラム
JP2006215315A (ja) * 2005-02-04 2006-08-17 Kddi Corp 音声認識装置、音声認識端末装置、音声認識システム及びコンピュータプログラム

Also Published As

Publication number Publication date
US8862478B2 (en) 2014-10-14
KR20120086287A (ko) 2012-08-02
WO2011040056A1 (ja) 2011-04-07
CN103345467B (zh) 2017-06-09
EP2485212A1 (en) 2012-08-08
JPWO2011040056A1 (ja) 2013-02-21
CN102549653A (zh) 2012-07-04
CN103345467A (zh) 2013-10-09
CN102549653B (zh) 2014-04-30
EP2485212A4 (en) 2016-12-07
US20120197629A1 (en) 2012-08-02
KR101683943B1 (ko) 2016-12-07

Similar Documents

Publication Publication Date Title
JP5598998B2 (ja) 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
JP5545467B2 (ja) 音声翻訳システム、制御装置、および情報処理方法
US9761241B2 (en) System and method for providing network coordinated conversational services
EP1125279B1 (en) System and method for providing network coordinated conversational services
US7689417B2 (en) Method, system and apparatus for improved voice recognition
WO2018021237A1 (ja) 音声対話装置、音声対話方法、および記録媒体
WO2014010450A1 (ja) 音声処理システム及び端末装置
CN105989840A (zh) 自然语言语音服务环境中的混合处理的系统及方法
JP5062171B2 (ja) 音声認識システム、音声認識方法および音声認識用プログラム
JP5471106B2 (ja) 音声翻訳システム、辞書サーバ装置、およびプログラム
US20060247921A1 (en) Speech dialog method and system
JP5704686B2 (ja) 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム
KR102376552B1 (ko) 음성 합성 장치 및 음성 합성 방법
US20170185587A1 (en) Machine translation method and machine translation system
Fischer et al. Towards multi-modal interfaces for embedded devices
JP2017009685A (ja) 情報処理装置、情報処理方法、及びプログラム
Ivanecký et al. Multi-Modal voice application design in a Multi-Client environment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140807

R150 Certificate of patent or registration of utility model

Ref document number: 5598998

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250