JP5598998B2 - 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 - Google Patents
音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 Download PDFInfo
- Publication number
- JP5598998B2 JP5598998B2 JP2011534094A JP2011534094A JP5598998B2 JP 5598998 B2 JP5598998 B2 JP 5598998B2 JP 2011534094 A JP2011534094 A JP 2011534094A JP 2011534094 A JP2011534094 A JP 2011534094A JP 5598998 B2 JP5598998 B2 JP 5598998B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- translation
- unit
- speaker
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Description
(実施の形態1)
第一話者属性格納部11に格納されている話者属性は、通常、第一端末装置1のユーザが入力した情報である。また、第一話者属性格納部11に格納されている話者属性は、通常、静的話者属性情報である。第一話者属性格納部11は、1以上の話者属性を含む音声翻訳制御情報を格納していても良い。かかる場合、第一話者属性格納部11は、第一音声翻訳制御情報格納部11と呼んでも良い。
また、音声話者属性取得部304は、例えば、音声情報をスペクトル分析し、1以上の特徴量を取得する。そして、音声話者属性取得部304は、1以上の特徴量から、話者の年齢、性別、話速、感情などの話者属性を決定する。音声話者属性取得部304は、例えば、男性または/および女性であることを決定するための特徴量の情報(特徴量をパラメータとする条件)を保持しており、取得した1以上の特徴量から、話者が男性か女性かを決定して、性別の情報(例えば、男性「0」、女性「1」)を取得する。また、音声話者属性取得部304は、例えば、特定の年齢、または特定の年齢層(例えば、10代、20代など)を決定するための特徴量の情報を保持しており、取得した1以上の特徴量から、話者の年齢または年齢層を決定して、年齢または年齢層の情報(例えば、9歳まで「0」、10代「1」など)を取得する。また、音声話者属性取得部304は、音声情報を解析し、話速(例えば、4.5音/秒)を取得する。話速を取得する技術は公知技術であるので、詳細な説明を省略する。また、音声話者属性取得部304は、例えば、取得した1以上の特徴量から感情(動的話者属性情報の一種)を取得しても良い。さらに具体的には、音声話者属性取得部304は、例えば、感情「普通」の場合のピッチとパワーの値を保持している。そして、音声話者属性取得部304は、抽出した有声部分のピッチとパワーの値から平均値・最大値・最小値を求める。そして、音声話者属性取得部304は、感情「普通」の場合のピッチとパワーの値と、抽出した有声部分のピッチとパワーの平均値・最大値・最小値とを用いて、平均ピッチが低く、平均パワーが高い場合は、感情「怒り」を取得する。また、音声話者属性取得部304は、感情「普通」の場合のピッチとパワーの値と比較して、最小ピッチが高く、最大パワーが低い場合、感情「悲しみ」を取得する。また、感情「普通」の場合のピッチとパワーの値と比較して、特徴量が大きい場合、音声話者属性取得部304は、感情「喜び」を取得する。
音声話者属性取得部304は、取得した1以上の特徴量のうち、パワーおよび韻律を用いて感情を取得することは好適である。感情を取得する手法については、URL「http://www.kansei.soft.iwate-pu.ac.jp/abstract/2007/0312004126.pdf」の論文を参照のこと。
なお、音声話者属性取得部304が、話速等の属性を取得する音声情報の単位は問わない。つまり、音声話者属性取得部304は、文の単位で話速等の属性を取得しても良いし、単語の単位で話速等の属性を取得しても良いし、認識結果の単位で話速等の属性を取得しても良いし、複数の文の単位で話速等の属性を取得しても良い。
第一音声出力部18、および第二音声出力部28は、スピーカおよびそのドライバーソフト等で実現され得る。
さらに具体的には、音声翻訳システムが単一の装置によって集中処理される場合、当該音声翻訳システムは、例えば、図33に示す構成になる。
つまり、音声翻訳システムは、音声受付部3301、第三話者属性格納部301、音声認識モデル格納部302、音声話者属性取得部304、音声認識モデル選択部307、音声認識部308、翻訳モデル格納部402、言語話者属性取得部404、翻訳モデル選択部407、翻訳部408、音声合成モデル格納部502、音声合成モデル選択部506、音声合成部507、音声合成結果出力部3302を備える。
音声受付部3301は、ユーザから音声を受け付ける。この音声は、音声翻訳対象の音声である。音声受付部3301は、例えば、マイクとそのドライバーソフトウェア等から構成され得る。
第三話者属性格納部301は、ここでは、通常、ユーザから受け付けた話者属性を格納している。ここでの話者属性は、通常、静的話者属性情報である。
音声話者属性取得部304は、音声受付部3301が受け付けた音声から構成された音声情報から、1以上の音声話者属性を取得する。ここで取得する音声話者属性は、主として、動的話者属性情報であるが、静的話者属性情報でも良い。
音声認識モデル選択部307は、第三話者属性格納部301の話者属性または音声話者属性取得部304が取得した話者属性のうちの、1以上の話者属性に応じて、2以上の音声認識モデルから、一の音声認識モデルを選択する。
音声認識部308は、音声受付部3301が受け付けた音声から構成された音声情報を、音声認識モデル格納部302の音声認識モデルを用いて音声認識し、音声認識結果を取得する。また、音声認識部308は、音声情報を、音声認識モデル選択部307が選択した音声認識モデルを用いて音声認識し、音声認識結果を取得することは好適である。
言語話者属性取得部404は、音声認識部308が取得した音声認識結果から1以上の言語話者属性を取得する。
翻訳モデル選択部407は、1以上の話者属性に応じて、2以上の翻訳モデルから、一の翻訳モデルを選択する。ここでの話者属性は、第三話者属性格納部301の話者属性または音声話者属性取得部304が取得した話者属性または言語話者属性取得部404が取得した言語話者属性のうちの、1以上の話者属性である。
翻訳部408は、音声認識結果を、翻訳モデル格納部402の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する。翻訳部408は、音声認識結果を、翻訳モデル選択部407が選択した翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得することは好適である。
音声合成モデル選択部506は、1以上の話者属性に応じて、2以上の音声合成モデルから、一の音声合成モデルを選択する。ここでの話者属性は、第三話者属性格納部301の話者属性または音声話者属性取得部304が取得した話者属性または言語話者属性取得部404が取得した言語話者属性のうちの、1以上の話者属性である。
音声合成部507は、翻訳結果を、音声合成モデル格納部502の音声合成モデルを用いて音声合成し、音声合成結果を取得する。音声合成部507は、翻訳結果を、音声合成モデル選択部506が選択した音声合成モデルを用いて音声合成し、音声合成結果を取得することは好適である。
音声合成結果出力部3302は、音声合成部507が取得した音声合成結果を出力する。ここでの出力とは、スピーカー等を用いた音声出力、外部の装置(通常、音声出力装置)への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。音声合成結果出力部3302は、スピーカーとそのドライバーソフトウェア等から構成され得る。
なお、音声翻訳システムは、第三話者属性格納部301、音声話者属性取得部304、音声認識モデル選択部307、言語話者属性取得部404、翻訳モデル選択部407、音声合成モデル選択部506は、必須の構成要素ではない。
Claims (14)
- 音声を入力する第一端末装置、2以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、
前記第一端末装置は、
話者の属性値である話者属性を、1以上格納し得る第一話者属性格納部と、
音声を受け付ける第一音声受付部と、
前記1以上の話者属性に応じて、前記2以上の音声認識サーバ装置のうち一の音声認識サーバ装置を選択する第一音声認識サーバ選択部と、
前記第一音声認識サーバ選択部が選択した音声認識サーバ装置に、前記第一音声受付部が受け付けた音声から構成される音声情報を送信する第一音声送信部とを具備し、
前記音声認識サーバ装置は、
2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
前記音声情報を受信する音声情報受信部と、
前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
前記音声認識結果を送信する音声認識結果送信部とを具備し、
前記翻訳サーバ装置は、
前記2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
前記音声認識結果を受信する音声認識結果受信部と、
前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
前記翻訳結果を送信する翻訳結果送信部とを具備し、
前記音声合成サーバ装置は、
前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
前記翻訳結果を受信する翻訳結果受信部と、
前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムであって、
前記話者属性は、話者クラスまたは時々により変化し得る属性である動的話者属性情報を含み、
前記話者クラスは、使う単語の難しさの度合いを示す情報、使う用語の丁寧さの度合いを示す情報、文法の正しさの度合いを示す情報、これらの複合的な度合いを示す情報、またはネイティブか否かを示す情報のうちのいずれかの情報である音声翻訳システム。 - 音声を入力する第一端末装置、1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、
前記第一端末装置は、
音声を受け付ける第一音声受付部と、
前記第一音声受付部が受け付けた音声から構成される音声情報を、前記音声認識サーバ装置に送信する第一音声送信部とを具備し、
前記音声認識サーバ装置は、
話者の属性値である話者属性を、1以上格納し得る第三話者属性格納部と、
2以上の言語のうちのすべての言語または2以上の一部の言語について、2以上の音声認識モデルを格納し得る音声認識モデル格納部と、
前記音声情報を受信する音声情報受信部と、
前記1以上の話者属性に応じて、前記2以上の音声認識モデルから、一の音声認識モデルを選択する音声認識モデル選択部と、
前記音声情報受信部が受信した音声情報を、前記音声認識モデル選択部が選択した音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
前記音声認識結果を送信する音声認識結果送信部とを具備し、
前記翻訳サーバ装置は、
前記2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
前記音声認識結果を受信する音声認識結果受信部と、
前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
前記翻訳結果を送信する翻訳結果送信部とを具備し、
前記音声合成サーバ装置は、
前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
前記翻訳結果を受信する翻訳結果受信部と、
前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムであって、
前記話者属性は、話者クラスまたは時々により変化し得る属性である動的話者属性情報を含み、
前記話者クラスは、使う単語の難しさの度合いを示す情報、使う用語の丁寧さの度合いを示す情報、文法の正しさの度合いを示す情報、これらの複合的な度合いを示す情報、またはネイティブか否かを示す情報のうちのいずれかの情報である音声翻訳システム。 - 1以上の音声認識サーバ装置、2以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、
前記音声認識サーバ装置は、
話者の属性値である話者属性を、1以上格納し得る第三話者属性格納部と、
2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
音声情報を受信する音声情報受信部と、
前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
前記1以上の話者属性に応じて、前記2以上の翻訳サーバ装置のうち一の翻訳サーバ装置を選択する翻訳サーバ選択部と、
前記翻訳サーバ選択部が選択した翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部とを具備し、
前記翻訳サーバ装置は、
前記2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
前記音声認識結果を受信する音声認識結果受信部と、
前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
前記翻訳結果を送信する翻訳結果送信部とを具備し、
前記音声合成サーバ装置は、
前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
前記翻訳結果を受信する翻訳結果受信部と、
前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムであって、
前記話者属性は、話者クラスまたは時々により変化し得る属性である動的話者属性情報を含み、
前記話者クラスは、使う単語の難しさの度合いを示す情報、使う用語の丁寧さの度合いを示す情報、文法の正しさの度合いを示す情報、これらの複合的な度合いを示す情報、またはネイティブか否かを示す情報のうちのいずれかの情報である音声翻訳システム。 - 1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、
前記音声認識サーバ装置は、
2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
音声情報を受信する音声情報受信部と、
前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
前記翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部とを具備し、
前記翻訳サーバ装置は、
前記2以上の言語のうちのすべての言語または2以上の一部の言語について、2以上の翻訳モデルを格納し得る翻訳モデル格納部と、
1以上の話者属性を格納し得る第四話者属性格納部と、
前記音声認識結果を受信する音声認識結果受信部と、
前記1以上の話者属性に応じて、前記2以上の翻訳モデルから、一の翻訳モデルを選択する翻訳モデル選択部と、
前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル選択部が選択した翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
前記翻訳結果を送信する翻訳結果送信部とを具備し、
前記音声合成サーバ装置は、
前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
前記翻訳結果を受信する翻訳結果受信部と、
前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムであって、
前記話者属性は、話者クラスまたは時々により変化し得る属性である動的話者属性情報を含み、
前記話者クラスは、使う単語の難しさの度合いを示す情報、使う用語の丁寧さの度合いを示す情報、文法の正しさの度合いを示す情報、これらの複合的な度合いを示す情報、またはネイティブか否かを示す情報のうちのいずれかの情報である音声翻訳システム。 - 1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、2以上の音声合成サーバ装置とを有する音声翻訳システムであって、
前記音声認識サーバ装置は、
2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
音声情報を受信する音声情報受信部と、
前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
前記翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部とを具備し、
前記翻訳サーバ装置は、
前記2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
1以上の話者属性を格納し得る第四話者属性格納部と、
前記音声認識結果を受信する音声認識結果受信部と、
前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
前記1以上の話者属性に応じて、前記2以上の音声合成サーバ装置のうち一の音声合成サーバ装置を選択する音声合成サーバ選択部と、
前記音声合成サーバ選択部が選択した音声合成サーバ装置に、前記翻訳結果を送信する翻訳結果送信部とを具備し、
前記音声合成サーバ装置は、
前記2以上の言語のうちのすべての言語または2以上の一部の言語について、音声合成モデルを格納し得る音声合成モデル格納部と、
前記翻訳結果を受信する翻訳結果受信部と、
前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル格納部の音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムであって、
前記話者属性は、話者クラスまたは時々により変化し得る属性である動的話者属性情報を含み、
前記話者クラスは、使う単語の難しさの度合いを示す情報、使う用語の丁寧さの度合いを示す情報、文法の正しさの度合いを示す情報、これらの複合的な度合いを示す情報、またはネイティブか否かを示す情報のうちのいずれかの情報である音声翻訳システム。 - 1以上の音声認識サーバ装置、1以上の翻訳サーバ装置、1以上の音声合成サーバ装置とを有する音声翻訳システムであって、
前記音声認識サーバ装置は、
2以上の言語のうちのすべての言語または2以上の一部の言語について、音声認識モデルを格納し得る音声認識モデル格納部と、
音声情報を受信する音声情報受信部と、
前記音声情報受信部が受信した音声情報を、前記音声認識モデル格納部の音声認識モデルを用いて音声認識し、音声認識結果を取得する音声認識部と、
前記翻訳サーバ装置に、前記音声認識結果を送信する音声認識結果送信部とを具備し、
前記翻訳サーバ装置は、
前記2以上の言語のうちのすべての言語または2以上の一部の言語について、翻訳モデルを格納し得る翻訳モデル格納部と、
前記音声認識結果を受信する音声認識結果受信部と、
前記音声認識結果受信部が受信した音声認識結果を、前記翻訳モデル格納部の翻訳モデルを用いて、目的言語に翻訳し、翻訳結果を取得する翻訳部と、
前記音声合成サーバ装置に、前記翻訳結果を送信する翻訳結果送信部とを具備し、
前記音声合成サーバ装置は、
前記2以上の言語のうちのすべての言語または2以上の一部の言語について、2以上の音声合成モデルを格納し得る音声合成モデル格納部と、
1以上の話者属性を格納し得る第五話者属性格納部と、
前記翻訳結果を受信する翻訳結果受信部と、
前記1以上の話者属性に応じて、前記2以上の音声合成モデルから、一の音声合成モデルを選択する音声合成モデル選択部と、
前記翻訳結果受信部が受信した翻訳結果を、前記音声合成モデル選択部が選択した音声合成モデルを用いて音声合成し、音声合成結果を取得する音声合成部と、
前記音声合成結果を第二端末装置に送信する音声合成結果送信部とを具備する音声翻訳システムであって、
前記話者属性は、話者クラスまたは時々により変化し得る属性である動的話者属性情報を含み、
前記話者クラスは、使う単語の難しさの度合いを示す情報、使う用語の丁寧さの度合いを示す情報、文法の正しさの度合いを示す情報、これらの複合的な度合いを示す情報、またはネイティブか否かを示す情報のうちのいずれかの情報である音声翻訳システム。 - 前記第一端末装置は、
1以上の話者属性を受け付ける第一話者属性受付部と、
前記1以上の話者属性を、前記第一話者属性格納部に蓄積する第一話者属性蓄積部とを具備する請求項1記載の音声翻訳システム。 - 前記音声認識サーバ装置は、
前記音声情報受信部が受信した音声情報から、1以上の音声に関する話者属性を取得する音声話者属性取得部と、
前記音声話者属性取得部が取得した1以上の話者属性を、第三話者属性格納部に蓄積する第三話者属性蓄積部とをさらに具備する請求項2または請求項3記載の音声翻訳システム。 - 前記翻訳サーバ装置は、
前記音声認識結果受信部が受信した音声認識結果から、1以上の言語に関する話者属性を取得する言語話者属性取得部と、
前記言語話者属性取得部が取得した1以上の話者属性を前記第四話者属性格納部に蓄積する第四話者属性蓄積部とをさらに具備する請求項4または請求項5記載の音声翻訳システム。 - 前記話者が使用する言語である原言語を特定する原言語識別子、および翻訳先の言語である目的言語を特定する目的言語識別子、および1以上の話者属性を含む音声翻訳制御情報が、前記第一端末装置から、前記音声認識サーバ装置、および前記翻訳サーバ装置を経由して、前記音声合成サーバ装置に送信され、
前記第一音声認識サーバ選択部は、前記音声翻訳制御情報を用いて、前記2以上の音声認識サーバ装置のうち一の音声認識サーバ装置を選択する請求項1記載の音声翻訳システム。 - 請求項1記載の音声翻訳システムを構成する第一端末装置。
- 請求項2または請求項3記載の音声翻訳システムを構成する音声認識サーバ装置。
- 請求項4または請求項5記載の音声翻訳システムを構成する翻訳サーバ装置。
- 請求項6記載の音声翻訳システムを構成する音声合成サーバ装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011534094A JP5598998B2 (ja) | 2009-10-02 | 2010-03-03 | 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009230442 | 2009-10-02 | ||
JP2009230442 | 2009-10-02 | ||
PCT/JP2010/053419 WO2011040056A1 (ja) | 2009-10-02 | 2010-03-03 | 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 |
JP2011534094A JP5598998B2 (ja) | 2009-10-02 | 2010-03-03 | 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011040056A1 JPWO2011040056A1 (ja) | 2013-02-21 |
JP5598998B2 true JP5598998B2 (ja) | 2014-10-01 |
Family
ID=43825894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011534094A Active JP5598998B2 (ja) | 2009-10-02 | 2010-03-03 | 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8862478B2 (ja) |
EP (1) | EP2485212A4 (ja) |
JP (1) | JP5598998B2 (ja) |
KR (1) | KR101683943B1 (ja) |
CN (2) | CN103345467B (ja) |
WO (1) | WO2011040056A1 (ja) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012068705A1 (en) * | 2010-11-25 | 2012-05-31 | Telefonaktiebolaget L M Ericsson (Publ) | Analysis system and method for audio data |
US9082408B2 (en) * | 2011-06-13 | 2015-07-14 | Mmodal Ip Llc | Speech recognition using loosely coupled components |
US9159236B2 (en) | 2011-12-01 | 2015-10-13 | Elwha Llc | Presentation of shared threat information in a transportation-related context |
US9053096B2 (en) * | 2011-12-01 | 2015-06-09 | Elwha Llc | Language translation based on speaker-related information |
US9107012B2 (en) | 2011-12-01 | 2015-08-11 | Elwha Llc | Vehicular threat detection based on audio signals |
US8934652B2 (en) | 2011-12-01 | 2015-01-13 | Elwha Llc | Visual presentation of speaker-related information |
US10875525B2 (en) | 2011-12-01 | 2020-12-29 | Microsoft Technology Licensing Llc | Ability enhancement |
US9245254B2 (en) | 2011-12-01 | 2016-01-26 | Elwha Llc | Enhanced voice conferencing with history, language translation and identification |
US8811638B2 (en) | 2011-12-01 | 2014-08-19 | Elwha Llc | Audible assistance |
US9368028B2 (en) | 2011-12-01 | 2016-06-14 | Microsoft Technology Licensing, Llc | Determining threats based on information from road-based devices in a transportation-related context |
US9064152B2 (en) | 2011-12-01 | 2015-06-23 | Elwha Llc | Vehicular threat detection based on image analysis |
JP6023955B2 (ja) * | 2012-03-27 | 2016-11-09 | 株式会社国際電気通信基礎技術研究所 | コミュニケーションシステム、コミュニケーション装置、プログラムおよびコミュニケーション制御方法 |
WO2014024751A1 (ja) * | 2012-08-10 | 2014-02-13 | エイディシーテクノロジー株式会社 | 音声応答装置 |
JP5727980B2 (ja) * | 2012-09-28 | 2015-06-03 | 株式会社東芝 | 表現変換装置、方法およびプログラム |
US9959865B2 (en) | 2012-11-13 | 2018-05-01 | Beijing Lenovo Software Ltd. | Information processing method with voice recognition |
CN103811003B (zh) * | 2012-11-13 | 2019-09-24 | 联想(北京)有限公司 | 一种语音识别方法以及电子设备 |
US9190057B2 (en) * | 2012-12-12 | 2015-11-17 | Amazon Technologies, Inc. | Speech model retrieval in distributed speech recognition systems |
US9135916B2 (en) * | 2013-02-26 | 2015-09-15 | Honeywell International Inc. | System and method for correcting accent induced speech transmission problems |
US9349372B2 (en) | 2013-07-10 | 2016-05-24 | Panasonic Intellectual Property Corporation Of America | Speaker identification method, and speaker identification system |
KR101834546B1 (ko) | 2013-08-28 | 2018-04-13 | 한국전자통신연구원 | 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법 |
CN104700836B (zh) | 2013-12-10 | 2019-01-29 | 阿里巴巴集团控股有限公司 | 一种语音识别方法和系统 |
US9230542B2 (en) * | 2014-04-01 | 2016-01-05 | Zoom International S.R.O. | Language-independent, non-semantic speech analytics |
US9412358B2 (en) | 2014-05-13 | 2016-08-09 | At&T Intellectual Property I, L.P. | System and method for data-driven socially customized models for language generation |
US9437189B2 (en) * | 2014-05-29 | 2016-09-06 | Google Inc. | Generating language models |
CN105161112B (zh) * | 2015-09-21 | 2019-04-02 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
US9678954B1 (en) * | 2015-10-29 | 2017-06-13 | Google Inc. | Techniques for providing lexicon data for translation of a single word speech input |
JP6755304B2 (ja) * | 2016-04-26 | 2020-09-16 | 株式会社ソニー・インタラクティブエンタテインメント | 情報処理装置 |
WO2017197312A2 (en) * | 2016-05-13 | 2017-11-16 | Bose Corporation | Processing speech from distributed microphones |
KR102596430B1 (ko) * | 2016-08-31 | 2023-10-31 | 삼성전자주식회사 | 화자 인식에 기초한 음성 인식 방법 및 장치 |
KR101917648B1 (ko) | 2016-09-08 | 2018-11-13 | 주식회사 하이퍼커넥트 | 단말 및 그 제어 방법 |
JP7000671B2 (ja) * | 2016-10-05 | 2022-01-19 | 株式会社リコー | 情報処理システム、情報処理装置、及び情報処理方法 |
CN106550156A (zh) * | 2017-01-23 | 2017-03-29 | 苏州咖啦魔哆信息技术有限公司 | 一种基于语音识别的人工智能客服系统及其实现方法 |
CN108364633A (zh) * | 2017-01-25 | 2018-08-03 | 晨星半导体股份有限公司 | 文字转语音系统以及文字转语音方法 |
JP7197259B2 (ja) * | 2017-08-25 | 2022-12-27 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、情報処理装置およびプログラム |
KR102450823B1 (ko) | 2017-10-12 | 2022-10-05 | 한국전자통신연구원 | 사용자 맞춤형 통번역 장치 및 방법 |
US10665234B2 (en) * | 2017-10-18 | 2020-05-26 | Motorola Mobility Llc | Detecting audio trigger phrases for a voice recognition session |
JPWO2019111346A1 (ja) * | 2017-12-06 | 2020-10-22 | ソースネクスト株式会社 | 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム |
CN110021290A (zh) * | 2018-01-08 | 2019-07-16 | 上海西门子医疗器械有限公司 | 医疗系统和用于医疗系统的实时语言转换方法 |
US10691894B2 (en) * | 2018-05-01 | 2020-06-23 | Disney Enterprises, Inc. | Natural polite language generation system |
JP1621612S (ja) | 2018-05-25 | 2019-01-07 | ||
JP2021144256A (ja) * | 2018-05-25 | 2021-09-24 | パナソニックIpマネジメント株式会社 | 翻訳装置、システム、方法及びプログラム並びに学習方法 |
KR102107447B1 (ko) * | 2018-07-03 | 2020-06-02 | 주식회사 한글과컴퓨터 | 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법 |
JP7143665B2 (ja) * | 2018-07-27 | 2022-09-29 | 富士通株式会社 | 音声認識装置、音声認識プログラムおよび音声認識方法 |
CN109388699A (zh) * | 2018-10-24 | 2019-02-26 | 北京小米移动软件有限公司 | 输入方法、装置、设备及存储介质 |
CN109861904B (zh) * | 2019-02-19 | 2021-01-05 | 天津字节跳动科技有限公司 | 姓名标签显示方法和装置 |
JP7259447B2 (ja) * | 2019-03-20 | 2023-04-18 | 株式会社リコー | 発話者検出システム、発話者検出方法及びプログラム |
KR102428296B1 (ko) * | 2020-10-13 | 2022-08-02 | 주식회사 케이티 | 음성 합성 스케쥴을 조정하는 캐쉬 서버, 방법 및 음성 합성을 수행하는 음성 합성 서버 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000148176A (ja) * | 1998-11-18 | 2000-05-26 | Sony Corp | 情報処理装置および方法、提供媒体、音声認識システム、音声合成システム、翻訳装置および方法、並びに翻訳システム |
JP2002311983A (ja) * | 2001-04-11 | 2002-10-25 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 翻訳電話システム |
JP2004048277A (ja) * | 2002-07-10 | 2004-02-12 | Mitsubishi Electric Corp | 通信システム |
JP2005031758A (ja) * | 2003-07-07 | 2005-02-03 | Canon Inc | 音声処理装置及び方法 |
JP2005140988A (ja) * | 2003-11-06 | 2005-06-02 | Canon Inc | 音声認識装置及び方法 |
JP2006099296A (ja) * | 2004-09-29 | 2006-04-13 | Nec Corp | 翻訳システム、翻訳通信システム、機械翻訳方法、および、プログラム |
JP2006215315A (ja) * | 2005-02-04 | 2006-08-17 | Kddi Corp | 音声認識装置、音声認識端末装置、音声認識システム及びコンピュータプログラム |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6052657A (en) * | 1997-09-09 | 2000-04-18 | Dragon Systems, Inc. | Text segmentation and identification of topic using language models |
US6219638B1 (en) * | 1998-11-03 | 2001-04-17 | International Business Machines Corporation | Telephone messaging and editing system |
US7263489B2 (en) * | 1998-12-01 | 2007-08-28 | Nuance Communications, Inc. | Detection of characteristics of human-machine interactions for dialog customization and analysis |
US6266642B1 (en) * | 1999-01-29 | 2001-07-24 | Sony Corporation | Method and portable apparatus for performing spoken language translation |
US6278968B1 (en) * | 1999-01-29 | 2001-08-21 | Sony Corporation | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system |
JP4517260B2 (ja) * | 2000-09-11 | 2010-08-04 | 日本電気株式会社 | 自動通訳システム、自動通訳方法、および自動通訳用プログラムを記録した記憶媒体 |
EP1217609A3 (en) * | 2000-12-22 | 2004-02-25 | Hewlett-Packard Company | Speech recognition |
JP2002245038A (ja) * | 2001-02-21 | 2002-08-30 | Ricoh Co Ltd | 携帯端末装置による多国語翻訳システム |
US6996525B2 (en) * | 2001-06-15 | 2006-02-07 | Intel Corporation | Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience |
JP2003058458A (ja) | 2001-08-14 | 2003-02-28 | Nippon Telegr & Teleph Corp <Ntt> | 多言語遠隔マルチユーザコミュニケーションシステム |
US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
CN1221937C (zh) * | 2002-12-31 | 2005-10-05 | 北京天朗语音科技有限公司 | 语速自适应的语音识别系统 |
US20050144012A1 (en) * | 2003-11-06 | 2005-06-30 | Alireza Afrashteh | One button push to translate languages over a wireless cellular radio |
JP2005202884A (ja) * | 2004-01-19 | 2005-07-28 | Toshiba Corp | 送信装置、受信装置、中継装置、および送受信システム |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
US7624013B2 (en) * | 2004-09-10 | 2009-11-24 | Scientific Learning Corporation | Word competition models in voice recognition |
WO2006083690A2 (en) * | 2005-02-01 | 2006-08-10 | Embedded Technologies, Llc | Language engine coordination and switching |
CN1953052B (zh) * | 2005-10-20 | 2010-09-08 | 株式会社东芝 | 训练时长预测模型、时长预测和语音合成的方法及装置 |
WO2007070558A2 (en) * | 2005-12-12 | 2007-06-21 | Meadan, Inc. | Language translation using a hybrid network of human and machine translators |
EP2511833B1 (en) | 2006-02-17 | 2020-02-05 | Google LLC | Encoding and adaptive, scalable accessing of distributed translation models |
US7822606B2 (en) * | 2006-07-14 | 2010-10-26 | Qualcomm Incorporated | Method and apparatus for generating audio information from received synthesis information |
US7881928B2 (en) * | 2006-09-01 | 2011-02-01 | International Business Machines Corporation | Enhanced linguistic transformation |
US7702510B2 (en) * | 2007-01-12 | 2010-04-20 | Nuance Communications, Inc. | System and method for dynamically selecting among TTS systems |
JP2008243080A (ja) | 2007-03-28 | 2008-10-09 | Toshiba Corp | 音声を翻訳する装置、方法およびプログラム |
CN101458681A (zh) | 2007-12-10 | 2009-06-17 | 株式会社东芝 | 语音翻译方法和语音翻译装置 |
CN101266600A (zh) * | 2008-05-07 | 2008-09-17 | 陈光火 | 多媒体多语言互动同步翻译方法 |
US8868430B2 (en) * | 2009-01-16 | 2014-10-21 | Sony Corporation | Methods, devices, and computer program products for providing real-time language translation capabilities between communication terminals |
US8515749B2 (en) * | 2009-05-20 | 2013-08-20 | Raytheon Bbn Technologies Corp. | Speech-to-speech translation |
US8386235B2 (en) * | 2010-05-20 | 2013-02-26 | Acosys Limited | Collaborative translation system and method |
-
2010
- 2010-03-03 EP EP10820177.3A patent/EP2485212A4/en not_active Withdrawn
- 2010-03-03 CN CN201310130953.5A patent/CN103345467B/zh not_active Expired - Fee Related
- 2010-03-03 JP JP2011534094A patent/JP5598998B2/ja active Active
- 2010-03-03 US US13/499,311 patent/US8862478B2/en not_active Expired - Fee Related
- 2010-03-03 KR KR1020127008314A patent/KR101683943B1/ko active IP Right Grant
- 2010-03-03 CN CN201080043645.3A patent/CN102549653B/zh not_active Expired - Fee Related
- 2010-03-03 WO PCT/JP2010/053419 patent/WO2011040056A1/ja active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000148176A (ja) * | 1998-11-18 | 2000-05-26 | Sony Corp | 情報処理装置および方法、提供媒体、音声認識システム、音声合成システム、翻訳装置および方法、並びに翻訳システム |
JP2002311983A (ja) * | 2001-04-11 | 2002-10-25 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 翻訳電話システム |
JP2004048277A (ja) * | 2002-07-10 | 2004-02-12 | Mitsubishi Electric Corp | 通信システム |
JP2005031758A (ja) * | 2003-07-07 | 2005-02-03 | Canon Inc | 音声処理装置及び方法 |
JP2005140988A (ja) * | 2003-11-06 | 2005-06-02 | Canon Inc | 音声認識装置及び方法 |
JP2006099296A (ja) * | 2004-09-29 | 2006-04-13 | Nec Corp | 翻訳システム、翻訳通信システム、機械翻訳方法、および、プログラム |
JP2006215315A (ja) * | 2005-02-04 | 2006-08-17 | Kddi Corp | 音声認識装置、音声認識端末装置、音声認識システム及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
US8862478B2 (en) | 2014-10-14 |
KR20120086287A (ko) | 2012-08-02 |
WO2011040056A1 (ja) | 2011-04-07 |
CN103345467B (zh) | 2017-06-09 |
EP2485212A1 (en) | 2012-08-08 |
JPWO2011040056A1 (ja) | 2013-02-21 |
CN102549653A (zh) | 2012-07-04 |
CN103345467A (zh) | 2013-10-09 |
CN102549653B (zh) | 2014-04-30 |
EP2485212A4 (en) | 2016-12-07 |
US20120197629A1 (en) | 2012-08-02 |
KR101683943B1 (ko) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5598998B2 (ja) | 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 | |
JP5545467B2 (ja) | 音声翻訳システム、制御装置、および情報処理方法 | |
US9761241B2 (en) | System and method for providing network coordinated conversational services | |
EP1125279B1 (en) | System and method for providing network coordinated conversational services | |
US7689417B2 (en) | Method, system and apparatus for improved voice recognition | |
WO2018021237A1 (ja) | 音声対話装置、音声対話方法、および記録媒体 | |
WO2014010450A1 (ja) | 音声処理システム及び端末装置 | |
CN105989840A (zh) | 自然语言语音服务环境中的混合处理的系统及方法 | |
JP5062171B2 (ja) | 音声認識システム、音声認識方法および音声認識用プログラム | |
JP5471106B2 (ja) | 音声翻訳システム、辞書サーバ装置、およびプログラム | |
US20060247921A1 (en) | Speech dialog method and system | |
JP5704686B2 (ja) | 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム | |
KR102376552B1 (ko) | 음성 합성 장치 및 음성 합성 방법 | |
US20170185587A1 (en) | Machine translation method and machine translation system | |
Fischer et al. | Towards multi-modal interfaces for embedded devices | |
JP2017009685A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
Ivanecký et al. | Multi-Modal voice application design in a Multi-Client environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140716 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140807 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5598998 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |