JP2015060127A - 音声同時処理装置、方法およびプログラム - Google Patents

音声同時処理装置、方法およびプログラム Download PDF

Info

Publication number
JP2015060127A
JP2015060127A JP2013194639A JP2013194639A JP2015060127A JP 2015060127 A JP2015060127 A JP 2015060127A JP 2013194639 A JP2013194639 A JP 2013194639A JP 2013194639 A JP2013194639 A JP 2013194639A JP 2015060127 A JP2015060127 A JP 2015060127A
Authority
JP
Japan
Prior art keywords
character string
processing unit
unit
processing
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013194639A
Other languages
English (en)
Other versions
JP6235280B2 (ja
Inventor
聡史 釜谷
Satoshi Kamaya
聡史 釜谷
明子 坂本
Akiko Sakamoto
明子 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2013194639A priority Critical patent/JP6235280B2/ja
Priority to CN201410465639.7A priority patent/CN104464734A/zh
Priority to US14/490,722 priority patent/US9672820B2/en
Publication of JP2015060127A publication Critical patent/JP2015060127A/ja
Application granted granted Critical
Publication of JP6235280B2 publication Critical patent/JP6235280B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

【課題】音声認識結果を適切な処理単位に分割することができる。【解決手段】本開示の一実施形態に係る音声同時処理装置は、取得部と、音声認識部と、検出部と、出力部とを含む。取得部は、音声信号を取得する。音声認識部は、前記音声信号のうち音声認識処理を完了して文字列に変換された音声区間に対応する文字列である確定文字列と、確定文字列に続く音声区間であって音声認識の処理途上にあり、変換結果である文字列が確定していない音声区間に対応する1以上の候補文字列とを生成する。検出部は、確定文字列と1以上の候補文字列とをそれぞれ連結した1以上の組合せ文字列に対し、自然言語処理における処理単位の開始位置となる形態素の位置を示す分割点により該組合せ文字列を分割した際に、組合せ文字列のそれぞれに共通して確定文字列に含まれる文字列が存在する場合、該文字列を処理単位文字列として検出する。出力部は、処理単位文字列を出力する。【選択図】図1

Description

本発明の実施形態は、音声同時処理装置、方法およびプログラムに関する。
近年、音声処理技術の高度化に伴い、人の発話を受け付けて動作する様々なサービス、例えば、音声コマンド、音声検索および音声対話などのシステムが利用されている。人の発話、すなわち、話し言葉には、書き言葉に含まれる句読点のような明確な区切りがなく、上述したようなサービスを提供するには、受け付けた発話を、そのサービスに適した単位に分割する必要がある。サービスに適した処理単位に分割する手法としては、無音区間であるポーズを含む発話を、処理単位に分割する手法がある。
特開2009−58671号公報
しかし、上述の手法では、話者や話し方によって変化の大きいポーズを発話の区切り情報として用いているため、適切な処理単位を検出できない場合がある。例えば、予め決められた長さのポーズ長で区切られた音声区間における音声認識結果の文字列を処理単位へ分割する場合、事前に与えておくべき適切なポーズ長は話者によって異なり、さらに同じ話者であっても常に一定のポーズ長とは限らないので、適切な処理単位を検出できない。
また、ポーズ長の閾値を大きくすると、処理単位を確定するまでの時間が増加するため、元発話に対する後続処理の同時性が低下してしまう。一方、ポーズ長の閾値を小さくすると、同時性は向上するが、ポーズによって区切られる単位が増加するため、細切れの処理単位が検出されることになり、後続する処理の精度が低下してしまう。
本発明は、上述した課題を解決するためになされたものであり、発話音声の認識結果を適切な処理単位に分割することができる音声同時処理装置、方法、およびプログラムを提供することを目的とする。
本発明の一実施形態に係る音声同時処理装置は、取得部と、音声認識部と、検出部と、出力部とを含む。取得部は、音声信号を取得する。音声認識部は、前記音声信号のうち音声認識処理を完了して文字列に変換された音声区間に対応する文字列である確定文字列と、該確定文字列に続く音声区間であって音声認識の処理途上にあり、変換結果である文字列が確定していない音声区間に対応する1以上の候補文字列とを生成する。検出部は、前記確定文字列と1以上の前記候補文字列とをそれぞれ連結した1以上の組合せ文字列に対し、自然言語処理における処理単位の開始位置となる形態素の位置を示す分割点により該組合せ文字列を分割した際に、前記組合せ文字列のそれぞれに共通して前記確定文字列に含まれる文字列が存在する場合、該文字列を処理単位文字列として検出する。出力部は、前記処理単位文字列を出力する。
第1の実施形態に係る音声同時処理装置を示すブロック図。 第1の実施形態に係る音声同時処理装置の動作を示すフローチャート。 認識結果記憶部に記憶される確定文字列と候補文字列との第1例を示す図。 組合せ文字列の分割点の検出結果の第1例を示す図。 第1の実施形態における処理単位記憶部に記憶される処理単位文字列を示す図。 認識結果記憶部に記憶される確定文字列と候補文字列との第2例を示す図。 組合せ文字列の分割点の検出結果の第2例を示す図。 第2の実施形態に係る音声同時処理装置を示すブロック図。 第2の実施形態に係る音声同時処理装置の動作を示すフローチャート。 第2の実施形態に係る処理単位記憶部に記憶される処理単位情報の第1例を示す図。 再処理単位文字列の分割点を検出した結果を示す図。 処理単位記憶部に記憶される処理単位情報の第2例を示す図。 処理単位記憶部に記憶される処理単位情報の第3例を示す図。 再処理単位文字列の分割点を検出した結果を示す図。 更新された処理単位情報の一例を示す図。
以下、図面を参照しながら本開示の一実施形態に係る音声同時処理装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行なうものとして、重ねての説明を省略する。
(第1の実施形態)
第1の実施形態に係る音声同時処理装置について図1のブロック図を参照して説明する。
本実施形態に係る音声同時処理装置100は、取得部101、音声認識部102、認識結果記憶部103、検出部104、処理単位記憶部105および出力部106を含む。
取得部101は、話者が発する音声を音声信号として取得する。音声信号は、例えば、マイクロフォンを通して集音し、これをアナログおよびデジタル変換器(A/D変換器)により処理することで得ることができる。また、予め記録媒体などに録音された音声を、再生デバイスなどにより記録媒体を読み込んで再生することで音声信号として取得してもよい。
音声認識部102は、取得部101から音声信号を受け取り、音声信号に対して音声認識処理を行い、音声信号をテキスト文字列に変換する。音声認識処理は、例えば、隠れマルコフモデル(Hidden Markov Model:HMM)を利用するなど、一般的な方法で行えばよいのでここでの詳細な説明は省略する。また、音声認識部102は、音声認識処理を完了して文字列に変換された音声区間に対応する文字列である確定文字列と、該確定文字列に続く音声区間であって音声認識の処理途上にあり、変換結果である文字列が確定していない音声区間に対応する1以上の候補文字列と、を生成する。
確定文字列および候補文字列の生成方法は、例えば、音声信号における一定の無音期間(ポーズ)を区切りとして生成すればよい。すなわち、ポーズよりも時間的に前の区間の音声に対応する、1以上の候補が決定された状態における最尤の文字列を確定文字列とし、ポーズよりも後の区間の音声に対応する1以上の文字列を候補文字列とすればよい。以下、候補文字列の集合を候補文字列集合と呼ぶ。
なお、確定文字列は、確定した音声区間に対する最尤の文字列のみでもよいし、確定した音声区間に対応する他の候補を含む形式、例えば文字列ラティス形式で生成してもよい。同様に、候補文字列集合も1つの候補文字列ごとに区別して生成してもよいし、文字列ラティス形式で出力してもよい。
また、確定文字列および候補文字列の生成方法の別例としては、音声認識処理中の音声に相当する文字列候補が予め決められた単語数に達した位置をポーズの代わりに用いたり、文字列候補の生成確率が一定の閾値を超える位置をポーズの代わりに用いることで、確定文字列および候補文字列を生成してもよい。
認識結果記憶部103は、音声認識部102から確定文字列および1以上の候補文字列を受け取り、それぞれ対応付けて記憶する。なお、本実施形態では、確定文字列および候補文字列は、単語情報が付属しない平文を想定しているが、音声認識部102の音声認識処理結果として、単語ごとに区切れた系列を記憶してもよい。
検出部104は、認識結果記憶部103から確定文字列および候補文字列集合を取得する。検出部104は、確定文字列と候補文字列集合に含まれるそれぞれの候補文字列とを連結して1以上の組合せ文字列を得る。検出部104は、それぞれの組合せ文字列を解析し、後続の自然言語処理の処理単位の開始位置となり得る形態素の位置で、組合せ文字列を部分文字列に分割する位置を示す分割点を1以上検出する。検出部104は、分割点により組合せ文字列を分割した際に、それぞれの組合せ文字列に共通して確定文字列に含まれる文字列が存在する場合、確定文字列に含まれる文字列を処理単位文字列として検出する。なお、それぞれの組合せ文字列の集合を、組合せ文字列集合とも呼ぶ。
ここで、処理単位とは、音声同時処理装置100に接続される他のデバイスの動作に最適な文字列を示し、例えば、機械翻訳装置に接続する場合には、機械翻訳装置に入力された音声を同時並行的に訳出し、最良の翻訳結果が得られるような翻訳単位である。また、発話への高い追随性を要求される同時翻訳などの音声対話の場合には、翻訳結果の品質に加え、発話からの遅延時間を変数として、最適な通訳精度と通訳時間とを実現する単位として、音声を同時並行的に音声対話のタスクとして処理する単位が相当する。
また、検出部104では、処理単位となる分割点を、例えば、条件付き確率場(Conditioning Random Field)を用いて確率的に推定することができる。機械学習では、理想的な処理単位の情報が付与された学習データ(コーパス)を用いて分割点を学習してもよいし、あるいは、理想的な処理単位の情報が付与されていないデータにおいて、本実施形態に係る音声同時処理装置に接続する装置が理想的に動作する確率を最大化するような分割点を学習するようにしてもよい。
機械学習手法は、本実施の形態で説明した条件付き確率場の他にも、HMM、サポートベクターマシン(Support Vector Machine:SVM)といったその他のモデルを用いて分割点を推定してもよく、上述の実現形態に限るものではない。また、統計的に分割点を検出する方法以外にも、例えば、形態素系列におけるパターンマッチングによる手法や、構文情報を用いた手法などを適用することができる。
処理単位記憶部105は、検出部104から処理単位文字列を受け取って記憶する。
出力部106は、認識結果記憶部103から確定文字列および候補文字列を、処理単位記憶部105から処理単位文字列をそれぞれ受け取り、外部へ出力する。外部への出力は、処理単位文字列が生成されるごとに出力してもよいし、ある程度処理単位文字列が蓄積されてからまとめて出力するようにしてもよい。なお、LCD(Liquid crystal display)やOLED(organic light emitting diode)ディスプレイのような表示デバイスや、プリンタデバイス、スピーカなどの音声デバイス、ハードディスクドライブなどの記憶媒体への記憶デバイスを含んでもよい。
次に、第1の実施形態に係る音声同時処理装置100の動作について図2のフローチャートを参照して説明する。
ステップS201では、音声認識部102が、取得部101で取得した音声に対して音声認識処理を行ない、確定文字列と候補文字列集合とを得る。
ステップS202では、検出部104が、確定文字列と候補文字列集合に含まれるそれぞれの候補文字列とを連結して組合せ文字列を生成し、組合せ文字列を要素する組合せ文字列集合を得る。ここでは、候補文字列の数に対応する組合せ文字列が生成されることになる。
ステップS203では、検出部104が、それぞれの組合せ文字列について分割点により分割した際に、それぞれの組合せ文字列に共通して確定文字列に含まれる文字列が存在するような分割点が存在するかどうかを判定する。それぞれの組合せ文字列に共通して確定文字列に含まれる文字列が存在するような分割点があればステップS204に進み、それぞれの組合せ文字列に共通して確定文字列に含まれる文字列が存在するような分割点がなければ、処理を終了する。
ステップS204では、処理単位記憶部105が、確定文字列に含まれる文字列を処理単位文字列として記憶する。
ステップS205では、出力部106が、処理単位記憶部105を参照して、未出力の処理単位文字列を外部へ出力する。以上で、第1の実施形態に係る音声同時処理装置100の動作を終了する。
次に、第1の実施形態に係る音声同時処理装置100の動作の具体例について図3から図5までを参照して説明する。ここでは、音声同時処理装置100に、日本語から英語へ翻訳を行なう機械翻訳装置が接続される例を示す。
ここでは、話者が「千葉市内で(V)ホテルを予約し(V)たいんですが良いホテルを見つけて(V)もらえませんか」という内容を連続的に発話し、音声同時処理装置100がこの発話を取得する状況を想定する。記号(V)は、音声同時処理装置100が無音区間(ポーズ)として認識する位置を示す。
始めに、「千葉市内で(V)」と発話した場合について、音声認識部102が音声認識処理して確定文字列と1以上の候補文字列とを生成する。認識結果記憶部103に記憶される確定文字列と候補文字列とについて、図3を参照して説明する。
認識結果記憶部103には、確定文字列301と1以上の候補文字列302とが対応付けられて記憶される。ここでは、確定文字列301「千葉市内で」に対して、候補文字列302「火照るん」、「ホテルの」、「掘っているん」、「補填の」がそれぞれ対応付けられる。確定文字列301とそれぞれの候補文字列302とを連結することで、組合せ文字列を得ることができる。すなわち、組合せ文字列として、「千葉市内で火照るん」、「千葉市内のホテルで」、「千葉市内で掘っているん」および「千葉市内で補填の」が得られ、これら4つの組合せ文字列の集合が組合せ文字列集合となる。
次に、検出部104が、それぞれの組合せ文字列を解析して分割点を検出する。分割点の検出結果について図4を参照して説明する。
図4は、条件付き確率場を用いて、組合せ文字列401に含まれる形態素に、処理単位への分割点の候補位置を示すラベル402を付与した例を示す。「B」は、処理単位の開始位置となる形態素の位置を示し、「I」は、処理単位の途中にある形態素の位置を示す。
例えば、組合せ文字列401「千葉市内で火照るん」について、ラベル402の「B」の分割点の位置で部分文字列に分割することができるので、「千葉市内で」と「火照るん」との文字列に分割できることがわかる。同様に、組合せ文字列「千葉市内でホテルの」についても、ラベル402「B」の分割点の位置で「千葉市内で」と「ホテルの」に分割することができる。
ここで、検出部104は、それぞれの組合せ文字列401に共通して確定文字列に含まれる文字列が存在するような分割点を検出する。図4の例では、分割点のうち、それぞれの組合せ文字列401に共通した確定文字列に含まれる文字列が存在するようにラベル402「B」で分割できる。すなわち、確定文字列である「千葉市内で」が存在するので、「千葉市内で」を処理単位文字列として検出する。
検出部104で得られた処理単位文字列を処理単位記憶部105に記憶する一例を図5に示す。図5に示すように、処理単位文字列501「千葉市内で」が記憶される。その後、出力部106が、処理単位文字列「千葉市内で」を外部に出力する。
続いて発話が進み、取得部101が「ホテルを予約し(V)」の発話を取得し、音声認識部102の処理により、確定文字列と候補文字列集合と得た処理結果を図6に示す。
ここでは、確定文字列601「ホテルの予約をし」と、確定文字列601に対応する1以上の候補文字列602が得られた場合を想定する。図6に示すように、候補文字列602としては、「たいん」、「退院」、「タイの」および「たインド」が得られる。
次に、検出部104が、図6に示す確定文字列とそれぞれの候補文字列とを連結して組合せ文字列を生成し、それぞれの組合せ文字列について分割点を検出した結果を図7に示す。
図7に示すように、組合せ文字列701「ホテルの予約をしたいん」は、ラベル702「B」に対応する分割点が先頭の「ホテル」以外存在しないので、部分文字列に分割できない。一方、組合せ文字列701「ホテルの予約をし退院」は、ラベル702「B」に対応する分割点が先頭以外に存在するので、「ホテルの予約をし」と「退院」との文字列に分割できる。そのほか、候補文字列の先頭の文字列部分に該当するラベル702は、文字列「タイの」がラベル702「B」、文字列「たインド」がラベル702「I」として得られる。
この場合、全ての組合せ文字列701に共通し、かつ分割点で分割した結果が確定文字列に含まれるような文字列、つまり、それぞれの組合せ文字列でラベル702が「B」で共通する分割点が存在しない。よって、新たな処理単位文字列は生成されず、処理単位記憶部105には追加されない。
従来の発話中のポーズを手掛かりとする手法を用いた場合は、「ホテルの予約をし(V)」という発話に対応する「ホテルの予約をし」の部分が処理単位として検出されるので、後続する「たいんですがどこに行けば」が別の処理単位として、分けられて処理されてしまう。これは、分割された文字列が機械翻訳装置の処理単位として用いられた場合、翻訳結果として“I book a hotel”と “I want, but where should I go”のように分かれてしまうことを示し、元の発話が持つ意図が正しく反映されない。
一方、第1の実施形態に係る音声同時処理装置では、発話の文脈を解析して処理単位を検出するため、元の発話が有する意図が正しく反映されない処理単位の出力を抑制することができる。
すなわち、第1の実施形態によれば、発話音声の認識結果を適切な処理単位に分割することができ、例えば機械翻訳装置と接続される場合、処理単位文字列ごとに適切な翻訳をおこなうことができるので、発話を途中であっても追随して漸進的に出力することができる。
(第2の実施形態)
第2の実施形態では、発話の状況に応じて処理単位文字列に関する情報を更新する点が第1の実施形態と異なる。このようにすることで、後続する音声の認識結果によって適切な処理単位が変わってしまう場合でも、元の発話が持つ意図が正しく反映された処理単位を出力できる。
第2の実施形態に係る音声同時処理装置のブロック図について図8を参照して説明する。
第2の実施形態に係る音声同時処理装置800は、取得部101、認識結果記憶部103、検出部104、出力部106、音声認識部801、処理単位記憶部802および更新部803を含む。
取得部101、認識結果記憶部103、検出部104および出力部106については、第1の実施形態と同様の動作を行なうのでここでの説明は省略する。
音声認識部801は、第1の実施形態に係る音声認識部102と同様の処理を行なうが、音声が発話された時刻に関する時間情報と、音声を発話した話者の話す速度(以下、話速という)とを取得する点が異なる。
処理単位記憶部802は、第1の実施形態に係る処理単位記憶部105と同様の処理を行なうが、処理単位文字列と、処理単位文字列を検出した区間に対応する音声の時間情報と対応づけて、処理単位情報として記憶する点が異なる。
更新部803は、処理単位記憶部802に記憶される処理単位情報を参照し、新たな処理単位情報が処理単位記憶部802に追加された場合、追加された処理単位情報に時間的に先行して、予め設定した時間内に連続して発話された音声区間に対応する処理単位情報であるかどうかを判定する。この判定は、音声認識部801から時間情報および話速の少なくともどちらか1つを受け取り、受け取った情報を参照して判定してもよい。
さらに、更新部803は、追加された処理単位情報に先行して、予め設定した時間内に連続して発話された音声区間に対応する処理単位情報が存在する場合、対応する処理単位情報に含まれる処理単位文字列を時系列順に連結して、再処理単位文字列を生成する。さらに、再処理単位文字列の分割点と処理単位記憶部802に記憶された処理単位文字列の分割点とが異なる場合、連結された以前の処理単位情報に含まれる処理単位文字列と時間情報とを、再処理単位文字列と再処理単位文字列に対応する時間情報とに置き換える。
連続して発話された音声区間を決定する際に用いる閾値は、例えば時間情報を参照する場合は、先行する処理単位情報に対応する音声の終了時刻と、後続する処理単位情報に対応する音声の開始時刻との差に基づいて設定してもよい。また、評価対象となる連続した処理単位情報の時間長の和に基づいて設定してもよい。
なお、話速を参照する場合は、1以上の話者の話速の統計値により、ポーズの長さの閾値を決定してもよいし、話者ごとの話速を予め取得し、話者ごとに閾値を設定してもよい。また、閾値は、事前に設定した値でもよいし、発話の状況に応じて動的に設定してもよい。
次に、第2の実施形態に係る音声同時処理装置800の動作について図9のフローチャートを参照して説明する。
ステップS201からステップS203まで、およびステップS205の処理については、第1の実施形態に係る音声同時処理装置100の動作と同様であるので説明を省略する。
ステップS901では、処理単位記憶部802が、処理単位文字列と処理単位文字列に対応する音声区間の時間情報とを対応付けて、処理単位情報として記憶する。
ステップS902では、更新部803が、未出力の処理単位情報が存在するかどうかを判定する。未出力の処理単位情報が存在する場合は、ステップS903へ進み、未出力の処理単位情報が存在しない場合は、ステップS205に進む。
ステップS903では、予め設定した時間内に連続して発話された処理単位文字列が複数あれば、複数の処理単位文字列を時系列順に沿って連結し、再処理単位文字列を生成する。
ステップS904では、更新部803が、再処理単位文字列について、分割点を検出する。分割点の検出の方法は、検出部104における分割点を算出する方法と同様の方法を用いればよい。
ステップS905では、更新部803が、再処理単位文字列について、処理単位記憶部802に記憶される処理単位文字列の分割点と異なる分割点を検出したかどうかを判定する。異なる分割点を検出した場合はステップS906に進み、異なる分割点を検出しない場合はステップS205に進む。
ステップS906では、更新部803が、処理単位記憶部802に記憶される処理単位情報を再処理単位文字列を含む新たな処理単位情報で更新し、ステップS205へ進む。以上で第2の実施形態に係る音声同時処理装置800の動作を終了する。
次に、第2の実施形態に係る処理単位記憶部802に記憶される処理単位情報の一例について図10を参照して説明する。
図10は、処理単位情報1000を示すテーブルであり、処理単位情報1000として、処理単位文字列501と時間情報1001とが対応付けられて記憶される。ここでは、時間情報1001として、処理単位文字列501を検出した区間に対応する音声の開始時刻1002と終了時刻1003とが処理単位文字列501に対応付けられる。具体的には、図10に示す処理単位文字列501「千葉市内で」と、開始時刻1002「10:03:31.21」と、終了時刻1003「10:03:32.73」とが対応付けられる。
次に、第2の実施形態に係る音声同時処理装置800の動作の具体例について図11から図15を参照して説明する。
まず、図10に示す処理単位情報1000に含まれる処理単位文字列「千葉市内で」が未出力であり、予め設定した時間内で連続する発話に対応する文字列は、「千葉市内で」のみであると仮定する。このとき、更新部803のステップS902の処理において、未出力の処理単位情報が存在すると判定され、処理単位文字列「千葉市内で」について分割点を検出する。
再処理単位文字列について分割点を検出した結果を図11に示す。再処理単位文字列1101「千葉市内で」に対応するラベル1102は、図5に示す処理単位文字列501について検出された分割点のラベル(図4の「千葉市内で」のラベル「B,I,I」)と同じであるので、更新部803の処理が終了する。
さらに発話が進み、第1の実施形態において発話された音声に続き、音声「たいんですが良いホテルを見つけて(V)」を音声認識部102が取得して検出部104が解析し、処理単位記憶部802が処理単位情報として「良いホテルを見つけて」を記憶する例を図12に示す。
ここで、図12に示す処理単位情報が出力部106から全て出力された状態、すなわち、「千葉市内で」、「ホテルの予約をしたいんですが」、「良いホテルを見つけて」が順に出力された状態を仮定する。音声同時処理装置800が機械翻訳装置に接続される場合は、「In Chiba city」、「I’d like to make a hotel reservation.」、「Please find a good hotel.」が出力されると仮定する。
続いて、取得部101が音声「もらえませんか」を取得して、音声認識部102および検出部104の処理により新たな発話の処理単位文字列として「もらえませんか」を得る。その後、この処理単位文字列に対応する音声区間の開始時刻と終了時刻とを対応付けて処理単位情報として、処理単位記憶部802に記憶した例を図13に示す。
図9に示す更新部803の更新処理において、処理単位情報1301「もらえませんか」が未出力であるため、処理単位情報1301「もらえませんか」が処理対象となる。このとき、連続して発話したかどうかの閾値が、1秒であった場合、処理単位情報1302「千葉市内で」と処理単位情報1303「ホテルを予約したいんですが」との発話間の差は、0.05秒であり、処理単位情報1303「ホテルを予約したいんですが」と処理単位情報1304「良いホテルを見つけて」との差は0.17秒、および、処理単位情報1304「良いホテルを見つけて」と処理単位情報1301「もらえませんか」との差は、0.31秒であるため、これらの処理単位情報に対応する発話は、予め設定した時間内に連続して発話されたと決定する。よって、これらの処理単位文字列を時系列順に連結した組合せ文字列「千葉市内でホテルの予約をしたいんですが良いホテルをみつけてもらえませんか」が、再処理単位文字列として生成される。
続いて、再処理単位文字列「千葉市内でホテルの予約をしたいんですが良いホテルをみつけてもらえませんか」について、分割点を検出した結果を図14に示す。
図14に示すように分割点の検出結果として、図13に示す処理単位文字列「良いホテルを見つけて」と「もらえませんか」とは異なる処理単位文字列「良いホテルを見つけてもらえませんか」が検出される。
最終的に更新された処理単位記憶部802の処理単位情報について図15に示す。
処理単位情報として、図13に示す処理単位情報1304「良いホテルを見つけて」と処理単位情報1301「もらえませんか」とが、図15に示す処理単位情報1501「良いホテルを見つけてもらえませんか」に更新される。また、処理単位文字列「良いホテルを見つけてもらえませんか」の音声に対応する開始時刻1002と終了時刻1003とが、処理単位情報1304「良いホテルを見つけて」の開始時刻「10:03:37.72」と処理単位情報1301「もらえませんか」の終了時刻「10:03:41.97」とに更新される。
なお、更新部803がない場合は、処理単位の更新が行われないため、図13に示す処理単位情報に対応した全ての処理単位文字列が出力されるため、“In Chiba city”、“I’d like to make a hotel reservation”、“Please find a good hotel”、“I cannot get it?”という一連の翻訳がなされ、元の発話に存在しない、「もらえないです?」という意味の訳が余分に生成されるか農政がある。一方、第2の実施形態に係る音声同時処理装置では、処理単位文字列の機械翻訳として、「良いホテルを見つけてもらえませんか」が得られるため、ここで、機械翻訳装置に処理単位文字列を与えると、例えば、「Could you find a good hotel for me?」といった訳出が得られる。
以上に示した第2の実施形態によれば、後続する発話の認識結果によって適切な処理単位が変わってしまう場合にも、元の発話の意図を正しく反映させる処理単位を出力できる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した音声同時処理装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の音声同時処理装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100,800・・・音声同時処理装置、101・・・取得部、102,801・・・音声認識部、103・・・認識結果記憶部、104・・・検出部、105,802・・・処理単位記憶部、106・・・出力部、301,601・・・確定文字列、302,602・・・候補文字列、401,701・・・組合せ文字列、402,702,1102・・・ラベル、501・・・処理単位文字列、803・・・更新部、1000,1301〜1304,1501・・・処理単位情報、1001・・・時間情報、1002・・・開始時刻、1003・・・終了時刻、1101・・・再処理単位文字列。

Claims (9)

  1. 音声信号を取得する取得部と、
    前記音声信号のうち音声認識処理を完了して文字列に変換された音声区間に対応する文字列である確定文字列と、該確定文字列に続く音声区間であって音声認識の処理途上にあり、変換結果である文字列が確定していない音声区間に対応する1以上の候補文字列とを生成する音声認識部と、
    前記確定文字列と1以上の前記候補文字列とをそれぞれ連結した1以上の組合せ文字列に対し、自然言語処理における処理単位の開始位置となる形態素の位置を示す分割点により該組合せ文字列を分割した際に、前記組合せ文字列のそれぞれに共通して前記確定文字列に含まれる文字列が存在する場合、該文字列を処理単位文字列として検出する検出部と、
    前記処理単位文字列を出力する出力部と、を具備することを特徴とする音声同時処理装置。
  2. 新たに取得した第1処理単位文字列と以前に取得された第2処理単位文字列との関係により、前記分割点の位置が変化する場合、前記第2処理単位文字列を更新する更新部をさらに具備することを特徴とする請求項1に記載の音声同時処理装置。
  3. 前記処理単位文字列と、該処理単位文字列が発話された音声区間に対応する音声信号の時間情報とを対応付けて処理単位情報として記憶する記憶部と、
    前記記憶部に新たな処理単位情報である第1処理単位情報が追加された場合に、該第1処理単位情報に先行しかつ閾値以内の時間で連続して発話された音声区間に対応する第2処理単位情報が存在する場合、該第2処理単位情報と前記第1処理単位情報とに含まれる処理単位文字列を時系列順に連結して再処理単位文字列を生成し、該再処理単位文字列および該再処理単位文字列に対応する時間情報で前記記憶部に記憶される処理単位情報を更新する更新部と、をさらに具備することを特徴とする請求項1に記載の音声同時処理装置。
  4. 前記音声認識部は、前記処理単位文字列が発話された時間に関する時間情報を取得し、
    前記更新部は、前記時間情報を参照して、前記第2処理単位情報が存在するかどうかを判定することを特徴とする請求項3に記載の音声同時処理装置。
  5. 前記音声認識部は、話者の話す速度である話速を取得し、
    前記更新部は、前記話速を参照して、前記第2処理単位情報が存在するかどうかを判定することを特徴とする請求項3に記載の音声同時処理装置。
  6. 前記自然言語処理が機械翻訳の場合、前記処理単位は、前記音声信号を同時並行して訳出するのに適する翻訳単位であることを特徴とする請求項1から請求項5のいずれか1項に記載の音声同時処理装置。
  7. 前記自然言語処理が音声対話の場合、前記処理単位は、前記音声信号を同時並行して音声対話のタスクとして出力される単位であることを特徴とする請求項1から請求項5のいずれか1項に記載の音声同時処理装置。
  8. 音声信号を取得し、
    前記音声信号のうち音声認識処理を完了して文字列に変換された音声区間に対応する文字列である確定文字列と、該確定文字列に続く音声区間であって音声認識の処理途上にあり、変換結果である文字列が確定していない音声区間に対応する1以上の候補文字列とを生成し、
    前記確定文字列と1以上の前記候補文字列とをそれぞれ連結した1以上の組合せ文字列に対し、自然言語処理における処理単位の開始位置となる形態素の位置を示す分割点により該組合せ文字列を分割した際に、前記組合せ文字列のそれぞれに共通して前記確定文字列に含まれる文字列が存在する場合、該文字列を処理単位文字列として検出し、
    前記処理単位文字列を出力することを特徴とする音声同時処理方法。
  9. コンピュータを、
    音声信号を取得する取得手段と、
    前記音声信号のうち音声認識処理を完了して文字列に変換された音声区間に対応する文字列である確定文字列と、該確定文字列に続く音声区間であって音声認識の処理途上にあり、変換結果である文字列が確定していない音声区間に対応する1以上の候補文字列とを生成する音声認識手段と、
    前記確定文字列と1以上の前記候補文字列とをそれぞれ連結した1以上の組合せ文字列に対し、自然言語処理における処理単位の開始位置となる形態素の位置を示す分割点により該組合せ文字列を分割した際に、前記組合せ文字列のそれぞれに共通して前記確定文字列に含まれる文字列が存在する場合、該文字列を処理単位文字列として検出する検出手段と、
    前記処理単位文字列を出力する出力手段として機能させるための音声同時処理プログラム。
JP2013194639A 2013-09-19 2013-09-19 音声同時処理装置、方法およびプログラム Active JP6235280B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013194639A JP6235280B2 (ja) 2013-09-19 2013-09-19 音声同時処理装置、方法およびプログラム
CN201410465639.7A CN104464734A (zh) 2013-09-19 2014-09-12 声音同时处理装置、方法及程序
US14/490,722 US9672820B2 (en) 2013-09-19 2014-09-19 Simultaneous speech processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013194639A JP6235280B2 (ja) 2013-09-19 2013-09-19 音声同時処理装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015060127A true JP2015060127A (ja) 2015-03-30
JP6235280B2 JP6235280B2 (ja) 2017-11-22

Family

ID=52668735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013194639A Active JP6235280B2 (ja) 2013-09-19 2013-09-19 音声同時処理装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US9672820B2 (ja)
JP (1) JP6235280B2 (ja)
CN (1) CN104464734A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9588967B2 (en) 2015-04-22 2017-03-07 Kabushiki Kaisha Toshiba Interpretation apparatus and method
US9600475B2 (en) 2014-09-18 2017-03-21 Kabushiki Kaisha Toshiba Speech translation apparatus and method
WO2019031268A1 (ja) * 2017-08-09 2019-02-14 ソニー株式会社 情報処理装置、及び情報処理方法
US10423700B2 (en) 2016-03-16 2019-09-24 Kabushiki Kaisha Toshiba Display assist apparatus, method, and program
KR20210024408A (ko) * 2019-08-16 2021-03-05 베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드 오디오 처리 방법, 장치 및 저장 매체

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6303622B2 (ja) * 2014-03-06 2018-04-04 ブラザー工業株式会社 画像処理装置
JP2016057986A (ja) * 2014-09-11 2016-04-21 株式会社東芝 音声翻訳装置、方法およびプログラム
US11875392B1 (en) * 2014-12-23 2024-01-16 Amazon Technologies, Inc. Method and system for determining and presenting information related to a semantic context of electronic message text or voice data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001242884A (ja) * 2000-02-28 2001-09-07 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP2007079122A (ja) * 2005-09-14 2007-03-29 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
JP2009058671A (ja) * 2007-08-30 2009-03-19 National Institute Of Information & Communication Technology 処理単位分割装置、処理単位分割方法、プログラム、及びデータ構造
WO2011033834A1 (ja) * 2009-09-18 2011-03-24 日本電気株式会社 音声翻訳システム、音声翻訳方法および記録媒体

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3006496B2 (ja) 1996-03-21 2000-02-07 日本電気株式会社 音声認識装置
US6374219B1 (en) * 1997-09-19 2002-04-16 Microsoft Corporation System for using silence in speech recognition
JP3633254B2 (ja) 1998-01-14 2005-03-30 株式会社日立製作所 音声認識システムおよびそのプログラムを記録した記録媒体
JP2002149187A (ja) * 2000-11-07 2002-05-24 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
GB2391679B (en) * 2002-02-04 2004-03-24 Zentian Ltd Speech recognition circuit using parallel processors
JP2004012615A (ja) 2002-06-04 2004-01-15 Sharp Corp 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
US7664642B2 (en) * 2004-03-17 2010-02-16 University Of Maryland System and method for automatic speech recognition from phonetic features and acoustic landmarks
JP4322785B2 (ja) * 2004-11-24 2009-09-02 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
WO2007023436A1 (en) * 2005-08-26 2007-03-01 Koninklijke Philips Electronics N.V. System and method for synchronizing sound and manually transcribed text
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
JP2008134475A (ja) * 2006-11-28 2008-06-12 Internatl Business Mach Corp <Ibm> 入力された音声のアクセントを認識する技術
US8515728B2 (en) * 2007-03-29 2013-08-20 Microsoft Corporation Language translation of visual and audio input
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
JP2010230695A (ja) * 2007-10-22 2010-10-14 Toshiba Corp 音声の境界推定装置及び方法
JP5112116B2 (ja) 2008-03-07 2013-01-09 株式会社東芝 機械翻訳する装置、方法およびプログラム
WO2011007627A1 (ja) 2009-07-17 2011-01-20 日本電気株式会社 音声処理装置および方法ならびに記憶媒体
CN101996631B (zh) * 2009-08-28 2014-12-03 国际商业机器公司 用于对齐文本的方法和装置
JP2011092496A (ja) 2009-09-29 2011-05-12 Imasen Electric Ind Co Ltd リクライニング装置
JP5621783B2 (ja) * 2009-12-10 2014-11-12 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
US20110218802A1 (en) * 2010-03-08 2011-09-08 Shlomi Hai Bouganim Continuous Speech Recognition
JP5058280B2 (ja) 2010-03-12 2012-10-24 シャープ株式会社 翻訳装置、翻訳方法及びコンピュータプログラム
WO2012020717A1 (ja) * 2010-08-10 2012-02-16 日本電気株式会社 音声区間判定装置、音声区間判定方法および音声区間判定プログラム
KR20130014893A (ko) * 2011-08-01 2013-02-12 한국전자통신연구원 음성 인식 장치 및 방법
JP5750380B2 (ja) 2012-02-10 2015-07-22 株式会社東芝 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2013206253A (ja) 2012-03-29 2013-10-07 Toshiba Corp 機械翻訳装置、方法、およびプログラム
JP5653392B2 (ja) 2012-06-29 2015-01-14 株式会社東芝 音声翻訳装置、方法およびプログラム
US9734820B2 (en) * 2013-11-14 2017-08-15 Nuance Communications, Inc. System and method for translating real-time speech using segmentation based on conjunction locations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001242884A (ja) * 2000-02-28 2001-09-07 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP2007079122A (ja) * 2005-09-14 2007-03-29 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
JP2009058671A (ja) * 2007-08-30 2009-03-19 National Institute Of Information & Communication Technology 処理単位分割装置、処理単位分割方法、プログラム、及びデータ構造
WO2011033834A1 (ja) * 2009-09-18 2011-03-24 日本電気株式会社 音声翻訳システム、音声翻訳方法および記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
釜谷聡史 他: ""対面業務の外国語会話を支援する同時通訳システム"", 東芝レビュー, vol. 68, no. 9, JPN6017005444, 1 September 2013 (2013-09-01), pages 18 - 21, ISSN: 0003647457 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9600475B2 (en) 2014-09-18 2017-03-21 Kabushiki Kaisha Toshiba Speech translation apparatus and method
US9588967B2 (en) 2015-04-22 2017-03-07 Kabushiki Kaisha Toshiba Interpretation apparatus and method
US10423700B2 (en) 2016-03-16 2019-09-24 Kabushiki Kaisha Toshiba Display assist apparatus, method, and program
WO2019031268A1 (ja) * 2017-08-09 2019-02-14 ソニー株式会社 情報処理装置、及び情報処理方法
JPWO2019031268A1 (ja) * 2017-08-09 2020-09-10 ソニー株式会社 情報処理装置、及び情報処理方法
JP7230806B2 (ja) 2017-08-09 2023-03-01 ソニーグループ株式会社 情報処理装置、及び情報処理方法
KR20210024408A (ko) * 2019-08-16 2021-03-05 베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드 오디오 처리 방법, 장치 및 저장 매체
KR102300257B1 (ko) * 2019-08-16 2021-09-10 베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드 오디오 처리 방법, 장치 및 저장 매체
US11264027B2 (en) 2019-08-16 2022-03-01 Beijing Xiaomi Mobile Software Co., Ltd. Method and apparatus for determining target audio data during application waking-up

Also Published As

Publication number Publication date
US9672820B2 (en) 2017-06-06
US20150081272A1 (en) 2015-03-19
JP6235280B2 (ja) 2017-11-22
CN104464734A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
JP6235280B2 (ja) 音声同時処理装置、方法およびプログラム
US11182122B2 (en) Voice control of computing devices
US11594215B2 (en) Contextual voice user interface
US9934777B1 (en) Customized speech processing language models
US10503468B2 (en) Voice enabling applications
US10448115B1 (en) Speech recognition for localized content
US9640175B2 (en) Pronunciation learning from user correction
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US20140163985A1 (en) Multi-Stage Speaker Adaptation
US20110218805A1 (en) Spoken term detection apparatus, method, program, and storage medium
JP7092953B2 (ja) エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析
US20160118039A1 (en) Sound sample verification for generating sound detection model
JP2013206253A (ja) 機械翻訳装置、方法、およびプログラム
JP6011565B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP2016057986A (ja) 音声翻訳装置、方法およびプログラム
US11074909B2 (en) Device for recognizing speech input from user and operating method thereof
JP2016062357A (ja) 音声翻訳装置、方法およびプログラム
US10535339B2 (en) Recognition result output device, recognition result output method, and computer program product
KR20210001937A (ko) 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법
Hu et al. Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models
JP2015201215A (ja) 機械翻訳装置、方法、およびプログラム
KR102580904B1 (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
JP6391925B2 (ja) 音声対話装置、方法およびプログラム
JP6599914B2 (ja) 音声認識装置、音声認識方法およびプログラム
JP2013182261A (ja) 適応化装置、音声認識装置、およびそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171026

R151 Written notification of patent or utility model registration

Ref document number: 6235280

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350