JP2009210879A - 処理単位分割装置、処理単位分割方法、及びプログラム - Google Patents

処理単位分割装置、処理単位分割方法、及びプログラム Download PDF

Info

Publication number
JP2009210879A
JP2009210879A JP2008054718A JP2008054718A JP2009210879A JP 2009210879 A JP2009210879 A JP 2009210879A JP 2008054718 A JP2008054718 A JP 2008054718A JP 2008054718 A JP2008054718 A JP 2008054718A JP 2009210879 A JP2009210879 A JP 2009210879A
Authority
JP
Japan
Prior art keywords
information
unit
teacher
morpheme
fundamental frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008054718A
Other languages
English (en)
Inventor
Toru Shimizu
徹 清水
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2008054718A priority Critical patent/JP2009210879A/ja
Publication of JP2009210879A publication Critical patent/JP2009210879A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】発話を処理単位に分割する際に、ポーズをともなわない処理単位への分割の精度を向上できる処理単位分割装置を提供する。
【解決手段】発話に応じたテキストの形態素列情報を受け付ける形態素列情報受付部14と、前記発話された音声から抽出された基本周波数のフレーズ成分に関する基本周波数情報を受け付ける基本周波数情報受付部16と、教師テキストデータが形態素に分割された教師形態素列情報と、教師テキストデータの分割位置を示す教師分割情報と、教師基本周波数情報とを有する教師データが記憶される教師データ記憶部18と、教師データを学習し、形態素列情報と、基本周波数情報とを用いて、形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す分割情報を構成する分割部19と、分割情報を出力する出力部20と、を備える。
【選択図】図1

Description

本発明は、発話された音声に対応するテキストデータを処理単位に分割する処理単位分割装置等に関する。
話し言葉は、話者が長く話し続けることから、区切りが明確でない、一文が長くなるなどの特徴がある。そのため、従来、話し言葉を適切な単位に分割する試みが行われてきていた。そのような方法の一つとして、話し言葉の間に挿入されるポーズを用いて、話し言葉を分割する方法が開発されている(例えば、非特許文献1参照)。
清水徹、中村哲、「ポーズ情報を考慮した音声翻訳単位の判定手法」、日本音響学会秋季講演論文集、p.49−50、2007年
しかしながら、話し言葉を分割する単位末にポーズをともなう場合に比較して、単位末にポーズをともなわない場合には、話し言葉を分割する単位の判定精度が低いという問題があった。
本発明は、このような問題を解決するためになされたものであり、発話された音声に対応するテキストデータを処理単位に分割する際に、ポーズをともなわない処理単位への分割の精度を向上させることができる処理単位分割装置等を提供することを目的とする。
上記目的を達成するため、本発明による処理単位分割装置は、発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける形態素列情報受付部と、前記発話された音声から抽出された情報であり、当該音声に対応する形態素ごとの基本周波数のフレーズ成分に関する情報である基本周波数情報を受け付ける基本周波数情報受付部と、教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である教師分割情報と、前記教師テキストデータに対応する発話された音声から抽出された、当該音声に対応する形態素ごとの基本周波数のフレーズ成分に関する情報である教師基本周波数情報とを有する教師データが記憶される教師データ記憶部と、前記教師データ記憶部で記憶されている教師データを用いて機械学習を行い、前記形態素列情報受付部が受け付けた形態素列情報と、前記基本周波数情報受付部が受け付けた基本周波数情報とを用いて、前記形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部と、前記分割情報を出力する出力部と、を備えたものである。
このような構成により、発話された音声に対応するテキストデータを処理単位に分割する際に基本周波数情報を用いることによって、ポーズをともなわない処理単位への分割の精度を向上させることができる。
また、本発明による処理単位分割装置では、発話された音声の音声信号を受け付ける音声信号受付部と、前記音声信号受付部が受け付けた音声信号に対して音声認識を行い、前記発話された音声に対応するテキストデータを取得する音声認識部と、前記音声認識部が取得したテキストデータを形態素に分割して前記形態素列情報受付部に渡す形態素解析部と、前記音声信号受付部が受け付けた音声信号から基本周波数のフレーズ成分に関する情報である基本周波数情報を抽出し、前記基本周波数情報受付部に渡す基本周波数情報抽出部と、をさらに備えてもよい。
このような構成により、音声信号に対する音声認識、及び音声認識結果の形態素解析をも処理単位分割装置において行うことができるようになる。その結果、音声信号の受け付けから、テキストデータの処理単位への分割までの一連の処理を処理単位分割装置において実行することができるようになる。
また、本発明による処理単位分割装置では、前記基本周波数情報抽出部は、前記音声信号から時系列に沿った基本周波数を抽出する基本周波数抽出手段と、前記基本周波数抽出手段が抽出した基本周波数を補間する補間手段と、前記補間手段が補間した基本周波数からフレーズ成分を抽出するフレーズ成分抽出手段と、を備えてもよい。
このような構成により、抽出された基本周波数の無声音部分を補間した上で、基本周波数のフレーズ成分を抽出することができる。
また、本発明による処理単位分割装置では、前記フレーズ成分抽出手段は、前記補間手段が補間した基本周波数をスムージングし、スムージング後の基本周波数の極小点を補間することによって、前記音声信号に対応する形態素ごとの基本周波数のフレーズ成分の傾きを算出するものであり、前記基本周波数情報は、前記フレーズ成分抽出手段が算出した形態素ごとの基本周波数のフレーズ成分の傾きを示す情報であってもよい。
このような構成により、基本周波数のフレーズ成分として、スムージング後の基本周波数の極小点を補間したものを用いることができる。
また、本発明による処理単位分割装置では、前記フレーズ成分抽出手段は、前記スムージング後の基本周波数の極小点を補間することによって、前記音声信号に対応する音素ごとの基本周波数のフレーズ成分の傾きを算出し、前記音声信号に対応する形態素ごとの基本周波数のフレーズ成分の傾きを、当該形態素に対応する音素のフレーズ成分の傾きの平均として算出してもよい。
このような構成により、形態素ごとの傾きを適切に算出することができうるものと考えられる。
また、本発明による処理単位分割装置では、前記形態素列情報受付部が受け付けた形態素列情報に対応する音声における発話のない区間であり、あらかじめ決められた時間の長さ以上の区間であるポーズを検出するポーズ検出部をさらに備え、前記教師データは、前記教師テキストデータに対応する音声に含まれるポーズの前記教師テキストデータにおける位置を少なくとも示す情報である教師ポーズ情報をも有するものであり、前記分割部は、処理単位の分割位置であるかどうかを判断する形態素の位置に、前記ポーズ検出部が検出したポーズが存在する場合には、前記教師ポーズ情報を用いた機械学習の結果と、前記ポーズ検出部が検出したポーズに関する情報であるポーズ情報とを用いた判断を行い、処理単位の分割位置であるかどうかを判断する形態素の位置に、前記ポーズ検出部が検出したポーズが存在しない場合には、前記教師ポーズ情報を用いない機械学習の結果を用いて判断を行ってもよい。
このような構成により、ポーズの有無に応じて用いる機械学習の結果や、機械学習で用いる素性を変更することによって、ポーズの有無に応じたより適切な判断を行うことができる。その結果として、判断の精度を向上させることができる。
また、本発明による処理単位分割装置では、前記ポーズ情報、及び前記教師ポーズ情報はそれぞれ、ポーズの位置を示す情報と、ポーズの長さを示す情報とを有してもよい。
このような構成により、ポーズをともなう処理単位への分割について、より精度の高い処理を行うことができると考えられうる。
また、本発明による処理単位分割装置では、前記形態素列情報、及び前記教師形態素列情報はそれぞれ、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素ごとに対応付けて有する情報であってもよい。
このような構成により、より精度の高い処理を行うことができると考えられうる。
また、本発明による処理単位分割装置では、前記処理単位は、テキストデータを目的言語に翻訳するための翻訳単位であってもよい。
このような構成により、原言語のテキストデータを、適切な翻訳単位に分割することが可能となりうる。その結果、翻訳の結果もより適切なものになると考えられうる。
本発明による処理単位分割装置等によれば、発話された音声に対応するテキストデータを処理単位に分割する際に、ポーズをともなわない処理単位への分割の精度を向上させることができる。
以下、本発明による処理単位分割装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。
(実施の形態1)
本発明の実施の形態1による処理単位分割装置について、図面を参照しながら説明する。本実施の形態による処理単位分割装置は、発話された音声から抽出した基本周波数のフレーズ成分に関する情報を用いて、発話された音声に対応するテキストデータの処理単位への分割を行うものである。
図1は、本実施の形態による処理単位分割装置1の構成を示すブロック図である。本実施の形態による処理単位分割装置1は、音声信号受付部11と、音声認識部12と、形態素解析部13と、形態素列情報受付部14と、基本周波数情報抽出部15と、基本周波数情報受付部16と、ポーズ検出部17と、教師データ記憶部18と、分割部19と、出力部20とを備える。
音声信号受付部11は、発話された音声の音声信号を受け付ける。この音声信号は、例えば、発話された音声をマイク等で集音して音声信号に変換したものであってもよい。
音声信号受付部11は、例えば、入力デバイス(例えば、マイクなど)から入力された音声信号を受け付けてもよく、有線もしくは無線の通信回線を介して送信された音声信号を受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された音声信号を受け付けてもよい。なお、音声信号受付部11は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、音声信号受付部11は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
音声認識部12は、音声信号受付部11が受け付けた音声信号に対して音声認識を行い、発話された音声に対応するテキストデータを取得する。この音声認識の方法としては、公知のものを用いることができ、その詳細な説明を省略する。音声認識部12は、音声信号から特徴量を抽出し、その特徴量と、音響モデル、辞書情報、言語モデル等を用いて音声認識を行ってもよい。音響モデル等を用いる場合には、図示しない記録媒体において、それらの情報が記憶されていてもよい。
形態素解析部13は、音声認識部12が取得したテキストデータを形態素に分割して形態素列情報受付部14に渡す。この形態素解析の方法としては、公知のものを用いることができ、その詳細な説明を省略する。例えば、この形態素解析の処理のために、「茶筌(ChaSen)」(http://chasen.naist.jp)を用いてもよい。形態素解析部13は、テキストデータを形態素に分割し、各形態素について品詞を特定してもよく、さらに、各形態素について品詞の活用形を特定してもよい。本実施の形態では、形態素解析部13は、各形態素について品詞と活用形とを特定する場合について説明する。
この形態素解析部13から形態素列情報受付部14に渡される、テキストデータが形態素に分割された情報を形態素列情報と呼ぶことにする。前述のように、本実施の形態では、形態素解析部13が各形態素について品詞と活用形とを特定するため、形態素列情報は、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素ごとに対応付けて有する情報となる。形態素解析部13と形態素列情報受付部14とが物理的に同一である場合(例えば、両構成要素がソフトウェアとして実現される場合や、一体のハードウェアとして構成される場合など)には、形態素列情報が形態素列情報受付部14に渡されることは、形態素解析の処理から次の処理に処理フェーズが移ることであってもよい。
また、音声信号がテキストデータに変換される際に、音声信号において発話のない区間に、その発話のない区間の時間の長さを示す情報を付加するようにしてもよい。例えば、音声信号から変換されたテキストデータが、「…おはようございます ただいまご紹介…」であって、「ございます」と「ただいま」の間に2.5秒間の発話のない区間がある場合には、例えば、「…おはようございます(空白2.5秒)ただいまご紹介…」というようにテキストデータを構成してもよい。したがって、形態素列情報に、音声信号において発話のない区間の時間の長さを示す情報が付加されていてもよい。その付加される情報は、例えば、発話のない区間の存在を示す情報(上記の例では、例えば、「空白」の文字である)と、その発話のない区間の時間の長さを示す情報(上記の例では、「2.5秒」である)であってもよく、発話のない区間の時間の長さがわかるのであれば、その他の情報であってもよい。また、その音声信号における発話のない区間の時間の長さを示す情報は、音声信号における発話のない区間に対応する形態素列情報の位置に挿入されてもよい。その情報を付加する処理は、音声認識部12によって行われてもよく、他の構成要素によって行われてもよい。具体的には、音声信号があらかじめ設定されているしきい値のレベルよりも低い連続する区間を検出して、その区間の時間の長さを示す情報を、テキストデータの該当する箇所に挿入するようにしてもよい。
形態素列情報受付部14は、発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける。形態素列情報受付部14は、例えば、音声信号受付部11で受け付けられた音声信号が音声認識され、形態素解析された形態素列情報をリアルタイムで受け付けてもよく(リアルタイム処理)、あるいは、ある程度のまとまった形態素列情報を一括して受け付けてもよい(バッチ処理)。本実施の形態では、後者の場合について説明する。後者の場合には、その形態素列情報が図示しない記録媒体において一時的に記憶されていてもよい。また、前者の場合には、後述するポーズ検出部17は、形態素列情報のみからポーズの検出を行うことが可能となるが、後者の場合には、ポーズ検出部17は、形態素列情報以外の情報をも用いてポーズの検出を行うことになる。なお、前者の場合であっても、ポーズ検出部17は、形態素列情報以外の情報をも用いてポーズの検出を行ってもよい。形態素列情報以外の情報とは、例えば、形態素列情報における発話のない区間に挿入された、発話のない区間の時間の長さを示す情報であってもよく、形態素列情報に対応する音声信号そのものであってもよい。
なお、本実施の形態では、形態素列情報受付部14が形態素列情報を形態素解析部13から受け付ける場合について説明するが、形態素列情報受付部14は、形態素解析部13以外から形態素列情報を受け付けてもよい。例えば、形態素列情報受付部14は、有線もしくは無線の通信回線を介して送信された形態素列情報を受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された形態素列情報を受け付けてもよい。また、形態素列情報受付部14は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、形態素列情報受付部14は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
基本周波数情報抽出部15は、音声信号受付部11が受け付けた音声信号から基本周波数のフレーズ成分に関する情報である基本周波数情報を抽出する。基本周波数とは、発話された音声の高さを数値化したものであり、F0と表示されることもある。この基本周波数についてはすでに公知であり、その詳細な説明を省略する。この基本周波数は、フレーズ成分(イントネーション成分)と、アクセント成分との重ね合わせとして観測されることが知られており、処理単位の判定に寄与するのは、フレーズ成分の方であると考えられる。したがって、基本周波数情報抽出部15は、基本周波数のフレーズ成分に関する情報である基本周波数情報を抽出する。換言すれば、基本周波数情報は、基本周波数からアクセント成分の影響を軽減した情報となる。
本実施の形態では、基本周波数情報抽出部15が、基本周波数抽出手段21と、補間手段22と、フレーズ成分抽出手段23とを備え、それらを用いて基本周波数情報を抽出する場合について説明する。また、本実施の形態では、基本周波数情報が、基本周波数のフレーズ成分の傾きを示す場合について説明する。
基本周波数抽出手段21は、音声信号から時系列に沿った基本周波数を抽出する。この基本周波数の抽出方法は公知であり、その詳細な説明を省略する。基本周波数抽出手段21は、例えば、ケプストラム法や、リフター法、自己相関法等の各種の手法を用いて基本周波数を抽出することができる。
補間手段22は、基本周波数抽出手段21が抽出した基本周波数を補間する。基本周波数抽出手段21によって抽出された基本周波数は、発話された音声のうち、有声音部分の情報であるため、補間手段22は、無声音部分を補間する。この補間は、例えば、線形補間であってもよく、あるいは、その他の補間であってもよい。
フレーズ成分抽出手段23は、補間手段22が補間した基本周波数からフレーズ成分を抽出する。例えば、フレーズ成分抽出手段23は、補間手段22が補間した基本周波数をスムージングする。このスムージングは、高周波数の成分であるアクセント成分の影響を軽減するために行われるものであり、例えば、ローパスフィルタによる高周波数の成分の除去や、フーリエ変換を行った後に低い周波数の成分を残すことなどによって実現することができる。フレーズ成分抽出手段23は、そのスムージング後の基本周波数の極小点を補間する。そして、本実施の形態では、その補間後の直線または曲線を基本周波数のフレーズ成分とする。なお、これ以外のものを基本周波数のフレーズ成分としてもよいことは言うまでもない。フレーズ成分抽出手段23は、その補間後の直線または曲線を用いることによって、音声信号に対応する形態素ごとの基本周波数の傾きを算出する。極小点の補間は、例えば、線形補間であってもよく、あるいは、その他の補間であってもよい。線形補間である場合には、極小点が直線で結ばれることになる。そして、フレーズ成分抽出手段23は、各形態素に対応する補間後の直線または曲線の傾きを、その各形態素の基本周波数のフレーズ成分の傾きとする。一の形態素に対応する基本周波数の時間領域において、極小点を補間した傾きが変化しないのであれば、その一の形態素に対応する基本周波数のフレーズ成分の傾きは、一意に決まる。一方、一の形態素に対応する基本周波数の時間領域において、極小点を補間した傾きが変化する場合には、例えば、その時間領域の先頭の位置における傾きで、その一の形態素の傾きを代表させてもよく、その時間領域の後端の位置における傾きで、その一の形態素の傾きを代表させてもよく、その時間領域における傾きの平均値を、その一の形態素の傾きとしてもよい。その時間領域における傾きの平均値を、その一の形態素の傾きとする場合には、フレーズ成分抽出手段23は、スムージング後の基本周波数の極小点を補間することによって、音声信号に対応する音素ごとの基本周波数のフレーズ成分の傾きを算出し、音声信号に対応する形態素ごとの基本周波数のフレーズ成分の傾きを、その形態素に対応する音素のフレーズ成分の傾きの平均として算出してもよい。形態素に対応する音素とは、その形態素に含まれる各文字に対応する音素のことである。この場合には、基本周波数情報は、フレーズ成分抽出手段23が算出した形態素ごとの基本周波数のフレーズ成分の傾きを示す情報となる。
基本周波数情報抽出部15によって抽出された基本周波数情報は、後述する基本周波数情報受付部16に渡される。基本周波数情報抽出部15と基本周波数情報受付部16とが物理的に同一である場合(例えば、両構成要素がソフトウェアとして実現される場合や、一体のハードウェアとして構成される場合など)には、基本周波数情報が基本周波数情報受付部16に渡されることは、基本周波数情報の抽出の処理から次の処理に処理フェーズが移ることであってもよい。
基本周波数情報受付部16は、発話された音声から抽出された情報であり、その音声に対応する形態素ごとの基本周波数のフレーズ成分に関する情報である基本周波数情報を受け付ける。基本周波数情報受付部16は、例えば、音声信号受付部11で受け付けられた音声信号から抽出された基本周波数情報をリアルタイムで受け付けてもよく(リアルタイム処理)、あるいは、ある程度のまとまった基本周波数情報を一括して受け付けてもよい(バッチ処理)。本実施の形態では、後者の場合について説明する。後者の場合には、その基本周波数情報が図示しない記録媒体において一時的に記憶されていてもよい。
なお、本実施の形態では、基本周波数情報受付部16が基本周波数情報を基本周波数情報抽出部15から受け付ける場合について説明するが、基本周波数情報受付部16は、基本周波数情報抽出部15以外から基本周波数情報を受け付けてもよい。例えば、基本周波数情報受付部16は、有線もしくは無線の通信回線を介して送信された基本周波数情報を受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された基本周波数情報を受け付けてもよい。また、基本周波数情報受付部16は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、基本周波数情報受付部16は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
ポーズ検出部17は、ポーズを検出する。ポーズとは、形態素列情報受付部14が受け付けた形態素列情報に対応する音声における発話のない区間であり、あらかじめ決められた時間の長さ以上の区間である。ポーズ検出部17がポーズを検出する際に用いる「あらかじめ決められた時間の長さ」は、例えば、0.2秒の時間であってもよく、それ以外の適切な時間であってもよい。前述のように、ポーズ検出部17は、形態素列情報を用いてポーズの検出を行ってもよく、それ以外の情報を用いてポーズの検出を行ってもよい。音声信号の受け付けや音声認識、形態素解析の処理がリアルタイムで行われる場合には、順次受け付けられる形態素列情報を用いることによって、ポーズ検出部17はポーズの検出を行うことができうる。ポーズ検出部17は、例えば、あらかじめ決められた長さ以上の期間、形態素の情報が形態素列情報受付部14で受け付けられない場合に、ポーズを検出してもよい。より具体的には、ポーズ検出部17は、ある形態素列情報が受け付けられてから、次の形態素列情報が受け付けられるまでの時間を、タイマ等を用いて計測しておき、その計測した時間が予め決められた時間の長さ以上となった場合に、ポーズを検出してもよい。一方、それらの処理がリアルタイムで行われない場合には、例えば、ポーズ検出部17は、形態素列情報に対応する音声信号そのものを参照して、ポーズの検出を行ってもよい。ポーズ検出部17は、例えば、音声信号を参照し、音声のレベルがあらかじめ決められているしきい値以下の状態があらかじめ決められている時間の長さ以上継続している場合に、ポーズを検出してもよい。本実施の形態では、このようにしてポーズを検出する場合について説明する。この場合には、音声信号におけるポーズの位置と、形態素列情報におけるポーズの位置との対応をとる処理を行う必要がある。形態素列情報におけるポーズの位置を特定するためである。その処理は、例えば、音声信号においてポーズの位置に所定のマーカを付与しておき、そのマーカの位置を音声認識や形態素解析の際にも維持することによって行ってもよい。また、形態素列情報に、音声信号において発話のない区間の時間の長さを示す情報が付加されていている場合には、ポーズ検出部17は、その情報を参照し、その発話のない区間の長さと、あらかじめ設定されているしきい値の長さとを比較することによって、ポーズの検出を行ってもよい。
ポーズ検出部17は、検出したポーズに関する情報であるポーズ情報を生成してもよい。そのポーズ情報は、例えば、ポーズの位置を示す情報であってもよく、あるいは、ポーズの位置を示す情報と、ポーズの長さを示す情報とを有する情報であってもよい。本実施の形態では、後者の場合について説明する。なお、ポーズの長さとは、ポーズの時間的な長さである。
教師データ記憶部18では、教師データが記憶される。ここで、教師データは、教師形態素列情報と、教師分割情報と、教師基本周波数情報と、教師ポーズ情報とを有する。教師形態素列情報は、教師テキストデータが形態素に分割された情報である。教師テキストデータも、発話された音声に対応するテキストデータである。教師形態素列情報は、前述の形態素列情報と同様のものであり、例えば、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素ごとに対応付けて有する情報であってもよい。教師分割情報は、教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である。この教師分割情報は、例えば、教師テキストデータを人手によって分割することによって作成されるものである。教師基本周波数情報は、教師テキストデータに対応する発話された音声から抽出された、その音声に対応する形態素ごとの基本周波数のフレーズ成分に関する情報である。この教師基本周波数情報も、前述の基本周波数情報と同様に、例えば、教師テキストデータに対応する音声から基本周波数を抽出し、その抽出した基本周波数を補間し、その補間後の基本周波数からフレーズ成分を抽出することによって生成してもよい。フレーズ成分の抽出については、フレーズ成分抽出手段23によるフレーズ成分の抽出に関する説明と同様であるとする。教師ポーズ情報は、教師テキストデータに対応する音声に含まれるポーズの教師テキストデータにおける位置を少なくとも示す情報である。教師ポーズ情報は、ポーズの位置を示す情報であってもよく、ポーズの位置を示す情報と、ポーズの長さを示す情報とを有する情報であってもよい。本実施の形態では、後者の場合について説明する。ポーズの長さとは、ポーズの時間的な長さである。
処理単位とは、例えば、テキストデータを目的言語に翻訳するための翻訳単位であってもよく、テキストデータを字幕に表示する単位であってもよく、講演をリアルタイムで音声認識している際に、その音声認識後のテキストを講演の聴衆に提示する単位であってもよく、あるいは、その他の処理単位であってもよい。本実施の形態では、処理単位が翻訳単位である場合について説明する。なお、字幕に表示する単位等にテキストデータを分割するために、処理単位分割装置1による処理を実行する場合であっても、翻訳単位に分割する処理を行い、その翻訳単位でテキストデータを字幕に表示する処理等を行ってもよい。
処理単位が翻訳単位である場合には、この教師分割情報は、例えば、プロの翻訳家(通訳者)が教師形態素列情報に対応する教師テキストデータを翻訳単位に分割した場合における、その分割位置を示す情報である。処理単位が翻訳単位以外である場合には、教師テキストデータをその処理単位に分割すればよい。この教師分割情報は、例えば、教師形態素列情報に挿入された分割記号であってもよく、教師テキストデータにおける位置を示す情報(例えば、ポインタなど)であってもよく、あるいは、その他の情報であってもよい。また、教師分割情報は、結果として分割位置が分かる情報であればよく、例えば、分割位置の箇所を特定するための情報であってもよく、分割位置でない箇所を特定するための情報であってもよく、分割位置の箇所と、分割位置でない箇所との両方を特定するための情報であってもよい。なお、後述する分割情報についても同様であるとする。
教師データ記憶部18に教師データが記憶される過程は問わない。例えば、記録媒体を介して教師データが教師データ記憶部18で記憶されるようになってもよく、通信回線等を介して送信された教師データが教師データ記憶部18で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された教師データが教師データ記憶部18で記憶されるようになってもよい。教師データ記憶部18での記憶は、外部のストレージデバイス等から読み出した教師データのRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。教師データ記憶部18は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
分割部19は、教師データ記憶部18で記憶されている教師データを用いて機械学習を行い、形態素列情報受付部14が受け付けた形態素列情報と、基本周波数情報受付部16が受け付けた基本周波数情報とポーズ検出部17が検出したポーズに関する情報であるポーズ情報とを用いて、形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する。分割部19は、処理単位の分割位置であるかどうかを判断する形態素の位置に、ポーズ検出部17が検出したポーズが存在する場合には、教師ポーズ情報を用いた機械学習の結果と、ポーズ検出部17が検出したポーズに関する情報であるポーズ情報とを用いた判断を行い、処理単位の分割位置であるかどうかを判断する形態素の位置に、ポーズ検出部17が検出したポーズが存在しない場合には、教師ポーズ情報を用いない機械学習の結果を用いて判断を行う。処理単位の分割位置であるかどうかを判断する形態素の位置とは、その形態素の前であってもよく、あるいは、その形態素の後であってもよい。
また、処理単位の分割位置であるかどうかを判断する形態素の位置に、ポーズ検出部17が検出したポーズが存在する場合には、分割部19は、教師形態素列情報と、教師分割情報と、教師基本周波数情報と、教師ポーズ情報とを用いた学習を行ってもよく、あるいは、教師形態素列情報と、教師分割情報と、教師ポーズ情報とを用いた学習を行ってもよい。前者の場合には、分割部19は、形態素列情報と、基本周波数情報と、ポーズ情報とを用いて分割情報を構成する。後者の場合には、分割部19は、形態素列情報と、ポーズ情報とを用いて分割情報を構成する。
また、処理単位の分割位置であるかどうかを判断する形態素の位置に、ポーズ検出部17が検出したポーズが存在しない場合には、分割部19は、教師形態素列情報と、教師分割情報と、教師基本周波数情報とを用いた学習を行い、形態素列情報と、基本周波数情報とを用いて分割情報を構成する。
分割部19は、例えば、形態素列情報に対応するテキストデータにおける分割位置を示す情報(例えば、ポインタなど)を分割情報として構成してもよく、判断形態素を識別する情報と、その判断形態素の位置が分割位置であるかどうかを示す情報とを対応付けて有する情報を分割情報として構成してもよく、あるいは、その他の分割位置を示す情報を分割情報として構成してもよい。この分割部19による判断は、判断形態素の位置を順次、1個ずつずらしながら行われる。判断形態素とは、形態素列情報に含まれる形態素であって、その形態素の位置が処理単位の分割位置であるかどうかの判断の対象となる形態素のことである。この判断形態素の位置は、形態素列情報において順次、1個ずつ時間的後方に向かってずらされていくことになる。
分割部19で用いられる機械学習は、例えば、サポートベクターマシン(SVM)による機械学習であってもよく、それ以外の機械学習であってもよい。サポートベクターマシン以外の機械学習は、例えば、最大エントロピーを用いた機械学習や、シンプルベイス法を用いた機械学習等であってもよく、適切な機械学習を行うことができるのであれば、その種類を問わない。なお、本実施の形態では、機械学習がサポートベクターマシンによる機械学習である場合について説明する。例えば、分割部19による分割情報の構成の処理のために、「YamCha」を用いてもよい。「YamCha」については、次の文献を参照されたい。
文献:T.Kudo,Y.Matsumoto,「Chunking with support vector machines」,Proc. of the 2nd meeting North American Chapter of the Association for Computational Linguistics,2001年
分割部19が、ある判断形態素の位置が処理単位の分割位置であると判断したことは、その判断形態素の先頭の位置が分割位置となることであってもよく、その後端の位置が分割位置となることであってもよい。本実施の形態では、前者の場合について説明する。
出力部20は、分割部19が構成した分割情報を出力する。出力部20は、分割情報と共に、形態素列情報そのものや、形態素列情報に対応するテキストデータを出力してもよい。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。この出力が記録媒体への蓄積である場合に、例えば、音声認識後のテキストデータが記憶されている図示しない記録媒体に、分割位置を示す分割情報を、対応する位置に追記することであってもよい。
なお、出力部20は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、出力部20は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
この出力部20によって出力された分割情報の示す分割位置で分割されたテキストデータを用いて、その処理単位ごとの処理が行われることになる。例えば、その処理単位ごとの翻訳が行われることになる。この翻訳は、機械翻訳であることが一般的であるが、人による翻訳であってもよい。いずれの場合であっても、プロの翻訳家によって分割されたのと同様の適切な翻訳単位の分割位置を知ることができるため、精度の高い翻訳を行うことができると考えられる。また、前述のように、その処理単位ごとに字幕を表示してもよく、講演を音声認識したテキストを、その処理単位ごとに提示してもよい。
次に、本実施の形態による処理単位分割装置1の動作について、図3のフローチャートを用いて説明する。
(ステップS101)音声信号受付部11は、音声信号を受け付けたかどうか判断する。そして、音声信号を受け付けた場合には、ステップS102に進み、そうでない場合には、音声信号を受け付けるまでステップS101の処理を繰り返す。
(ステップS102)音声認識部12は、音声信号受付部11が受け付けた音声信号に対する音声認識の処理を行う。
(ステップS103)形態素解析部13は、音声認識の結果であるテキストデータを形態素解析し、形態素列情報受付部14に渡す。形態素列情報受付部14は、形態素解析の結果である形態素列情報を形態素解析部13から受け付ける。
(ステップS104)基本周波数情報抽出部15は、音声信号受付部11が受け付けた音声信号から、基本周波数情報を抽出する。この処理の詳細については、図4のフローチャートを用いて後述する。
(ステップS105)ポーズ検出部17は、ポーズの検出を行う。そして、ポーズが検出された場合には、分割部19にそのポーズに関するポーズ情報を渡す。
(ステップS106)分割部19は、教師データを用いた機械学習を行い、形態素列情報や、基本周波数情報等を用いて分割情報を構成する。この処理の詳細については、図6のフローチャートを用いて後述する。
(ステップS107)出力部20は、分割部19が構成した分割情報を出力する。そして、ステップS101に戻る。
なお、図3のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
図4は、図3のフローチャートにおける基本周波数情報の抽出の処理(ステップS104の処理)の詳細の一例を示す図である。
(ステップS201)基本周波数抽出手段21は、音声信号受付部11が受け付けた音声信号から、基本周波数を抽出する。この基本周波数は、時系列に沿った情報である。
(ステップS202)補間手段22は、基本周波数抽出手段21が抽出した基本周波数の無声音部分を補間する。
(ステップS203)フレーズ成分抽出手段23は、補間後の基本周波数からフレーズ成分を抽出する。そして、図3のフローチャートに戻る。なお、この処理の詳細については、図5のフローチャートを用いて後述する。
図5は、図4のフローチャートにおけるフレーズ成分の抽出の処理(ステップS203の処理)の詳細の一例を示すフローチャートである。
(ステップS301)フレーズ成分抽出手段23は、補間手段22が補間した基本周波数をスムージングする。
(ステップS302)フレーズ成分抽出手段23は、スムージング後の基本周波数の極小点を補間する。ステップS301でのスムージングと、ステップS302での極小点の補間とによって、基本周波数のアクセント成分の影響を軽減することができると考えられる。
(ステップS303)フレーズ成分抽出手段23は、極小点の補間後の波形を用いて、音声信号に対応する音素ごとの基本周波数のフレーズ成分の傾き(すなわち、極小点の補間後の波形の傾き)を算出する。
(ステップS304)フレーズ成分抽出手段23は、ステップS303で算出した音素ごとの基本周波数のフレーズ成分の傾きを用いて、形態素ごとのフレーズ成分の傾きを算出する。例えば、ある形態素に音素A,B,…,Hが含まれる場合には、フレーズ成分抽出手段23は、音素A,B,…,Hのそれぞれに対応する基本周波数のフレーズ成分の傾きの平均値を、音素A,B,…,Hを含む形態素の基本周波数のフレーズ成分の傾きとして算出する。そして、図4のフローチャートに戻る。
図6は、図3のフローチャートにおける分割情報を構成する処理(ステップS106の処理)の詳細の一例を示すフローチャートである。
(ステップS401)分割部19は、教師データ記憶部18で記憶されている、教師形態素列情報、教師分割情報、教師基本周波数情報を用いた機械学習を行い、その機械学習の結果であるモデルを生成する。そのモデルは、図示しない記録媒体に記憶されてもよい。
(ステップS402)分割部19は、教師データ記憶部18で記憶されている、教師形態素列情報、教師分割情報、教師ポーズ情報を用いた機械学習を行い、その機械学習の結果であるモデルを生成する。そのモデルは、図示しない記録媒体に記憶されてもよい。
(ステップS403)分割部19は、カウンタiを1に設定する。
(ステップS404)分割部19は、形態素列情報受付部14が受け付けた形態素列情報に含まれるi番目の形態素の位置にポーズが存在するかどうかを、ポーズ検出部17によって検出されたポーズに関する情報であるポーズ情報を参照することによって判断する。そして、ポーズが存在する場合には、ステップS406に進み、そうでない場合には、ステップS405に進む。
(ステップS405)分割部19は、ポーズ情報を用いないで分割情報を構成する。すなわち、分割部19は、ステップS401で学習した結果のモデルと、形態素列情報と、基本周波数情報とを用いて、i番目の形態素の位置が分割位置であるかどうかを判断する。そして、その判断結果を示す分割情報を構成する。なお、分割部19は、i番目の形態素の位置が分割位置である場合にのみ分割情報を構成してもよく、分割位置でない場合にのみ分割情報を構成してもよく、あるいは、両方の場合に分割情報を構成してもよい。
(ステップS406)分割部19は、ポーズ情報を用いて分割情報を構成する。すなわち、分割部19は、ステップS402で学習した結果のモデルと、形態素列情報と、ポーズ情報とを用いて、i番目の形態素の位置が分割位置であるかどうかを判断する。なお、分割部19は、i番目の形態素の位置が分割位置である場合にのみ分割情報を構成してもよく、分割位置でない場合にのみ分割情報を構成してもよく、あるいは、両方の場合に分割情報を構成してもよい。
(ステップS407)分割部19は、カウンタiを1だけインクリメントする。
(ステップS408)分割部19は、形態素列情報受付部14が受け付けた形態素列情報に、i番目の形態素が存在するかどうか判断する。そして、存在する場合には、ステップS404に戻り、そうでない場合には、図3のフローチャートに戻る。
なお、図6のフローチャートでは、バッチ処理として分割情報を構成する場合について説明したが、リアルタイム処理として分割情報を構成してもよい。その場合には、形態素列情報受付部14が順次受け付ける形態素に対して、分割位置であるかどうかの判断が行われることになる。ただし、その形態素に対応する基本周波数情報の抽出を行わなくてはならず、また、後述する具体例で説明するように、分割位置であるかどうかの判断に、判断対象となる形態素よりも時間的に後の形態素の情報も用いるため、リアルタイム処理の場合であっても、ある程度、先読みをしておく必要がある。
ここで、基本周波数情報を抽出する処理について、図7を参照しながら説明する。図7において、「スムージング前」と記載している離散的な点の集合が、基本周波数抽出手段21によって抽出された基本周波数である(ステップS201)。基本周波数は、一般に母音に対応する有声音から抽出するため、子音に対応する無声音部分が存在しないことになる。したがって、補間手段22によって、その無声音部分を線形補間する(ステップS202)。なお、その補間後の波形は図7に示していない。そして、その無声音部分を補間した後の波形に対して、フーリエ変換を行い、低い周波数(基本周波数の低い周波数ではなく、基本周波数の時間変化における低い周波数)の成分の部分を残すことによって、スムージングを行う(ステップS301)。そのスムージングを行った後の基本周波数の波形が、図7における「スムージング後」で示されている。
その後、フレーズ成分抽出手段23は、スムージング後の波形の極小点を求める。極小点の検出方法としては、例えば、スムージング後の波形の傾きが、負から正に変化する領域における傾きがゼロの位置を検出することによって行われてもよく、あるいは、それ以外の方法によって行われてもよい。フレーズ成分抽出手段23は、その検出した極小値の間を線形補間する(ステップS302)。その線形補間後の波形は、図7における「極小値間の線形補間」で示されている。図7では、参考のために、形態素の境界を縦軸方向の破線により示している。また、処理単位の分割位置も矢印により明示している。それらを参照すると、極小値間の線形補間後の波形の傾きが負から正に変化する位置が処理単位の分割位置となっている可能性が高いことが分かる。したがって、極小値間の線形補間後の傾きの値を用いて機械学習を行うようにしたのである。なお、機械学習時には、素性として、形態素を用いるため、その傾きを形態素ごとの情報にする必要がある。その方法は、前述のように各種の方法があるが、例えば、対応する音素ごとの傾きを求め(ステップS303)、その後に形態素ごとに音素の傾きの平均値を算出する(ステップS304)ことを行ってもよい。
次に、本実施の形態による処理単位分割装置1の動作について、具体例を用いて説明する。この具体例では、教師テキストデータとして、名古屋大学同時通訳データベース(独話)の16講演を用いた。そのデータベースに含まれる形態素数等は図8で示される通りである。
そのデータベースの詳細については、次の文献を参照されたい。
文献:H.Tohyama,S.Matsubara,N.Kawaguchi,Y.Inagaki,「Construction and utilization of Bilingual Speech Corpus for Simultaneous Machine Interpretation Research」,Proc of 9th Europian Conf. on Speech Communication and Technology,2005年
この具体例では、処理単位として翻訳単位を用いる。また、その翻訳単位の分割位置は、次のようにして決められる。まず、上記のデータベースに含まれるテキストデータを、プロの通訳者が分割する。その分割位置は、プロの通訳者がターゲット言語を出力する自然なタイミングとした。この具体例では、3名のプロの通訳者のうち、2名以上が共通に分割位置であると判断した位置が、翻訳単位の分割位置であるとした。平均の翻訳単位の長さは、次文献で提案されているソース言語の語順に近い訳文を出すための単位(平均5.4形態素)よりも長く、平均10.5形態素となった。翻訳単位の約11%は、ポーズをともなわないものである。
文献:笠浩一郎、松原茂樹、稲垣康善、「同時的な日英対話翻訳のための日本語発話文の分割」、電子情報通信学会技術研究報告、NLC2006−56,SP2006−112,p.161−166,2006年
図9は、教師データ記憶部18で記憶されている教師データの一例を示す図である。図9において、教師形態素列情報と、教師ポーズ情報と、教師基本周波数情報と、教師分割情報とが対応付けられている。教師形態素列情報は、表層情報と、品詞情報と、活用形情報とを含んでいる。例えば、表層情報「言う」は、品詞が「動詞−自立」であり、活用形が「基本形」であることが示されている。教師ポーズ情報に時間の長さが含まれる場合には、その時間の長さに対応する形態素の後にポーズが存在することを示している。そして、そのポーズの長さが、その時間の長さによって示される。例えば、形態素「が」にポーズ情報「0.3秒」が対応付けられているため、その形態素「が」の後に0.3秒のポーズが存在することになる。教師基本周波数情報は、前述のように、形態素に対応する基本周波数のフレーズ成分の傾きを示すものである。例えば、形態素「今日」に、教師基本周波数情報「+5」が対応付けられているため、その形態素「今日」に対応する基本周波数のフレーズ成分の傾きが「5」であることが分かる。教師分割情報は、分割位置を示すものである。すなわち、「B」は、その「B」と対応付けられている形態素の先頭が分割位置であることを示す記号である。「I」は、分割位置でないことを示す記号である。図9では、例えば、「私普段から親しく…」の先頭が翻訳単位の分割位置であることが示されている。
次に、処理単位分割装置1の具体的な動作について説明する。ある講演者の発話した音声がマイクで集音され、あらかじめ図示しない記録媒体において記憶されているものとする。そして、その図示しない記録媒体で記憶されている音声信号が読み出されて、音声信号受付部11で受け付けられ(ステップS101)、順次、音声認識部12で音声認識されて(ステップS102)、形態素解析部13によって形態素解析され、形態素列情報受付部14によって受け付けられる(ステップS103)。
また、音声信号受付部11が受け付けた音声信号に対して、基本周波数情報抽出部15によって、前述のように基本周波数情報の抽出が行われ、基本周波数情報受付部16によって受け付けられる(ステップS104)。
さらに、音声信号受付部11が受け付けた音声信号に対して、ポーズ検出部17によって、ポーズの検出が行われ、その検出されたポーズの位置とポーズの時間とを示すポーズ情報が分割部19に渡される(ステップS105)。
なお、基本周波数情報抽出部15によって抽出された基本周波数情報と、形態素列情報に含まれる形態素、あるいは、ポーズ検出部17によって検出されたポーズに関するポーズ情報と、形態素列情報に含まれる形態素とは、対応がとられていることが好適である。そのため、例えば、形態素列情報、基本周波数情報、ポーズ情報のそれぞれに対して、音声信号のタイムコードが付与されていてもよい。例えば、各形態素の先頭位置と後端位置を示すタイムコードや、基本周波数情報に含まれる各傾きの対応する形態素の先頭位置と後端位置を示すタイムコード、ポーズ情報に対応するポーズの先頭位置と後端位置を示すタイムコードなどが、形態素列情報や、基本周波数情報、ポーズ情報に付与されていてもよい。
図10は、形態素列情報受付部14が受け付けた形態素列情報と、基本周波数情報受付部16が受け付けた基本周波数情報と、ポーズ検出部17が検出したポーズに関するポーズ情報とを示す図である。なお、図10では、形態素列情報と、ポーズ情報と、基本周波数情報とが一つのテーブルとして示されているが、それらの情報は、別々の情報であってもよい。それらの情報が別々の情報である場合であっても、ポーズ情報や、基本周波数情報は、どの形態素に対応する情報であるのかが分かるようになっていることが好適である。例えば、ポーズ情報や、基本周波数情報に、対応する形態素を識別する情報が対応付けられていてもよい。
その後、分割部19は、教師データを用いた機械学習を行い(ステップS401,S402)、図10のレコードごとに、ポーズが存在するかどうかを判断する(ステップS403,S404)。そして、ポーズが存在する場合には、ポーズ情報を用いた学習結果を用いた判断を行い(ステップS406)、ポーズが存在しない場合には、ポーズ情報を用いない学習結果を用いた判断を行う(ステップS405)。そして、分割部19は、図10で示される各レコードに対して、分割情報「B」「I」のいずれが付与されるのかを決定する処理を繰り返して実行する(ステップS404〜S408)。図10で示される各レコードに分割情報「B」「I」を付与する処理が終了すると、分割部19は、付与された分割情報を出力部20に渡す。図11は、分割部19から出力部20に渡された形態素列情報と、分割情報との対応を示す図である。図11では、形態素列情報と、分割情報とが対応付けられた情報を示しているが、図10と同様に、ポーズ情報と、基本周波数情報も、出力部20に渡されてもよい。
出力部20は、分割部19から受け取った形態素列情報のうち、表層情報のみを残し、その表層情報と分割情報とを対応付けた情報を出力する(ステップS107)。図12は、そのようにして出力された表層情報と分割情報との対応を示す図である。
なお、出力部20が図12以外の情報を出力してもよいことは言うまでもない。例えば、図13で示されるように、表層情報をBの区切りごとに改行して表示した情報であってもよい。図13の場合には、行ごとに翻訳を行うことになる。
なお、この具体例では、バッチ処理が行われる場合について説明したが、前述のように、リアルタイム処理として、処理単位に分割する処理を行ってもよい。
次に、本実施の形態による処理単位分割装置1での処理単位の分割の実験について説明し、その効果について説明する。この実験でも、前述の名古屋大学同時通訳データベースに含まれる16の講演に対応したコーパスを用いた。そして、16の講演のうち、1の講演をテストデータとし、残りの15の講演を教師データとして用いて実験を行った。また、データ量が少ないため、テストデータを順番に代えながら、16回繰り返して実験を行う交叉検定を行った。また、機械学習としては、YamChaを用いるものとする。
なお、この実験において、YamChaのパラメータの設定は次の通りである。ある分割情報が「B」「I」のいずれであるかを決定するために、判断形態素の付近の7個の形態素を用いる(その7個には判断形態素も含まれる)。YamChaのstatic feature Fは、次のようにした。
F:−3,−2,−1,0,1,2,3
また、判断形態素よりも前の3個の分類情報も用いる。すなわち、YamChaのdynamic feature T:−3,−2,−1となる。また、この実験において、SVMの多項式カーネルの次数は、2次であり、多クラスの識別(すなわち、「B」「I」の識別)には、pairwise法を用いている。
図14は、その実験結果を示す図である。この実験では、処理単位(翻訳単位)の末にポーズのある場合と、ポーズのない場合とに分けて実験を行った。また、それぞれの場合において、素性として、形態素とポーズ情報を用いる設定、形態素と基本周波数情報(図14では、「F0」としている)を用いる設定、形態素とポーズ情報と基本周波数情報を用いる設定についてそれぞれ実験した。また、比較のために、プロの通訳者の結果も併せて示した。
図14の実験結果から、ポーズをともなう処理単位では、素性としてポーズ情報を用いることが有効であることが分かる。また、その際には、素性に基本周波数情報が含まれるかどうかは、結果に大きな影響を与えないことが分かる。一方、ポーズをともなわない処理単位では、素性として基本周波数情報を用いた方が、素性としてポーズ情報を用いた場合よりも、F値が約0.07改善していることが分かる。したがって、ポーズをともなわない処理単位では、素性としてポーズ情報を用いず、基本周波数情報を用いた方が有効であることが分かった。そのため、本実施の形態で説明したように、ポーズの存在する形態素については、教師ポーズ情報を用いた学習結果(この学習では、教師基本周波数情報を用いていてもよく、用いていなくてもよい)を用いて分割位置の判断を行い、ポーズの存在しない形態素については、教師ポーズ情報を用いないで、教師基本周波数情報を用いた学習結果を用いて分割位置の判断を行えば、分割位置の判断のF値が向上することが分かる。
以上のように、本実施の形態による処理単位分割装置1によれば、発話された音声に対応するテキストデータを処理単位に分割する際に、基本周波数情報を機械学習の素性として用いることによって、ポーズをともなわない処理単位への分割の精度を、機械学習の素性としてポーズを用いた場合よりも向上させることができる。また、判断形態素の位置におけるポーズの有無に応じて、判断で用いる学習結果を変更することによって、全体としてより正確な判断を行うことができるようになる。
なお、本実施の形態では、形態素列情報、及び教師形態素列情報が、表層情報と、品詞情報と、活用形情報とを含む場合について説明したが、これは一例であって、形態素列情報、及び教師形態素列情報は、表層情報と、品詞情報とを含むものであってもよく(この場合には、形態素解析は、形態素への分割と品詞の特定とを行うことになる)、形態素列情報、及び教師形態素列情報は、表層情報のみを含むものであってもよい(この場合には、形態素解析は、形態素への分割のみを行うことになる)。
また、前述のように、形態素列情報受付部14が形態素列情報を形態素解析部13以外から受け付ける場合には、処理単位分割装置1は、形態素解析部13や、音声認識部12、音声信号受付部11を備えていなくてもよい。
また、前述のように、基本周波数情報受付部16が基本周波数情報を基本周波数情報抽出部15以外から受け付ける場合には、処理単位分割装置1は、基本周波数情報抽出部15や、音声信号受付部11を備えていなくてもよい。
また、本実施の形態では、ポーズ情報、及び教師ポーズ情報が、ポーズの位置を示す情報と、ポーズの長さを示す情報とを有する場合について説明したが、これは一例であって、ポーズ情報、及び教師ポーズ情報は、ポーズの位置を示す情報のみであってもよい。
また、本実施の形態では、ポーズ情報や教師ポーズ情報を用いて分割位置の判断を行う場合について説明したが、ポーズ情報や教師ポーズ情報を用いた分割位置の判断を行わなくてもよい。ポーズ情報や教師ポーズ情報を用いた分割位置の判断を行わない場合には、処理単位分割装置1は、ポーズ検出部17を備えていなくてもよく、また、教師データに教師ポーズ情報が含まれていなくてもよい。
また、前述のように、基本周波数情報抽出部15による基本周波数情報の抽出方法は、前述のものに限定されるものではなく、基本周波数のフレーズ成分に関する情報である基本周波数情報を適切に抽出することができるのであれば、基本周波数情報抽出部15は、その他の方法を用いて基本周波数情報を抽出してもよい。例えば、基本周波数情報抽出部15は、藤崎モデルを用いて、基本周波数のフレーズ成分を抽出する処理を行ってもよい。その場合に、基本周波数情報は、抽出されたフレーズ成分の傾きであってもよく、あるいは、その他の情報であってもよい。
また、本実施の形態では、処理対象のテキストデータが日本語である場合、すなわち、日本語に関する処理単位の分割位置の判断を行う場合について説明したが、処理対象のテキストデータの言語は問わない。処理対象のテキストデータは、例えば、英語やフランス語、中国語、韓国語等であってもよい。処理対象のテキストデータが英語等である場合に、形態素列情報は、例えば、単語の列を示す情報であってもよい。その場合には、その単語の列を示す情報は、スペースで分かち書きされた単語の列であってもよい。
また、上記実施の形態では、処理単位分割装置1がスタンドアロンである場合について説明したが、処理単位分割装置1は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部や受付部は、通信回線を介して入力を受け付けたり、画面を出力したりすることになる。
また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。
また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。
また、上記実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いるしきい値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していない場合であっても、ユーザが適宜、それらの情報を変更できるようにしてもよく、あるいは、そうでなくてもよい。それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。
また、上記実施の形態において、処理単位分割装置1に含まれる2以上の構成要素が通信デバイスや入力デバイス等を有する場合に、2以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。
また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における処理単位分割装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける形態素列情報受付部と、前記発話された音声から抽出された情報であり、当該音声に対応する形態素ごとの基本周波数のフレーズ成分に関する情報である基本周波数情報を受け付ける基本周波数情報受付部と、教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である教師分割情報と、前記教師テキストデータに対応する発話された音声から抽出された、当該音声に対応する形態素ごとの基本周波数のフレーズ成分に関する情報である教師基本周波数情報とを有する教師データが記憶される教師データ記憶部で記憶されている教師データを用いて機械学習を行い、前記形態素列情報受付部が受け付けた形態素列情報と、前記基本周波数情報受付部が受け付けた基本周波数情報とを用いて、前記形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部と、前記分割情報を出力する出力部として機能させるためのものである。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を受け付ける受付部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
図15は、上記プログラムを実行して、上記実施の形態による処理単位分割装置1を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。
図15において、コンピュータシステム900は、CD−ROM(Compact Disk Read Only Memory)ドライブ905、FD(Floppy(登録商標) Disk)ドライブ906を含むコンピュータ901と、キーボード902と、マウス903と、モニタ904とを備える。
図16は、コンピュータシステム900の内部構成を示す図である。図16において、コンピュータ901は、CD−ROMドライブ905、FDドライブ906に加えて、MPU(Micro Processing Unit)911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)913と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク914と、MPU911、ROM912等を相互に接続するバス915とを備える。なお、コンピュータ901は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
コンピュータシステム900に、上記実施の形態による処理単位分割装置1の機能を実行させるプログラムは、CD−ROM921、またはFD922に記憶されて、CD−ROMドライブ905、またはFDドライブ906に挿入され、ハードディスク914に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ901に送信され、ハードディスク914に記憶されてもよい。プログラムは実行の際にRAM913にロードされる。なお、プログラムは、CD−ROM921やFD922、またはネットワークから直接、ロードされてもよい。
プログラムは、コンピュータ901に、上記実施の形態による処理単位分割装置1の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上より、本発明による処理単位分割装置等によれば、発話された音声に対応するテキストデータを処理単位に分割する際に、ポーズをともなわない処理単位への分割の精度を向上させることができ、テキストデータを処理単位に分割するシステム等として有用である。
本発明の実施の形態1による処理単位分割装置の構成を示すブロック図 本発明の実施の形態1による処理単位分割装置の構成を示すブロック図 同実施の形態による処理単位分割装置の動作を示すフローチャート 同実施の形態による処理単位分割装置の動作を示すフローチャート 同実施の形態による処理単位分割装置の動作を示すフローチャート 同実施の形態による処理単位分割装置の動作を示すフローチャート 同実施の形態における基本周波数情報の抽出について説明するための図 同実施の形態で用いる教師テキストデータに関する情報を示す図 同実施の形態における教師データの一例を示す図 同実施の形態における形態素列情報等の一例を示す図 同実施の形態における形態素列情報と分割情報との対応の一例を示す図 同実施の形態における出力部が出力した情報の一例を示す図 同実施の形態における出力部が出力した情報の一例を示す図 同実施の形態における実験結果の一例を示す図 同実施の形態におけるコンピュータシステムの外観一例を示す模式図 同実施の形態におけるコンピュータシステムの構成の一例を示す図
符号の説明
1 処理単位分割装置
11 音声信号受付部
12 音声認識部
13 形態素解析部
14 形態素列情報受付部
15 基本周波数情報抽出部
16 基本周波数情報受付部
17 ポーズ検出部
18 教師データ記憶部
19 分割部
20 出力部
21 基本周波数抽出手段
22 補間手段
23 フレーズ成分抽出手段

Claims (12)

  1. 発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける形態素列情報受付部と、
    前記発話された音声から抽出された情報であり、当該音声に対応する形態素ごとの基本周波数のフレーズ成分に関する情報である基本周波数情報を受け付ける基本周波数情報受付部と、
    教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である教師分割情報と、前記教師テキストデータに対応する発話された音声から抽出された、当該音声に対応する形態素ごとの基本周波数のフレーズ成分に関する情報である教師基本周波数情報とを有する教師データが記憶される教師データ記憶部と、
    前記教師データ記憶部で記憶されている教師データを用いて機械学習を行い、前記形態素列情報受付部が受け付けた形態素列情報と、前記基本周波数情報受付部が受け付けた基本周波数情報とを用いて、前記形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部と、
    前記分割情報を出力する出力部と、を備えた処理単位分割装置。
  2. 発話された音声の音声信号を受け付ける音声信号受付部と、
    前記音声信号受付部が受け付けた音声信号に対して音声認識を行い、前記発話された音声に対応するテキストデータを取得する音声認識部と、
    前記音声認識部が取得したテキストデータを形態素に分割して前記形態素列情報受付部に渡す形態素解析部と、
    前記音声信号受付部が受け付けた音声信号から基本周波数のフレーズ成分に関する情報である基本周波数情報を抽出し、前記基本周波数情報受付部に渡す基本周波数情報抽出部と、をさらに備えた、請求項1記載の処理単位分割装置。
  3. 前記基本周波数情報抽出部は、
    前記音声信号から時系列に沿った基本周波数を抽出する基本周波数抽出手段と、
    前記基本周波数抽出手段が抽出した基本周波数を補間する補間手段と、
    前記補間手段が補間した基本周波数からフレーズ成分を抽出するフレーズ成分抽出手段と、を備えた、請求項2記載の処理単位分割装置。
  4. 前記フレーズ成分抽出手段は、前記補間手段が補間した基本周波数をスムージングし、スムージング後の基本周波数の極小点を補間することによって、前記音声信号に対応する形態素ごとの基本周波数のフレーズ成分の傾きを算出するものであり、
    前記基本周波数情報は、前記フレーズ成分抽出手段が算出した形態素ごとの基本周波数のフレーズ成分の傾きを示す情報である、請求項3記載の処理単位分割装置。
  5. 前記フレーズ成分抽出手段は、前記スムージング後の基本周波数の極小点を補間することによって、前記音声信号に対応する音素ごとの基本周波数のフレーズ成分の傾きを算出し、前記音声信号に対応する形態素ごとの基本周波数のフレーズ成分の傾きを、当該形態素に対応する音素のフレーズ成分の傾きの平均として算出する、請求項4記載の処理単位分割装置。
  6. 前記形態素列情報受付部が受け付けた形態素列情報に対応する音声における発話のない区間であり、あらかじめ決められた時間の長さ以上の区間であるポーズを検出するポーズ検出部をさらに備え、
    前記教師データは、前記教師テキストデータに対応する音声に含まれるポーズの前記教師テキストデータにおける位置を少なくとも示す情報である教師ポーズ情報をも有するものであり、
    前記分割部は、処理単位の分割位置であるかどうかを判断する形態素の位置に、前記ポーズ検出部が検出したポーズが存在する場合には、前記教師ポーズ情報を用いた機械学習の結果と、前記ポーズ検出部が検出したポーズに関する情報であるポーズ情報とを用いた判断を行い、処理単位の分割位置であるかどうかを判断する形態素の位置に、前記ポーズ検出部が検出したポーズが存在しない場合には、前記教師ポーズ情報を用いない機械学習の結果を用いて判断を行う、請求項1から請求項5のいずれか記載の処理単位分割装置。
  7. 前記ポーズ情報、及び前記教師ポーズ情報はそれぞれ、ポーズの位置を示す情報と、ポーズの長さを示す情報とを有する、請求項6記載の処理単位分割装置。
  8. 前記形態素列情報、及び前記教師形態素列情報はそれぞれ、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素ごとに対応付けて有する情報である、請求項1から請求項7のいずれか記載の処理単位分割装置。
  9. 前記機械学習は、サポートベクターマシンによる機械学習である、請求項1から請求項8のいずれか記載の処理単位分割装置。
  10. 前記処理単位は、テキストデータを目的言語に翻訳するための翻訳単位である、請求項1から請求項9のいずれか記載の処理単位分割装置。
  11. 形態素列情報受付部と、基本周波数情報受付部と、教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である教師分割情報と、前記教師テキストデータに対応する発話された音声から抽出された、当該音声に対応する形態素ごとの基本周波数のフレーズ成分に関する情報である教師基本周波数情報とを有する教師データが記憶される教師データ記憶部と、分割部と、出力部とを用いて処理される処理単位分割方法であって、
    前記形態素列情報受付部が、発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける形態素列情報受付ステップと、
    前記基本周波数情報受付部が、前記発話された音声から抽出された情報であり、当該音声に対応する形態素ごとの基本周波数のフレーズ成分に関する情報である基本周波数情報を受け付ける基本周波数情報受付ステップと、
    前記分割部が、前記教師データ記憶部で記憶されている教師データを用いて機械学習を行い、前記形態素列情報受付ステップで受け付けた形態素列情報と、前記基本周波数情報受付ステップで受け付けた基本周波数情報とを用いて、前記形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割ステップと、
    前記出力部が、前記分割情報を出力する出力ステップと、を備えた処理単位分割方法。
  12. コンピュータを、
    発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける形態素列情報受付部と、
    前記発話された音声から抽出された情報であり、当該音声に対応する形態素ごとの基本周波数のフレーズ成分に関する情報である基本周波数情報を受け付ける基本周波数情報受付部と、
    教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である教師分割情報と、前記教師テキストデータに対応する発話された音声から抽出された、当該音声に対応する形態素ごとの基本周波数のフレーズ成分に関する情報である教師基本周波数情報とを有する教師データが記憶される教師データ記憶部で記憶されている教師データを用いて機械学習を行い、前記形態素列情報受付部が受け付けた形態素列情報と、前記基本周波数情報受付部が受け付けた基本周波数情報とを用いて、前記形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部と、
    前記分割情報を出力する出力部として機能させるためのプログラム。
JP2008054718A 2008-03-05 2008-03-05 処理単位分割装置、処理単位分割方法、及びプログラム Pending JP2009210879A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008054718A JP2009210879A (ja) 2008-03-05 2008-03-05 処理単位分割装置、処理単位分割方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008054718A JP2009210879A (ja) 2008-03-05 2008-03-05 処理単位分割装置、処理単位分割方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2009210879A true JP2009210879A (ja) 2009-09-17

Family

ID=41184091

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008054718A Pending JP2009210879A (ja) 2008-03-05 2008-03-05 処理単位分割装置、処理単位分割方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2009210879A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366173B2 (en) 2016-09-09 2019-07-30 Electronics And Telecommunications Research Institute Device and method of simultaneous interpretation based on real-time extraction of interpretation unit

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366173B2 (en) 2016-09-09 2019-07-30 Electronics And Telecommunications Research Institute Device and method of simultaneous interpretation based on real-time extraction of interpretation unit

Similar Documents

Publication Publication Date Title
Gubian et al. Using functional data analysis for investigating multidimensional dynamic phonetic contrasts
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
US10650810B2 (en) Determining phonetic relationships
US7921014B2 (en) System and method for supporting text-to-speech
JP2008210132A (ja) 原言語による音声を目的言語に翻訳する装置、方法およびプログラム
JP2015532447A (ja) テキストを修正するための方法、システム、およびコンピュータ・プログラム
Ekpenyong et al. Statistical parametric speech synthesis for Ibibio
US9558733B1 (en) Audibly indicating secondary content with spoken text
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
Cheng et al. Articulatory limit and extreme segmental reduction in Taiwan Mandarin
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP6028556B2 (ja) 対話制御方法及び対話制御用コンピュータプログラム
JP5451982B2 (ja) 支援装置、プログラムおよび支援方法
JP7110055B2 (ja) 音声合成システム、及び音声合成装置
Laurinčiukaitė et al. Lithuanian Speech Corpus Liepa for development of human-computer interfaces working in voice recognition and synthesis mode
JP2010169973A (ja) 外国語学習支援システム、及びプログラム
JP2009210879A (ja) 処理単位分割装置、処理単位分割方法、及びプログラム
Ni et al. Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin
JP2009058671A (ja) 処理単位分割装置、処理単位分割方法、プログラム、及びデータ構造
JP2008269122A (ja) 処理単位分割装置、処理単位分割方法、及びプログラム
JP6442982B2 (ja) 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム
US11250837B2 (en) Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models
JP7409475B2 (ja) 発話終端検出装置、制御方法、及びプログラム
JP6213217B2 (ja) 音声合成装置及び音声合成用コンピュータプログラム