JP2009058671A - 処理単位分割装置、処理単位分割方法、プログラム、及びデータ構造 - Google Patents

処理単位分割装置、処理単位分割方法、プログラム、及びデータ構造 Download PDF

Info

Publication number
JP2009058671A
JP2009058671A JP2007224686A JP2007224686A JP2009058671A JP 2009058671 A JP2009058671 A JP 2009058671A JP 2007224686 A JP2007224686 A JP 2007224686A JP 2007224686 A JP2007224686 A JP 2007224686A JP 2009058671 A JP2009058671 A JP 2009058671A
Authority
JP
Japan
Prior art keywords
morpheme
information
morphemes
unit
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007224686A
Other languages
English (en)
Inventor
Toru Shimizu
徹 清水
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2007224686A priority Critical patent/JP2009058671A/ja
Publication of JP2009058671A publication Critical patent/JP2009058671A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】ポーズを含む発話を処理単位に分割する処理単位分割装置を提供する。
【解決手段】発話に応じたテキストの形態素列情報を受け付ける形態素列情報受付部14、教師テキストの教師形態素列情報及び教師テキストの分割位置を示す教師分割情報を含む教師データを保持する教師データ記憶部17、ポーズを検出するポーズ検出部15、分割位置の判断を行う判断形態素、判断形態素の直前の1以上の先行形態素、及び判断形態素の直後の0以上の後続形態素を、判断形態素とポーズとの間の形態素数と、予め決められた後続形態素数との多くない方の数が後続形態素数となるように決定する決定部16、判断形態素、先行形態素、及び後続形態素を用いて教師データの機械学習により判断形態素の位置が分割位置か判断して分割情報を構成する分割部18、分割情報を出力する出力部19を備える。
【選択図】図1

Description

本発明は、発話された音声に対応するテキストデータを処理単位に分割する処理単位分割装置等に関する。
話し言葉(特に独話)は、話者が長く話し続けることから、区切りが明確でない、一文が長くなるなどの特徴がある。そのため、従来、話し言葉を適切な単位に分割する試みが行われてきていた(例えば、非特許文献1〜4参照)。
西光雅弘、河原達也、高梨克也、「隣接文節間の係り受け情報に着目した話し言葉のチャンキングの評価」、情報処理学会研究報告、SLP−61−4、2006年 西光雅弘、高梨克也、河原達也、「係り受けとポーズ・フィラーの情報を用いた話し言葉の段階的チャンキング」、電子情報通信学会技術研究報告、SP2005−137、NLC2005−104、2005年 笠浩一郎、松原茂樹、稲垣康善、「同時的な日英対話翻訳のための日本語発話文の分割」、電子情報通信学会技術研究報告、NLC2006−56、SP2006−112、2006年 柏岡秀紀、「節境界を考慮した長文の単語アライメント」、言語処理学会第11回年次大会、2005年3月
話し言葉を適切な単位に分割する従来の方法では、その分割境界の前後の形態素情報を利用することがあった。そのような場合に、いいよどみ等によって話し言葉の間にポーズがはいると、ポーズに後続する形態素が確定するまで境界の判定ができないという課題があった。
本発明は、その課題を解決するためになされたものであり、ポーズの含まれる話し言葉を適切な単位に分割することができる処理単位分割装置等を提供することを目的とする。
上記目的を達成するため、本発明による処理単位分割装置は、発話された音声に対応するテキストデータを処理単位に分割する処理単位分割装置であって、発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける形態素列情報受付部と、教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である教師分割情報とを有する教師データが記憶される教師データ記憶部と、前記形態素列情報受付部が受け付けた形態素列情報に対応する音声における発話のない区間であり、あらかじめ決められた時間の長さ以上の区間であるポーズを検出するポーズ検出部と、前記形態素列情報受付部が受け付けた形態素列情報における、処理単位の分割位置であるかどうかを判断する形態素である判断形態素と、前記判断形態素の時間的に直前の1個以上の形態素である先行形態素と、前記判断形態素の時間的に直後の0個以上の形態素である後続形態素とを決定するものであり、前記形態素列情報における、前記判断形態素とポーズ検出部が検出したポーズとの間の形態素数と、あらかじめ決められた後続形態素の数とのうち、多くない方の数を後続形態素の数に決定する決定部と、前記教師データ記憶部で記憶されている教師データを用いて機械学習を行うことにより、前記決定部が決定した前記判断形態素と1個以上の前記先行形態素と0個以上の前記後続形態素とを用いて前記判断形態素の位置が処理単位の分割位置であるかどうかを判断し、前記形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部と、少なくとも前記分割情報を出力する出力部と、を備えたものである。
このような構成により、ポーズが検出された場合に、そのポーズに後続する形態素が確定しなくてもポーズの前の形態素に関する分割位置の判断を行うことができる。その結果、分割位置の判断をより早くすることができ、例えば、リアルタイム処理により適切に対応することができるようになる。
また、本発明による処理単位分割装置では、前記決定部は、先行形態素の数と、後続形態素の数との和が一定数となるように前記先行形態素の数と、前記後続形態素の数とを決定してもよい。
このような構成により、分割位置の判断で用いる形態素の数を一定にすることができる。
また、本発明による処理単位分割装置では、発話された音声から生成された音声信号を受け付ける音声信号受付部と、前記音声信号受付部が受け付けた音声信号に対して音声認識を行い、前記発話された音声に対応するテキストデータを取得する音声認識部と、前記音声認識部が取得したテキストデータを形態素に分割して形態素列情報受付部に渡す形態素解析部と、をさらに備えてもよい。
このような構成により、音声信号に対する音声認識、及び音声認識結果の形態素解析をも処理単位分割装置において行うことができるようになる。その結果、音声信号の受け付けから、テキストデータの処理単位への分割までの一連の処理を処理単位分割装置において実行することができるようになる。
また、本発明による処理単位分割装置では、前記形態素列情報、及び前記教師形態素列情報はそれぞれ、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素ごとに対応付けて有する情報であってもよい。
このような構成により、より精度の高い処理を行うことができると考えられうる。
また、本発明による処理単位分割装置では、前記処理単位は、テキストデータを目的言語に翻訳するための翻訳単位であってもよい。
このような構成により、原言語のテキストデータを、適切な翻訳単位に分割することが可能となりうる。その結果、翻訳の結果もより適切なものになると考えられうる。
また、本発明による処理単位分割装置では、前記ポーズ検出部がポーズを検出する際に用いるあらかじめ決められた時間の長さは、1秒から1.5秒の間の時間であってもよい。
このような構成により、精度を維持しながら、ポーズの前の形態素に関する分割位置の判断を行うことができるようになる。
本発明によるデータ構造は、発話された音声に対応するテキストデータを処理単位に分割する際に用いられるテキストデータのデータ構造であって、発話された音声から生成された音声信号が音声認識され、音声認識結果であるテキストデータが形態素に分割された情報である形態素列情報と、前記音声信号における発話のない区間に対応する形態素列情報の位置に挿入された、当該音声信号における発話のない区間の時間の長さを示す情報と、を含むものである。
このようなデータ構造を用いることにより、音声認識後のテキストデータにおいて、どの位置にどれぐらいの長さの発話のない区間が存在するのかを知ることができる。したがって、そのデータ構造のテキストデータを用いることによって、前述の処理単位分割装置によるポーズの検出を適切に行うことができ、その結果、処理単位の分割位置の判断を適切に行うことができうる。
本発明による処理単位分割装置等によれば、ポーズが検出された場合に、そのポーズに後続する形態素が確定しなくてもポーズの前の形態素に関する分割位置の判断を行うことができる。その結果、分割位置の判断をより早く行うことができる。
以下、本発明による処理単位分割装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。
(実施の形態1)
本発明の実施の形態1による処理単位分割装置について、図面を参照しながら説明する。本実地の形態による処理単位分割装置は、発話された音声に対応するテキストデータの処理単位への分割を、ポーズを検出して行うものである。
図1は、本実施の形態による処理単位分割装置1の構成を示すブロック図である。本実施の形態による処理単位分割装置1は、音声信号受付部11と、音声認識部12と、形態素解析部13と、形態素列情報受付部14と、ポーズ検出部15と、決定部16と、教師データ記憶部17と、分割部18と、出力部19とを備える。
音声信号受付部11は、発話された音声から生成された音声信号を受け付ける。この音声信号は、例えば、発話された音声をマイクロフォン等で集音して音声信号に変換されたものであってもよい。
音声信号受付部11は、例えば、入力デバイス(例えば、マイクロフォンなど)から入力された音声信号を受け付けてもよく、有線もしくは無線の通信回線を介して送信された音声信号を受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された音声信号を受け付けてもよい。本実施の形態では図1で示されるように、音声信号受付部11は、マイクロフォンからの音声信号を受け付けるものとする。なお、音声信号受付部11は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、音声信号受付部11は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
音声認識部12は、音声信号受付部11が受け付けた音声信号に対して音声認識を行い、発話された音声に対応するテキストデータを取得する。この音声認識の方法としては、公知のものを用いることができ、その詳細な説明を省略する。音声認識部12は、音声信号から特徴量を抽出し、その特徴量と、音響モデル、辞書情報、言語モデル等を用いて音声認識を行ってもよい。音響モデル等を用いる場合には、図示しない記録媒体において、それらの情報が記憶されていてもよい。
形態素解析部13は、音声認識部12が取得したテキストデータを形態素に分割して形態素列情報受付部14に渡す。この形態素解析の方法としては、公知のものを用いることができ、その詳細な説明を省略する。例えば、この形態素解析の処理のために、「茶筌(ChaSen)」(http://chasen.naist.jp)を用いてもよい。形態素解析部13は、テキストデータを形態素に分割し、各形態素について品詞を特定してもよく、さらに、各形態素について品詞の活用形を特定してもよい。本実施の形態では、形態素解析部13は、各形態素について品詞と活用形とを特定する場合について説明する。
この形態素解析部13から形態素列情報受付部14に渡される、テキストデータが形態素に分割された情報を形態素列情報と呼ぶことにする。前述のように、本実施の形態では、形態素解析部13が各形態素について品詞と活用形とを特定するため、形態素列情報は、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素ごとに対応付けて有する情報となる。形態素解析部13と形態素列情報受付部14とが物理的に同一である場合(例えば、両構成要素がソフトウェアとして実現される場合や、一体のハードウェアとして構成される場合など)には、形態素列情報が形態素列情報受付部14に渡されることは、形態素解析の処理から次の処理に処理フェーズが移ることであってもよい。
また、音声信号がテキストデータに変換される際に、音声信号において発話のない区間に、その発話のない区間の時間の長さを示す情報を付加するようにしてもよい。例えば、音声信号から変換されたテキストデータが、「…おはようございます ただいまご紹介…」であって、「ございます」と「ただいま」の間に2.5秒間の発話のない区間がある場合には、例えば、「…おはようございます(空白2.5秒)ただいまご紹介…」というようにテキストデータを構成してもよい。したがって、形態素列情報に、音声信号において発話のない区間の時間の長さを示す情報が付加されていてもよい。その付加される情報は、例えば、発話のない区間の存在を示す情報(上記の例では、例えば、「空白」の文字である)と、その発話のない区間の時間の長さを示す情報(上記の例では、「2.5秒」である)であってもよく、発話のない区間の時間の長さがわかるのであれば、その他の情報であってもよい。また、その音声信号における発話のない区間の時間の長さを示す情報は、音声信号における発話のない区間に対応する形態素列情報の位置に挿入されてもよい(例えば、後述する図6参照)。その情報を付加する処理は、音声認識部12によって行われてもよく、他の構成要素によって行われてもよい。具体的には、音声信号があらかじめ設定されているしきい値のレベルよりも低い連続する区間を検出して、その区間の時間の長さを示す情報を、テキストデータの該当する箇所に挿入するようにしてもよい。
形態素列情報受付部14は、発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける。形態素列情報受付部14は、例えば、音声信号受付部11で受け付けられた音声信号が音声認識され、形態素解析された形態素列情報をリアルタイムで受け付けてもよく、あるいは、図示しない記録媒体において蓄積されていた形態素列情報を読み出すことによって受け付けてもよい。本実施の形態では、前者の場合について説明する。前者の場合には、後述するポーズ検出部15は、形態素列情報のみからポーズの検出を行うことが可能となるが、後者の場合には、ポーズ検出部15は、形態素列情報以外の情報をも用いてポーズの検出を行うことになる。なお、前者の場合であっても、ポーズ検出部15は、形態素列情報以外の情報をも用いてポーズの検出を行ってもよい。形態素列情報以外の情報とは、例えば、形態素列情報における発話のない区間に挿入された、発話のない区間の時間の長さを示す情報であってもよく、形態素列情報に対応する音声信号そのものであってもよい。
なお、本実施の形態では、形態素列情報受付部14が形態素列情報を形態素解析部13から受け付ける場合について説明するが、形態素列情報受付部14は、形態素解析部13以外から形態素列情報を受け付けてもよい。例えば、形態素列情報受付部14は、有線もしくは無線の通信回線を介して送信された形態素列情報を受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された形態素列情報を受け付けてもよい。また、形態素列情報受付部14は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、形態素列情報受付部14は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
ポーズ検出部15は、ポーズを検出する。ポーズとは、形態素列情報受付部14が受け付けた形態素列情報に対応する音声における発話のない区間であり、あらかじめ決められた時間の長さ以上の区間である。ポーズ検出部15がポーズを検出する際に用いる「あらかじめ決められた時間の長さ」は、例えば、1秒から1.5秒の間の時間であってもよく、それ以外の適切な時間であってもよい。前述のように、ポーズ検出部15は、形態素列情報を用いてポーズの検出を行ってもよく、それ以外の情報を用いてポーズの検出を行ってもよい。音声信号の受け付けや音声認識、形態素解析の処理がリアルタイムで行われる場合には、順次受け付けられる形態素列情報を用いることによって、ポーズ検出部15はポーズの検出を行うことができうる。ポーズ検出部15は、例えば、あらかじめ決められた長さ以上の期間、形態素の情報が形態素列情報受付部14で受け付けられない場合に、ポーズを検出してもよい。より具体的には、ポーズ検出部15は、ある形態素列情報が受け付けられてから、次の形態素列情報が受け付けられるまでの時間を、タイマ等を用いて計測しておき、その計測した時間が予め決められた時間の長さ以上となった場合に、ポーズを検出してもよい。一方、それらの処理がリアルタイムで行われない場合には、例えば、ポーズ検出部15は、形態素列情報に対応する音声信号そのものを参照して、ポーズの検出を行ってもよい。ポーズ検出部15は、例えば、音声信号を参照し、音声のレベルがあらかじめ決められているしきい値以下の状態があらかじめ決められている時間の長さ以上継続している場合に、ポーズを検出してもよい。この場合には、音声信号におけるポーズの位置と、形態素列情報におけるポーズの位置との対応をとる処理を行う必要がある。形態素列情報におけるポーズの位置を特定するためである。その処理は、例えば、音声信号においてポーズの位置に所定のマーカを付与しておき、そのマーカの位置を音声認識や形態素解析の際にも維持することによって行ってもよい。また、形態素列情報に、音声信号において発話のない区間の時間の長さを示す情報が付加されていている場合には、ポーズ検出部15は、その情報を参照し、その発話のない区間の長さと、あらかじめ設定されているしきい値の長さとを比較することによって、ポーズの検出を行ってもよい。本実施の形態では、このようにしてポーズを検出する場合について説明する。
決定部16は、形態素列情報受付部14が受け付けた形態素列情報における判断形態素と、先行形態素と、後続形態素とを決定する。これらは、後述する分割部18による処理単位への分割の処理の際に用いられるものである。判断形態素とは、処理単位の分割位置であるかどうかを判断する形態素である。この判断形態素の位置は、形態素列情報において順次、1個ずつ時間的後方に向かってずらされていくことになる。したがって、決定部16は、判断形態素の位置を順次、1個ずつずらしながら判断形態素を決定することになる。先行形態素とは、判断形態素の時間的に直前の1個以上の形態素である。先行形態素が2以上の形態素である場合には、それらは連続した隣接する形態素である。後続形態素とは、判断形態素の時間的に直後の0個以上の形態素である。後続形態素が2以上の形態素である場合にも、それらは連続した隣接する形態素である。なお、後続形態素は、後述するように、0個であってもよい。すなわち、後続形態素なしで処理単位への分割の処理が行われてもよい。換言すれば、決定部16は、判断形態素の直後にポーズが存在する場合には、判断形態素と先行形態素とを決定し、判断形態素の直後にポーズが存在するのでない場合には、判断形態素と先行形態素と後続形態素とを決定することになる。決定部16は、判断形態素を決定すると、あとは先行形態素の数と後続形態素の数が決まれば、先行形態素と後続形態素を決定することができる。
決定部16は、形態素列情報における、判断形態素とポーズ検出部15が検出したポーズとの間の形態素数(この形態素数には、判断形態素の数は含まれない。すなわち、判断形態素の次の形態素から、ポーズの直前の形態素までの形態素数である)と、あらかじめ決められた後続形態素の数とのうち、多くない方の数を後続形態素の数に決定する。「多くない方の数」とは、両者が異なる場合には、少ない方の数であり、両者が同数である場合には、その同数の数である。なお、ポーズが検出されなかった場合には、決定部16は、あらかじめ決められた後続形態素の数を後続形態素の数として決定する。ポーズが検出されなかった場合には、判断形態素とポーズとの間の形態素数が無限に大きいと考えられるからである。
決定部16は、先行形態素の数と、後続形態素の数との和が一定数となるように先行形態素の数と、後続形態素の数とを決定してもよく、あるいは、そうでなくてもよい。本実施の形態では、前者の場合について説明する。前者の場合には、後述する分割部18において判断形態素の位置が処理単位の分割位置であるかどうかの判断の際に用いられる形態素数が一定となる。後者の場合には、例えば、先行形態素の数を一定の数に固定してもよく、あるいは、その他の基準に従って先行形態素の数を増減させてもよい。
教師データ記憶部17では、教師データが記憶される。ここで、教師データは、教師形態素列情報と、教師分割情報とを有する。教師形態素列情報は、教師テキストデータが形態素に分割された情報である。教師形態素列情報は、前述の形態素列情報と同様のものであり、例えば、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素ごとに対応付けて有する情報であってもよい。教師分割情報は、教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である。教師テキストデータも、一般に発話された音声に対応するテキストデータである。
処理単位とは、例えば、テキストデータを目的言語に翻訳するための翻訳単位であってもよく、テキストデータを字幕に表示する単位であってもよく、講演をリアルタイムで音声認識している際に、その音声認識後のテキストを講演の聴衆に提示する単位であってもよく、あるいは、その他の処理単位であってもよい。本実施の形態では、処理単位が翻訳単位である場合について説明する。なお、字幕に表示する単位等にテキストデータを分割するために、処理単位分割装置1による処理を実行する場合であっても、翻訳単位に分割する処理を行い、その翻訳単位でテキストデータを字幕に表示する処理等を行ってもよい。
処理単位が翻訳単位である場合には、この教師分割情報は、例えば、プロの翻訳家(通訳者)が教師形態素列情報に対応する教師テキストデータを翻訳単位に分割する。処理単位が翻訳単位以外である場合には、教師テキストデータをその処理単位に分割すればよい。この教師分割情報は、例えば、教師形態素列情報に挿入された分割記号であってもよく、教師テキストデータにおける位置を示す情報(例えば、ポインタなど)であってもよく、あるいは、その他の情報であってもよい。
教師データ記憶部17に情報が記憶される過程は問わない。例えば、記録媒体を介して教師データが教師データ記憶部17で記憶されるようになってもよく、通信回線等を介して送信された教師データが教師データ記憶部17で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された教師データが教師データ記憶部17で記憶されるようになってもよい。教師データ記憶部17での記憶は、外部のストレージデバイス等から読み出した教師データのRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。教師データ記憶部17は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
分割部18は、教師データ記憶部17で記憶されている教師データを用いて機械学習を行うことにより、決定部16が決定した判断形態素と1個以上の先行形態素と0個以上の後続形態素とを用いて判断形態素の位置が処理単位の分割位置であるかどうかを判断し、形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する。なお、その機械学習において、先行形態素の数と後続形態素の数の取り得るパターンに応じて学習を行うものとする。例えば、次のパターン1〜パターン4までを取り得る場合には、分割部18は各パターンについて機械学習を行う。そして、判断形態素の位置が分割位置であるかどうかを判断する場合には、分割部18は、その判断時の先行形態素の数と後続形態素の数に応じたパターンに対応する学習結果のモデルを用いて判断を行うものとする。
パターン1:先行形態素の数=3、後続形態素の数=3
パターン2:先行形態素の数=4、後続形態素の数=2
パターン3:先行形態素の数=5、後続形態素の数=1
パターン4:先行形態素の数=6、後続形態素の数=0
分割部18が、ある判断形態素の位置が処理単位の分割位置であると判断したことは、その判断形態素の先頭の位置が分割位置となることであってもよく、その後端の位置が分割位置となることであってもよい。本実施の形態では、前者の場合について説明する。
分割部18は、例えば、形態素列情報に対応するテキストデータにおける分割位置を示す情報(例えば、ポインタなど)を分割情報として構成してもよく、判断形態素を識別する情報と、その判断形態素の位置が分割位置であるかどうかを示す情報とを対応付けて有する情報を分割情報として構成してもよく、あるいは、その他の分割位置を示す情報を分割情報として構成してもよい。この分割部18による判断は、判断形態素の位置を順次、1個ずつずらしながらなされる。
分割部18で用いられる機械学習は、例えば、サポートベクターマシン(SVM)による機械学習であってもよく、それ以外の機械学習であってもよい。サポートベクターマシン以外の機械学習は、例えば、最大エントロピーを用いた機械学習や、シンプルベイス法を用いた機械学習等であってもよく、適切な機械学習を行うことができるのであれば、その種類を問わない。なお、本実施の形態では、機械学習がサポートベクターマシンによる機械学習である場合について説明する。例えば、分割部18による分割情報の構成の処理のために、「YamCha」を用いてもよい。「YamCha」については、次の文献を参照されたい。
文献:T.kudo,Y.Matsumoto,「Chunking with support vector machines」,Proc. of the 2nd meeting North American Chapter of the Association for Computational Linguistics,2001年
出力部19は、少なくとも、分割部18が構成した分割情報を出力する。出力部19は、分割情報と共に、形態素列情報そのものや、形態素列情報に対応するテキストデータを出力してもよい。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。この出力が記録媒体への蓄積である場合に、例えば、音声認識後のテキストデータが記憶されている図示しない記録媒体に、分割位置を示す分割情報を、対応する位置に追記することであってもよい。
なお、出力部19は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、出力部19は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
この出力部19によって出力された分割情報の示す分割位置で分割されたテキストデータを用いて、その処理単位ごとの処理が行われることになる。例えば、その処理単位ごとの翻訳が行われることになる。この翻訳は、機械翻訳であることが一般的であるが、人による翻訳であってもよい。いずれの場合であっても、プロの翻訳家によって分割されたのと同様の適切な翻訳単位の分割位置を知ることができるため、精度の高い翻訳を行うことができると考えられる。また、前述のように、その処理単位ごとに字幕を表示してもよく、講演を音声認識したテキストを、その処理単位ごとに提示してもよい。
次に、本実施の形態による処理単位分割装置1の動作について、図2のフローチャートを用いて説明する。
(ステップS101)音声信号受付部11は、音声信号を受け付けたかどうか判断する。そして、音声信号を受け付けた場合には、ステップS102に進み、そうでない場合には、音声信号を受け付けるまでステップS101の処理を繰り返す。なお、音声信号受付部11は、例えば、所定の時間間隔ごとに音声信号を受け付けてもよい。
(ステップS102)音声認識部12は、音声信号受付部11が受け付けた音声信号に対する音声認識の処理を行う。
(ステップS103)形態素解析部13は、音声認識の結果であるテキストデータを形態素解析する。
(ステップS104)形態素列情報受付部14は、形態素解析の結果である形態素列情報を形態素解析部13から受け付ける。
(ステップS105)ポーズ検出部15は、ポーズの検出を行う。そして、ポーズが検出された場合には、決定部16にそのポーズの位置を示す情報を渡す。
(ステップS106)決定部16は、各判断形態素について、先行形態素の数と、後続形態素の数とを決定する。この決定の処理については、図3のフローチャートを用いて後述する。
(ステップS107)分割部18は、決定部16によって決定された、各形態素の先行形態素の数と、後続形態素の数とを用いて、判断形態素の位置が処理単位の分割位置であるかどうか判断し、分割情報を構成する。
(ステップS108)出力部19は、分割部18が構成した分割情報を出力する。そして、ステップS101に戻る。
なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。また、図2のフローチャートでは、音声信号受付部11が受け付けた音声信号の単位ごとに、音声認識や形態素解析、ポーズの検出、先行形態素の数等の決定、分割位置であるかどうかの判断が行われる場合について説明したが、そうでなくてもよい。例えば、音声認識の処理においては、音声認識の処理に適切な単位で音声認識処理を行ってもよい。その他の処理についても同様である。例えば、すべての分割情報が構成されてから、それらを一括して出力するようにしてもよい。
そのように、適切な単位で各処理を実行する場合に、図1で示される各構成要素、あるいは、構成要素の間に、情報を記憶しておく図示しない記録媒体が存在してもよい。その図示しない記録媒体での記憶は、一時的なものであってもよく、あるいは、そうでなくてもよい。
また、図2のフローチャートにおいて、分割部18による分割情報の構成の処理(ステップS107)の処理が実行されるまでに、分割部18は、あらかじめ教師データ記憶部17で記憶されている教師データを読み出して機械学習を行っているものとする。
図3は、図2のフローチャートにおける先行形態素の数と、後続形態素の数とを決定する処理の詳細を示すフローチャートである。
(ステップS201)決定部16は、判断形態素の所定の範囲内にポーズが存在するかどうか判断する。すなわち、決定部16は、判断形態素のあとに、あらかじめ決められた後続形態素の数より少ない数の形態素に続いて、ポーズ検出部15によって検出されたポーズが存在するかどうか判断する。例えば、あらかじめ決められた後続形態素の数が「3」である場合に、判断形態素のあとに、2個の形態素を挟んでポーズが存在する場合には、決定部16は、判断形態素の所定の範囲内にポーズが存在すると判断する。そして、判断形態素の所定の範囲内にポーズが存在すると判断した場合には、ステップS202に進み、そうでない場合には、ステップS205に進む。
(ステップS202)決定部16は、後続形態素の数を、判断形態素と、ポーズとの間に存在する形態素の数に決定する。
(ステップS203)決定部16は、先行形態素の数を、先行形態素の数と後続形態素の数の合計数から、ステップS202で決定した後続形態素の数を引いた値に決定する。例えば、両者の合計数が6であり、後続形態素の数が2である場合には、先行形態素の数は4となる。
(ステップS204)決定部16は、未決定の判断形態素、すなわち、先行形態素の数と後続形態素の数をまだ決定していない判断形態素が存在するかどうか判断する。そして、存在する場合には、ステップS201に戻って、その未決定の判断形態素について、後続形態素数等の決定を行い、そうでない場合には、図2のフローチャートに戻る。なお、未決定の判断形態素とは、単に先行形態素の数と後続形態素の数を決定していないだけでなく、先行形態素の数と後続形態素の数を決定できる状態にあるにもかかわらず、いまだにそれらを決定していない判断形態素のことである。例えば、先行形態素の数と後続形態素の数をまだ決定していない判断形態素が存在したとしても、その判断形態素に続く形態素が受け付けられておらず、また、その判断形態素に続くポーズも検出されていない場合には、その判断形態素は、未決定の判断形態素ではないことになる。その判断形態素に関する先行形態素の数と後続形態素の数を決めることはできないからである。
(ステップS205)決定部16は、後続形態素の数をあらかじめ決められた後続形態素の数に決定し、先行形態素の数を、両者の合計数から、あらかじめ決められた後続形態素の数を引いた値に決定する。
ここで、先行形態素の数と後続形態素の数を決定する方法について図4を参照しながら説明する。図4では、形態素列情報として、…「頂い」「て」「おる」「方々」「ばかり」「で」「ござい」「ます」「ので」が形態素列情報受付部14で受け付けられ、その後にポーズ検出部15によってポーズが検出されたとする。また、あらかじめ決められた後続形態素の数が「3」に設定されており、先行形態素の数と後続形態素の数の合計数が「6」に設定されていたとする。
このような状況において、判断形態素が「方々」である場合には、判断形態素のあとの2個以内の形態素に続いてポーズが存在するのではないため(ステップS201)、決定部16は、後続形態素の数を「3」に決定し、先行形態素の数を「3」に決定する(ステップS205)。その結果、図4の△と□で示されるように、先行形態素が「頂い」「て」「おる」に決定され、後続形態素が「ばかり」「で」「ござい」に決定される。
一方、判断形態素が「ござい」である場合には、判断形態素のあとの2個以内の形態素に続いてポーズが存在するため(ステップS201)、決定部16は、後続形態素の数を、判断形態素とポーズとの間の形態素数である「2」に決定する(ステップS202)。また、決定部16は、合計数「6」から後続形態素の数「2」を引くことにより、先行形態素の数「4」を決定する(ステップS203)。その結果、図4で示されるように、先行形態素が「おる」「方々」「ばかり」「で」に決定され、後続形態素が「ます」「ので」に決定される。
次に、本実施の形態による処理単位分割装置1の動作について、具体例を用いて説明する。また、この具体例では、教師テキストデータとして、名古屋大学同時通訳データベース(独話)を用いた。そのデータベースに含まれる文数等は次の通りである。
文数:2024
形態素数(日)、単語数(英):64835
翻訳単位境界数:3768
CBAPによる節境界数:8643
平均文長:30.6
平均翻訳単位長:10.7
平均節長:5.8
そのデータベースの詳細については、次の文献を参照されたい。
文献:H.Tohyama,S.Matsubara,N.kawaguchi,Y.Inagaki,「Construction and utilization of Bilingual Speech Corpus for Simultaneous Machine Interpretation Research」,Proc of 9th Europian Conf. on Speech Communication and Technology,2005年
そのデータベースに含まれる日本語のテキストデータを、プロの通訳者が分割する。図5は、教師データ記憶部17で記憶されている教師データの一例を示す図である。図5において、教師形態素列情報と、教師分割情報とが対応付けられている。教師形態素列情報は、表層情報と、品詞情報と、活用形情報とを含んでいる。例えば、表層情報「言う」は、品詞が「動詞−自立」であり、活用形が「基本形」であることが示されている。教師分割情報は、分割位置を示すものである。すなわち、「B」は、その「B」と対応付けられている形態素の先頭が分割位置であることを示す記号である。「I」は、分割位置でないことを示す記号である。図5では、例えば、「私普段から親しく…」の先頭が翻訳単位の分割位置であることが示されている。なお、「YamCha」を用いる場合には、教師データにおいて、文の区切りを示すために空行を挿入する必要があるため、そのような教師データを用いる必要がある(図5において、文の区切りに空行を挿入すればよい)。
また、あらかじめ、分割部18は、教師データ記憶部17で記憶されている教師データを読み出して、先行形態素の数と後続形態素の数の組合せの取り得る各パターンについて機械学習を行っているものとする。また、1秒以上の発話のない区間をポーズとして検出するものとする。
次に、処理単位分割装置1の具体的な動作について説明する。ある講演者の発話した音声がマイクロフォンで集音され、音声信号受付部11で受け付けられ(ステップS101)、順次、音声認識部12で音声認識されて(ステップS102)、形態素解析部13によって形態素解析され(ステップS103)、形態素列情報受付部14によって受け付けられる(ステップS104)。具体的には、形態素列情報受付部14では、図6で示される形態素列情報の各レコードが順次、受け付けられることになる。なお、図6で示されるように、音声信号において発話のない区間の時間の長さを示す情報が、形態素列情報に付加されているものとする。この情報は、音声認識部12によって付加されたものとする。
その後、ポーズ検出部15は、順次、受け付けられる形態素列情報を参照し、形態素列情報に付加されている、音声信号において発話のない区間の時間の長さを示す情報が1秒以上を示す場合に、その位置のポーズを検出する(ステップS105)。この具体例では、形態素列情報に対応したテキストデータの「おはようございます」「…鈴木でございます」「…お願いします」のあとにポーズが検出される。ポーズ検出部15は、発話のない区間の時間の長さを示す情報がポーズであることを検出した場合には、その発話のない区間の時間の長さを示す情報を、ポーズを示す情報に変更することによって、決定部16にポーズの位置を知らせるようにしてもよい。
また、決定部16は、図4を用いた説明と同様に、そのポーズの直前に位置する後続形態素の数が「0」になるまで、順次、先行形態素の数と後続形態素の数を決定する(ステップS106、ステップS201〜S205)。例えば、判断形態素が「鈴木」に決定された場合には、先行形態素は「いただき」「まし」「た」に決定され、後続形態素は「で」「ござい」「ます」に決定される。また、例えば、判断形態素が「で」に決定された場合には、先行形態素は「いただき」「まし」「た」「鈴木」に決定され、後続形態素は「ござい」「ます」に決定される。決定部16は、例えば、先行形態素「いただき」「まし」「た」、判断形態素「鈴木」、後続形態素「で」「ござい」「ます」という決定結果を分割部18に渡してもよく、あるいは、図4で示されるように、形態素列情報の各形態素に、先行形態素、判断形態素、後続形態素を識別する情報を付加することによって(この場合には、その先行形態素等を識別する情報が、判断形態素の位置をずらすごとに順次、更新されていくことになる)、決定結果を分割部18に知らせるようにしてもよい。
その後、分割部18は、機械学習を行ったデータと、決定部16によって決定された判断形態素ごとの先行形態素の数と後続形態素の数とを用いて、形態素列情報の各レコードに分割情報「B」「I」のいずれが付与されるのかを決定し、それぞれ付与された分割情報を出力部19に渡す(ステップS107)。図7は、分割部18から出力部19に渡された形態素列情報と、分割情報との対応を示す図である。
出力部19は、分割部18から受け取った形態素列情報のうち、表層情報のみを残し、その表層情報と分割情報とを対応付けた情報を出力する(ステップS108)。図8は、そのようにして出力された表層情報と分割情報との対応を示す図である。
なお、出力部19が図8以外の情報を出力してもよいことは言うまでもない。例えば、図9で示されるように、表層情報をBの区切りごとに改行して表示した情報であってもよい。図9の場合には、行ごとに翻訳を行うことになる。
また、この具体例の説明では、説明の便宜上、図2のフローチャートが上から下に1回だけ処理されるかのように説明したが、本来は、図2のフローチャートの各処理が繰り返して実行されることにより、図8や図9で示される出力対象となる情報が順次、構成されることになる。
次に、本実施の形態による処理単位分割装置1での処理単位の分割の実験について説明し、その効果について説明する。この実験でも、前述の名古屋大学同時通訳データベースに含まれる16の講演に対応したコーパスを用いた。そして、16の講演のうち、1の講演をテストデータとし、残りの15の講演を教師データとして用いて実験を行った。また、データ量が少ないため、テストデータを順番に代えながら、16回繰り返して実験を行う交叉検定を行った。また、機械学習としては、YamChaを用いるものとする。
なお、この実験において、YamChaのパラメータの設定は次の通りである。ある分割情報が「B」「I」のいずれであるかを決定するために、判断形態素の付近の7個の形態素を用いる(その7個には判断形態素も含まれる)。なお、前述のように、その7個の形態素の位置は、ポーズの存在する位置に依存して変化することになる(図4の説明参照のこと)。すなわち、YamChaのstatic feature Fは、ポーズの位置に依存して以下のような値を取り得る。
F:−3,−2,−1,0,1,2,3 (後続形態素の数=3の場合)
F:−4,−3,−2,−1,0,1,2 (後続形態素の数=2の場合)
F:−5,−4,−3,−2,−1,0,1 (後続形態素の数=1の場合)
F:−6,−5,−4,−3,−2,−1,0 (後続形態素の数=0の場合)
また、その決定する分割情報よりも前の3個の分類情報も用いる。すなわち、YamChaのdynamic feature T:−3,−2,−1となる。本実験では、この値を固定にしたが、それに限定されるものではない。また、この実験において、SVMの多項式カーネルの次数は、2次であり、多クラスの識別(すなわち、「B」「I」の識別)には、pairwise法を用いている。
図10,図11は、本実験の結果を示すグラフである。図10は、ポーズ検出部15が検出するポーズの長さのしきい値と、F値(判定精度)との関係を示すグラフである。例えば、ポーズの長さのしきい値が0.5秒である場合には、発話のない0.5秒以上の区間がポーズとして検出されることになる。また、図11は、ポーズの長さがしきい値以下の形態素数の累積頻度を示すグラフである。
図10のグラフから、ポーズを検出する際に用いるあらかじめ決められた時間の長さを1秒から1.5秒程度にすることによって、十分な数の後続形態素の数を用いた分割位置の判定と同程度の精度を実現できると共に、1.0〜1.5秒程度の遅れで処理単位の分割位置を決定できることがわかる。また、図11のグラフから、ポーズを検出する際に用いるあらかじめ決められた時間の長さを1秒から1.5秒程度にすることによって、ポーズのあとの形態素が確定するのを待つ場合(すなわち、図11におけるポーズの長さが非常に大きい場合)に比べて、3〜10%程度の頻度で、判定時間遅れを回避した処理単位の分割位置の決定を実現できることがわかる。
最後に、ポーズの直前の後続形態素の数を0にしても判定精度がそれほど下がらないことについて説明する。図12は、後続形態素の数と、F値との関係を示すグラフである。図12のグラフにおいて、処理単位(この場合は音声翻訳単位)の末にポーズが存在するもの(with pause、出現数は2780)、処理単位の末にポーズが存在しないもの(no pause、出現数は988)、その両者をあわせた全体(all、出現数は3768)を分けて表示している。図12のグラフからわかるように、処理単位の末にポーズをともなうものの判定精度は高く、後続形態素の数が0になったとしても、性能劣化が少ないことがわかる。このことから、処理単位の末のポーズをともなう場合には、後続形態素の数を少なくしても、精度よく分割位置の判定を行うことができること、すなわち、本実施の形態による処理単位分割装置1のように、ポーズの直前において後続形態素の数を少なくしたとしても性能があまり劣化しないことがわかる。
以上のように、本実施の形態による処理単位分割装置1によれば、ポーズが検出された場合に、そのポーズのあとの形態素が確定するのを待つことなく、分割位置の判断を行うことができるため、処理単位の分割位置の判断に遅延を生じさせず、分割位置の判断を早く行うことができるようになる。その結果、従来の方法に比べて、より適切にリアルタイム処理に対応することができるようになる。また、ポーズを検出する際に用いられるあらかじめ決められた時間の長さを適切に選択することによって、後続形態素の数の減少に伴う性能劣化を小さくすることも可能となる。
なお、本実施の形態では、形態素列情報、及び教師形態素列情報が、表層情報と、品詞情報と、活用形情報とを含む場合について説明したが、これは一例であって、形態素列情報、及び教師形態素列情報は、表層情報と、品詞情報とを含むものであってもよく(この場合には、形態素解析は、形態素への分割と品詞の特定とを行うことになる)、形態素列情報、及び教師形態素列情報は、表層情報のみを含むものであってもよい(この場合には、形態素解析は、形態素への分割のみを行うことになる)。
また、前述のように、形態素列情報受付部14が形態素列情報を形態素解析部13以外から受け付ける場合には、処理単位分割装置1は、形態素解析部13や、音声認識部12、音声信号受付部11を備えていなくてもよい。
また、本実施の形態では、処理対象のテキストデータが日本語である場合、すなわち、日本語に関する処理単位の分割位置の判断を行う場合について説明したが、処理対象のテキストデータの言語は問わない。処理対象のテキストデータは、例えば、英語やフランス語、中国語、韓国語等であってもよい。処理対象のテキストデータが英語等である場合に、形態素列情報は、例えば、単語の列を示す情報であってもよい。その場合には、その単語の列を示す情報は、スペースで分かち書きされた単語の列であってもよい。
また、上記実施の形態では、処理単位分割装置1がスタンドアロンである場合について説明したが、処理単位分割装置1は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部や受付部は、通信回線を介して入力を受け付けたり、画面を出力したりすることになる。
また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。
また、上記実施の形態において、処理単位分割装置1に含まれる2以上の構成要素が通信デバイスや入力デバイス等を有する場合に、2以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。
また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における処理単位分割装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、発話された音声に対応するテキストデータを処理単位に分割する処理単位分割装置1として機能させるためのプログラムであって、発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける形態素列情報受付部と、前記形態素列情報受付部が受け付けた形態素列情報に対応する音声における発話のない区間であり、あらかじめ決められた時間の長さ以上の区間であるポーズを検出するポーズ検出部と、前記形態素列情報受付部が受け付けた形態素列情報における、処理単位の分割位置であるかどうかを判断する形態素である判断形態素と、前記判断形態素の時間的に直前の1個以上の形態素である先行形態素と、前記判断形態素の時間的に直後の0個以上の形態素である後続形態素とを決定するものであり、前記形態素列情報における、前記判断形態素とポーズ検出部が検出したポーズとの間の形態素数と、あらかじめ決められた後続形態素の数とのうち、多くない方の数を後続形態素の数に決定する決定部と、教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である教師分割情報とを有する教師データを用いて機械学習を行うことにより、前記決定部が決定した前記判断形態素と1個以上の前記先行形態素と0個以上の前記後続形態素とを用いて前記判断形態素の位置が処理単位の分割位置であるかどうかを判断し、前記形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部と、少なくとも前記分割情報を出力する出力部として機能させるためのものである。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を受け付ける受付部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
図13は、上記プログラムを実行して、上記実施の形態による処理単位分割装置1を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。
図13において、コンピュータシステム100は、CD−ROM(Compact Disk Read Only Memory)ドライブ105、FD(Flexible Disk)ドライブ106を含むコンピュータ101と、キーボード102と、マウス103と、モニタ104とを備える。
図14は、コンピュータシステムを示す図である。図14において、コンピュータ101は、CD−ROMドライブ105、FDドライブ106に加えて、CPU(Central Processing Unit)111と、ブートアッププログラム等のプログラムを記憶するためのROM(Read Only Memory)112と、CPU111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)113と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク114と、CPU111、ROM112等を相互に接続するバス115とを備える。なお、コンピュータ101は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
コンピュータシステム100に、上記実施の形態による処理単位分割装置1の機能を実行させるプログラムは、CD−ROM121、またはFD122に記憶されて、CD−ROMドライブ105、またはFDドライブ106に挿入され、ハードディスク114に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ101に送信され、ハードディスク114に記憶されてもよい。プログラムは実行の際にRAM113にロードされる。なお、プログラムは、CD−ROM121やFD122、またはネットワークから直接、ロードされてもよい。
プログラムは、コンピュータ101に、上記実施の形態による処理単位分割装置1の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム100がどのように動作するのかについては周知であり、詳細な説明は省略する。
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上より、本発明による処理単位分割装置等によれば、ポーズが検出された場合に、そのポーズに後続する形態素が確定しなくてもポーズの前の形態素に関する分割位置の判断を行うことができ、テキストデータを処理単位に分割するシステム等として有用である。
本発明の実施の形態1による処理単位分割装置の構成を示すブロック図 同実施の形態による処理単位分割装置の動作を示すフローチャート 同実施の形態による処理単位分割装置の動作を示すフローチャート 同実施の形態における先行形態素数等の決定について説明するための図 同実施の形態における教師データの一例を示す図 同実施の形態における形態素列情報の一例を示す図 同実施の形態における形態素列情報と分割情報との対応の一例を示す図 同実施の形態における出力部が出力した情報の一例を示す図 同実施の形態における出力部が出力した情報の一例を示す図 同実施の形態における検出するポーズの長さのしきい値と、F値との関係を示す図 同実施の形態におけるポーズの長さがしきい値以下の形態素数の累積頻度を示す図 同実施の形態における後続形態素の数と、F値との関係を示す図 同実施の形態におけるコンピュータシステムの外観一例を示す模式図 同実施の形態におけるコンピュータシステムの構成の一例を示す図
符号の説明
1 処理単位分割装置
11 音声信号受付部
12 音声認識部
13 形態素解析部
14 形態素列情報受付部
15 ポーズ検出部
16 決定部
17 教師データ記憶部
18 分割部
19 出力部

Claims (10)

  1. 発話された音声に対応するテキストデータを処理単位に分割する処理単位分割装置であって、
    発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける形態素列情報受付部と、
    教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である教師分割情報とを有する教師データが記憶される教師データ記憶部と、
    前記形態素列情報受付部が受け付けた形態素列情報に対応する音声における発話のない区間であり、あらかじめ決められた時間の長さ以上の区間であるポーズを検出するポーズ検出部と、
    前記形態素列情報受付部が受け付けた形態素列情報における、処理単位の分割位置であるかどうかを判断する形態素である判断形態素と、前記判断形態素の時間的に直前の1個以上の形態素である先行形態素と、前記判断形態素の時間的に直後の0個以上の形態素である後続形態素とを決定するものであり、前記形態素列情報における、前記判断形態素とポーズ検出部が検出したポーズとの間の形態素数と、あらかじめ決められた後続形態素の数とのうち、多くない方の数を後続形態素の数に決定する決定部と、
    前記教師データ記憶部で記憶されている教師データを用いて機械学習を行うことにより、前記決定部が決定した前記判断形態素と1個以上の前記先行形態素と0個以上の前記後続形態素とを用いて前記判断形態素の位置が処理単位の分割位置であるかどうかを判断し、前記形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部と、
    少なくとも前記分割情報を出力する出力部と、を備えた処理単位分割装置。
  2. 前記決定部は、先行形態素の数と、後続形態素の数との和が一定数となるように前記先行形態素の数と、前記後続形態素の数とを決定する、請求項1記載の処理単位分割装置。
  3. 発話された音声から生成された音声信号を受け付ける音声信号受付部と、
    前記音声信号受付部が受け付けた音声信号に対して音声認識を行い、前記発話された音声に対応するテキストデータを取得する音声認識部と、
    前記音声認識部が取得したテキストデータを形態素に分割して形態素列情報受付部に渡す形態素解析部と、をさらに備えた請求項1または請求項2記載の処理単位分割装置。
  4. 前記形態素列情報、及び前記教師形態素列情報はそれぞれ、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素ごとに対応付けて有する情報である、請求項1から請求項3のいずれか記載の処理単位分割装置。
  5. 前記機械学習は、サポートベクターマシンによる機械学習である、請求項1から請求項4のいずれか記載の処理単位分割装置。
  6. 前記処理単位は、テキストデータを目的言語に翻訳するための翻訳単位である、請求項1から請求項5のいずれか記載の処理単位分割装置。
  7. 前記ポーズ検出部がポーズを検出する際に用いるあらかじめ決められた時間の長さは、1秒から1.5秒の間の時間である、請求項1から請求項6のいずれか記載の処理単位分割装置。
  8. 発話された音声に対応するテキストデータを処理単位に分割する処理単位分割方法であって、
    発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける形態素列情報受付ステップと、
    前記形態素列情報受付ステップで受け付けた形態素列情報に対応する音声における発話のない区間であり、あらかじめ決められた時間の長さ以上の区間であるポーズを検出するポーズ検出ステップと、
    前記形態素列情報受付ステップで受け付けた形態素列情報における、処理単位の分割位置であるかどうかを判断する形態素である判断形態素と、前記判断形態素の時間的に直前の1個以上の形態素である先行形態素と、前記判断形態素の時間的に直後の0個以上の形態素である後続形態素とを決定するものであり、前記形態素列情報における、前記判断形態素とポーズ検出ステップで検出したポーズとの間の形態素数と、あらかじめ決められた後続形態素の数とのうち、多くない方の数を後続形態素の数に決定する決定ステップと、
    教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である教師分割情報とを有する教師データを用いて機械学習を行うことにより、前記決定ステップで決定した前記判断形態素と1個以上の前記先行形態素と0個以上の前記後続形態素とを用いて前記判断形態素の位置が処理単位の分割位置であるかどうかを判断し、前記形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割ステップと、
    少なくとも前記分割情報を出力する出力ステップと、を備えた処理単位分割方法。
  9. コンピュータを、
    発話された音声に対応するテキストデータを処理単位に分割する処理単位分割装置として機能させるためのプログラムであって、
    発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける形態素列情報受付部と、
    前記形態素列情報受付部が受け付けた形態素列情報に対応する音声における発話のない区間であり、あらかじめ決められた時間の長さ以上の区間であるポーズを検出するポーズ検出部と、
    前記形態素列情報受付部が受け付けた形態素列情報における、処理単位の分割位置であるかどうかを判断する形態素である判断形態素と、前記判断形態素の時間的に直前の1個以上の形態素である先行形態素と、前記判断形態素の時間的に直後の0個以上の形態素である後続形態素とを決定するものであり、前記形態素列情報における、前記判断形態素とポーズ検出部が検出したポーズとの間の形態素数と、あらかじめ決められた後続形態素の数とのうち、多くない方の数を後続形態素の数に決定する決定部と、
    教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である教師分割情報とを有する教師データを用いて機械学習を行うことにより、前記決定部が決定した前記判断形態素と1個以上の前記先行形態素と0個以上の前記後続形態素とを用いて前記判断形態素の位置が処理単位の分割位置であるかどうかを判断し、前記形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部と、
    少なくとも前記分割情報を出力する出力部として機能させるためのプログラム。
  10. 発話された音声に対応するテキストデータを処理単位に分割する際に用いられるテキストデータのデータ構造であって、
    発話された音声から生成された音声信号が音声認識され、音声認識結果であるテキストデータが形態素に分割された情報である形態素列情報と、
    前記音声信号における発話のない区間に対応する形態素列情報の位置に挿入された、当該音声信号における発話のない区間の時間の長さを示す情報と、を含むデータ構造。
JP2007224686A 2007-08-30 2007-08-30 処理単位分割装置、処理単位分割方法、プログラム、及びデータ構造 Pending JP2009058671A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007224686A JP2009058671A (ja) 2007-08-30 2007-08-30 処理単位分割装置、処理単位分割方法、プログラム、及びデータ構造

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007224686A JP2009058671A (ja) 2007-08-30 2007-08-30 処理単位分割装置、処理単位分割方法、プログラム、及びデータ構造

Publications (1)

Publication Number Publication Date
JP2009058671A true JP2009058671A (ja) 2009-03-19

Family

ID=40554477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007224686A Pending JP2009058671A (ja) 2007-08-30 2007-08-30 処理単位分割装置、処理単位分割方法、プログラム、及びデータ構造

Country Status (1)

Country Link
JP (1) JP2009058671A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015060127A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声同時処理装置、方法およびプログラム
JP2020178262A (ja) * 2019-04-19 2020-10-29 日本放送協会 生字幕整形処理装置及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015060127A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声同時処理装置、方法およびプログラム
US9672820B2 (en) 2013-09-19 2017-06-06 Kabushiki Kaisha Toshiba Simultaneous speech processing apparatus and method
JP2020178262A (ja) * 2019-04-19 2020-10-29 日本放送協会 生字幕整形処理装置及びプログラム

Similar Documents

Publication Publication Date Title
US8924216B2 (en) System and method for synchronizing sound and manually transcribed text
US8751235B2 (en) Annotating phonemes and accents for text-to-speech system
US8065142B2 (en) Synchronization of an input text of a speech with a recording of the speech
EP2887229A2 (en) Communication support apparatus, communication support method and computer program product
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US9460718B2 (en) Text generator, text generating method, and computer program product
JP5106608B2 (ja) 読み上げ支援装置、方法、およびプログラム
EP4322029A1 (en) Method and apparatus for generating video corpus, and related device
JP2007199410A (ja) テキストに付与する発音情報の編集を支援するシステム
CN113035199A (zh) 音频处理方法、装置、设备及可读存储介质
US20140365217A1 (en) Content creation support apparatus, method and program
KR101054699B1 (ko) 지원 디바이스, 프로그램 및 지원 방법
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP2020060642A (ja) 音声合成システム、及び音声合成装置
JP2009058671A (ja) 処理単位分割装置、処理単位分割方法、プログラム、及びデータ構造
JP2007018098A (ja) テキスト分割処理装置及びコンピュータプログラム
JP2015045689A (ja) 音声認識システムについての音声認識結果を評価する方法、並びに、そのコンピュータ及びコンピュータ・プログラム
JP6926175B2 (ja) 表示支援装置、方法およびプログラム
JP2004240859A (ja) 言い換えシステム
JP7409475B2 (ja) 発話終端検出装置、制御方法、及びプログラム
JP2009210879A (ja) 処理単位分割装置、処理単位分割方法、及びプログラム
WO2021181451A1 (ja) 音声認識装置、制御方法、及びプログラム
WO2021161908A1 (ja) 情報処理装置及び情報処理方法
US11250837B2 (en) Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models
JP7258627B2 (ja) 採点支援装置、その方法、およびプログラム