JP2009058671A

JP2009058671A - 処理単位分割装置、処理単位分割方法、プログラム、及びデータ構造

Info

Publication number: JP2009058671A
Application number: JP2007224686A
Authority: JP
Inventors: Toru Shimizu; 徹清水; Satoru Nakamura; 哲中村
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2007-08-30
Filing date: 2007-08-30
Publication date: 2009-03-19

Abstract

【課題】ポーズを含む発話を処理単位に分割する処理単位分割装置を提供する。
【解決手段】発話に応じたテキストの形態素列情報を受け付ける形態素列情報受付部１４、教師テキストの教師形態素列情報及び教師テキストの分割位置を示す教師分割情報を含む教師データを保持する教師データ記憶部１７、ポーズを検出するポーズ検出部１５、分割位置の判断を行う判断形態素、判断形態素の直前の１以上の先行形態素、及び判断形態素の直後の０以上の後続形態素を、判断形態素とポーズとの間の形態素数と、予め決められた後続形態素数との多くない方の数が後続形態素数となるように決定する決定部１６、判断形態素、先行形態素、及び後続形態素を用いて教師データの機械学習により判断形態素の位置が分割位置か判断して分割情報を構成する分割部１８、分割情報を出力する出力部１９を備える。
【選択図】図１

Description

本発明は、発話された音声に対応するテキストデータを処理単位に分割する処理単位分割装置等に関する。

話し言葉（特に独話）は、話者が長く話し続けることから、区切りが明確でない、一文が長くなるなどの特徴がある。そのため、従来、話し言葉を適切な単位に分割する試みが行われてきていた（例えば、非特許文献１〜４参照）。
西光雅弘、河原達也、高梨克也、「隣接文節間の係り受け情報に着目した話し言葉のチャンキングの評価」、情報処理学会研究報告、ＳＬＰ−６１−４、２００６年西光雅弘、高梨克也、河原達也、「係り受けとポーズ・フィラーの情報を用いた話し言葉の段階的チャンキング」、電子情報通信学会技術研究報告、ＳＰ２００５−１３７、ＮＬＣ２００５−１０４、２００５年笠浩一郎、松原茂樹、稲垣康善、「同時的な日英対話翻訳のための日本語発話文の分割」、電子情報通信学会技術研究報告、ＮＬＣ２００６−５６、ＳＰ２００６−１１２、２００６年柏岡秀紀、「節境界を考慮した長文の単語アライメント」、言語処理学会第１１回年次大会、２００５年３月

話し言葉を適切な単位に分割する従来の方法では、その分割境界の前後の形態素情報を利用することがあった。そのような場合に、いいよどみ等によって話し言葉の間にポーズがはいると、ポーズに後続する形態素が確定するまで境界の判定ができないという課題があった。

本発明は、その課題を解決するためになされたものであり、ポーズの含まれる話し言葉を適切な単位に分割することができる処理単位分割装置等を提供することを目的とする。

上記目的を達成するため、本発明による処理単位分割装置は、発話された音声に対応するテキストデータを処理単位に分割する処理単位分割装置であって、発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける形態素列情報受付部と、教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である教師分割情報とを有する教師データが記憶される教師データ記憶部と、前記形態素列情報受付部が受け付けた形態素列情報に対応する音声における発話のない区間であり、あらかじめ決められた時間の長さ以上の区間であるポーズを検出するポーズ検出部と、前記形態素列情報受付部が受け付けた形態素列情報における、処理単位の分割位置であるかどうかを判断する形態素である判断形態素と、前記判断形態素の時間的に直前の１個以上の形態素である先行形態素と、前記判断形態素の時間的に直後の０個以上の形態素である後続形態素とを決定するものであり、前記形態素列情報における、前記判断形態素とポーズ検出部が検出したポーズとの間の形態素数と、あらかじめ決められた後続形態素の数とのうち、多くない方の数を後続形態素の数に決定する決定部と、前記教師データ記憶部で記憶されている教師データを用いて機械学習を行うことにより、前記決定部が決定した前記判断形態素と１個以上の前記先行形態素と０個以上の前記後続形態素とを用いて前記判断形態素の位置が処理単位の分割位置であるかどうかを判断し、前記形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部と、少なくとも前記分割情報を出力する出力部と、を備えたものである。

このような構成により、ポーズが検出された場合に、そのポーズに後続する形態素が確定しなくてもポーズの前の形態素に関する分割位置の判断を行うことができる。その結果、分割位置の判断をより早くすることができ、例えば、リアルタイム処理により適切に対応することができるようになる。

また、本発明による処理単位分割装置では、前記決定部は、先行形態素の数と、後続形態素の数との和が一定数となるように前記先行形態素の数と、前記後続形態素の数とを決定してもよい。
このような構成により、分割位置の判断で用いる形態素の数を一定にすることができる。

また、本発明による処理単位分割装置では、発話された音声から生成された音声信号を受け付ける音声信号受付部と、前記音声信号受付部が受け付けた音声信号に対して音声認識を行い、前記発話された音声に対応するテキストデータを取得する音声認識部と、前記音声認識部が取得したテキストデータを形態素に分割して形態素列情報受付部に渡す形態素解析部と、をさらに備えてもよい。

このような構成により、音声信号に対する音声認識、及び音声認識結果の形態素解析をも処理単位分割装置において行うことができるようになる。その結果、音声信号の受け付けから、テキストデータの処理単位への分割までの一連の処理を処理単位分割装置において実行することができるようになる。

また、本発明による処理単位分割装置では、前記形態素列情報、及び前記教師形態素列情報はそれぞれ、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素ごとに対応付けて有する情報であってもよい。
このような構成により、より精度の高い処理を行うことができると考えられうる。

また、本発明による処理単位分割装置では、前記処理単位は、テキストデータを目的言語に翻訳するための翻訳単位であってもよい。
このような構成により、原言語のテキストデータを、適切な翻訳単位に分割することが可能となりうる。その結果、翻訳の結果もより適切なものになると考えられうる。

また、本発明による処理単位分割装置では、前記ポーズ検出部がポーズを検出する際に用いるあらかじめ決められた時間の長さは、１秒から１．５秒の間の時間であってもよい。
このような構成により、精度を維持しながら、ポーズの前の形態素に関する分割位置の判断を行うことができるようになる。

本発明によるデータ構造は、発話された音声に対応するテキストデータを処理単位に分割する際に用いられるテキストデータのデータ構造であって、発話された音声から生成された音声信号が音声認識され、音声認識結果であるテキストデータが形態素に分割された情報である形態素列情報と、前記音声信号における発話のない区間に対応する形態素列情報の位置に挿入された、当該音声信号における発話のない区間の時間の長さを示す情報と、を含むものである。

このようなデータ構造を用いることにより、音声認識後のテキストデータにおいて、どの位置にどれぐらいの長さの発話のない区間が存在するのかを知ることができる。したがって、そのデータ構造のテキストデータを用いることによって、前述の処理単位分割装置によるポーズの検出を適切に行うことができ、その結果、処理単位の分割位置の判断を適切に行うことができうる。

本発明による処理単位分割装置等によれば、ポーズが検出された場合に、そのポーズに後続する形態素が確定しなくてもポーズの前の形態素に関する分割位置の判断を行うことができる。その結果、分割位置の判断をより早く行うことができる。

以下、本発明による処理単位分割装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。

（実施の形態１）
本発明の実施の形態１による処理単位分割装置について、図面を参照しながら説明する。本実地の形態による処理単位分割装置は、発話された音声に対応するテキストデータの処理単位への分割を、ポーズを検出して行うものである。

図１は、本実施の形態による処理単位分割装置１の構成を示すブロック図である。本実施の形態による処理単位分割装置１は、音声信号受付部１１と、音声認識部１２と、形態素解析部１３と、形態素列情報受付部１４と、ポーズ検出部１５と、決定部１６と、教師データ記憶部１７と、分割部１８と、出力部１９とを備える。

音声信号受付部１１は、発話された音声から生成された音声信号を受け付ける。この音声信号は、例えば、発話された音声をマイクロフォン等で集音して音声信号に変換されたものであってもよい。

音声信号受付部１１は、例えば、入力デバイス（例えば、マイクロフォンなど）から入力された音声信号を受け付けてもよく、有線もしくは無線の通信回線を介して送信された音声信号を受信してもよく、所定の記録媒体（例えば、光ディスクや磁気ディスク、半導体メモリなど）から読み出された音声信号を受け付けてもよい。本実施の形態では図１で示されるように、音声信号受付部１１は、マイクロフォンからの音声信号を受け付けるものとする。なお、音声信号受付部１１は、受け付けを行うためのデバイス（例えば、モデムやネットワークカードなど）を含んでもよく、あるいは含まなくてもよい。また、音声信号受付部１１は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

音声認識部１２は、音声信号受付部１１が受け付けた音声信号に対して音声認識を行い、発話された音声に対応するテキストデータを取得する。この音声認識の方法としては、公知のものを用いることができ、その詳細な説明を省略する。音声認識部１２は、音声信号から特徴量を抽出し、その特徴量と、音響モデル、辞書情報、言語モデル等を用いて音声認識を行ってもよい。音響モデル等を用いる場合には、図示しない記録媒体において、それらの情報が記憶されていてもよい。

形態素解析部１３は、音声認識部１２が取得したテキストデータを形態素に分割して形態素列情報受付部１４に渡す。この形態素解析の方法としては、公知のものを用いることができ、その詳細な説明を省略する。例えば、この形態素解析の処理のために、「茶筌（ＣｈａＳｅｎ）」（ｈｔｔｐ：／／ｃｈａｓｅｎ．ｎａｉｓｔ．ｊｐ）を用いてもよい。形態素解析部１３は、テキストデータを形態素に分割し、各形態素について品詞を特定してもよく、さらに、各形態素について品詞の活用形を特定してもよい。本実施の形態では、形態素解析部１３は、各形態素について品詞と活用形とを特定する場合について説明する。

この形態素解析部１３から形態素列情報受付部１４に渡される、テキストデータが形態素に分割された情報を形態素列情報と呼ぶことにする。前述のように、本実施の形態では、形態素解析部１３が各形態素について品詞と活用形とを特定するため、形態素列情報は、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素ごとに対応付けて有する情報となる。形態素解析部１３と形態素列情報受付部１４とが物理的に同一である場合（例えば、両構成要素がソフトウェアとして実現される場合や、一体のハードウェアとして構成される場合など）には、形態素列情報が形態素列情報受付部１４に渡されることは、形態素解析の処理から次の処理に処理フェーズが移ることであってもよい。

また、音声信号がテキストデータに変換される際に、音声信号において発話のない区間に、その発話のない区間の時間の長さを示す情報を付加するようにしてもよい。例えば、音声信号から変換されたテキストデータが、「…おはようございますただいまご紹介…」であって、「ございます」と「ただいま」の間に２．５秒間の発話のない区間がある場合には、例えば、「…おはようございます（空白２．５秒）ただいまご紹介…」というようにテキストデータを構成してもよい。したがって、形態素列情報に、音声信号において発話のない区間の時間の長さを示す情報が付加されていてもよい。その付加される情報は、例えば、発話のない区間の存在を示す情報（上記の例では、例えば、「空白」の文字である）と、その発話のない区間の時間の長さを示す情報（上記の例では、「２．５秒」である）であってもよく、発話のない区間の時間の長さがわかるのであれば、その他の情報であってもよい。また、その音声信号における発話のない区間の時間の長さを示す情報は、音声信号における発話のない区間に対応する形態素列情報の位置に挿入されてもよい（例えば、後述する図６参照）。その情報を付加する処理は、音声認識部１２によって行われてもよく、他の構成要素によって行われてもよい。具体的には、音声信号があらかじめ設定されているしきい値のレベルよりも低い連続する区間を検出して、その区間の時間の長さを示す情報を、テキストデータの該当する箇所に挿入するようにしてもよい。

形態素列情報受付部１４は、発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける。形態素列情報受付部１４は、例えば、音声信号受付部１１で受け付けられた音声信号が音声認識され、形態素解析された形態素列情報をリアルタイムで受け付けてもよく、あるいは、図示しない記録媒体において蓄積されていた形態素列情報を読み出すことによって受け付けてもよい。本実施の形態では、前者の場合について説明する。前者の場合には、後述するポーズ検出部１５は、形態素列情報のみからポーズの検出を行うことが可能となるが、後者の場合には、ポーズ検出部１５は、形態素列情報以外の情報をも用いてポーズの検出を行うことになる。なお、前者の場合であっても、ポーズ検出部１５は、形態素列情報以外の情報をも用いてポーズの検出を行ってもよい。形態素列情報以外の情報とは、例えば、形態素列情報における発話のない区間に挿入された、発話のない区間の時間の長さを示す情報であってもよく、形態素列情報に対応する音声信号そのものであってもよい。

なお、本実施の形態では、形態素列情報受付部１４が形態素列情報を形態素解析部１３から受け付ける場合について説明するが、形態素列情報受付部１４は、形態素解析部１３以外から形態素列情報を受け付けてもよい。例えば、形態素列情報受付部１４は、有線もしくは無線の通信回線を介して送信された形態素列情報を受信してもよく、所定の記録媒体（例えば、光ディスクや磁気ディスク、半導体メモリなど）から読み出された形態素列情報を受け付けてもよい。また、形態素列情報受付部１４は、受け付けを行うためのデバイス（例えば、モデムやネットワークカードなど）を含んでもよく、あるいは含まなくてもよい。また、形態素列情報受付部１４は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

ポーズ検出部１５は、ポーズを検出する。ポーズとは、形態素列情報受付部１４が受け付けた形態素列情報に対応する音声における発話のない区間であり、あらかじめ決められた時間の長さ以上の区間である。ポーズ検出部１５がポーズを検出する際に用いる「あらかじめ決められた時間の長さ」は、例えば、１秒から１．５秒の間の時間であってもよく、それ以外の適切な時間であってもよい。前述のように、ポーズ検出部１５は、形態素列情報を用いてポーズの検出を行ってもよく、それ以外の情報を用いてポーズの検出を行ってもよい。音声信号の受け付けや音声認識、形態素解析の処理がリアルタイムで行われる場合には、順次受け付けられる形態素列情報を用いることによって、ポーズ検出部１５はポーズの検出を行うことができうる。ポーズ検出部１５は、例えば、あらかじめ決められた長さ以上の期間、形態素の情報が形態素列情報受付部１４で受け付けられない場合に、ポーズを検出してもよい。より具体的には、ポーズ検出部１５は、ある形態素列情報が受け付けられてから、次の形態素列情報が受け付けられるまでの時間を、タイマ等を用いて計測しておき、その計測した時間が予め決められた時間の長さ以上となった場合に、ポーズを検出してもよい。一方、それらの処理がリアルタイムで行われない場合には、例えば、ポーズ検出部１５は、形態素列情報に対応する音声信号そのものを参照して、ポーズの検出を行ってもよい。ポーズ検出部１５は、例えば、音声信号を参照し、音声のレベルがあらかじめ決められているしきい値以下の状態があらかじめ決められている時間の長さ以上継続している場合に、ポーズを検出してもよい。この場合には、音声信号におけるポーズの位置と、形態素列情報におけるポーズの位置との対応をとる処理を行う必要がある。形態素列情報におけるポーズの位置を特定するためである。その処理は、例えば、音声信号においてポーズの位置に所定のマーカを付与しておき、そのマーカの位置を音声認識や形態素解析の際にも維持することによって行ってもよい。また、形態素列情報に、音声信号において発話のない区間の時間の長さを示す情報が付加されていている場合には、ポーズ検出部１５は、その情報を参照し、その発話のない区間の長さと、あらかじめ設定されているしきい値の長さとを比較することによって、ポーズの検出を行ってもよい。本実施の形態では、このようにしてポーズを検出する場合について説明する。

決定部１６は、形態素列情報受付部１４が受け付けた形態素列情報における判断形態素と、先行形態素と、後続形態素とを決定する。これらは、後述する分割部１８による処理単位への分割の処理の際に用いられるものである。判断形態素とは、処理単位の分割位置であるかどうかを判断する形態素である。この判断形態素の位置は、形態素列情報において順次、１個ずつ時間的後方に向かってずらされていくことになる。したがって、決定部１６は、判断形態素の位置を順次、１個ずつずらしながら判断形態素を決定することになる。先行形態素とは、判断形態素の時間的に直前の１個以上の形態素である。先行形態素が２以上の形態素である場合には、それらは連続した隣接する形態素である。後続形態素とは、判断形態素の時間的に直後の０個以上の形態素である。後続形態素が２以上の形態素である場合にも、それらは連続した隣接する形態素である。なお、後続形態素は、後述するように、０個であってもよい。すなわち、後続形態素なしで処理単位への分割の処理が行われてもよい。換言すれば、決定部１６は、判断形態素の直後にポーズが存在する場合には、判断形態素と先行形態素とを決定し、判断形態素の直後にポーズが存在するのでない場合には、判断形態素と先行形態素と後続形態素とを決定することになる。決定部１６は、判断形態素を決定すると、あとは先行形態素の数と後続形態素の数が決まれば、先行形態素と後続形態素を決定することができる。

決定部１６は、形態素列情報における、判断形態素とポーズ検出部１５が検出したポーズとの間の形態素数（この形態素数には、判断形態素の数は含まれない。すなわち、判断形態素の次の形態素から、ポーズの直前の形態素までの形態素数である）と、あらかじめ決められた後続形態素の数とのうち、多くない方の数を後続形態素の数に決定する。「多くない方の数」とは、両者が異なる場合には、少ない方の数であり、両者が同数である場合には、その同数の数である。なお、ポーズが検出されなかった場合には、決定部１６は、あらかじめ決められた後続形態素の数を後続形態素の数として決定する。ポーズが検出されなかった場合には、判断形態素とポーズとの間の形態素数が無限に大きいと考えられるからである。

決定部１６は、先行形態素の数と、後続形態素の数との和が一定数となるように先行形態素の数と、後続形態素の数とを決定してもよく、あるいは、そうでなくてもよい。本実施の形態では、前者の場合について説明する。前者の場合には、後述する分割部１８において判断形態素の位置が処理単位の分割位置であるかどうかの判断の際に用いられる形態素数が一定となる。後者の場合には、例えば、先行形態素の数を一定の数に固定してもよく、あるいは、その他の基準に従って先行形態素の数を増減させてもよい。

教師データ記憶部１７では、教師データが記憶される。ここで、教師データは、教師形態素列情報と、教師分割情報とを有する。教師形態素列情報は、教師テキストデータが形態素に分割された情報である。教師形態素列情報は、前述の形態素列情報と同様のものであり、例えば、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素ごとに対応付けて有する情報であってもよい。教師分割情報は、教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である。教師テキストデータも、一般に発話された音声に対応するテキストデータである。

処理単位とは、例えば、テキストデータを目的言語に翻訳するための翻訳単位であってもよく、テキストデータを字幕に表示する単位であってもよく、講演をリアルタイムで音声認識している際に、その音声認識後のテキストを講演の聴衆に提示する単位であってもよく、あるいは、その他の処理単位であってもよい。本実施の形態では、処理単位が翻訳単位である場合について説明する。なお、字幕に表示する単位等にテキストデータを分割するために、処理単位分割装置１による処理を実行する場合であっても、翻訳単位に分割する処理を行い、その翻訳単位でテキストデータを字幕に表示する処理等を行ってもよい。

処理単位が翻訳単位である場合には、この教師分割情報は、例えば、プロの翻訳家（通訳者）が教師形態素列情報に対応する教師テキストデータを翻訳単位に分割する。処理単位が翻訳単位以外である場合には、教師テキストデータをその処理単位に分割すればよい。この教師分割情報は、例えば、教師形態素列情報に挿入された分割記号であってもよく、教師テキストデータにおける位置を示す情報（例えば、ポインタなど）であってもよく、あるいは、その他の情報であってもよい。

教師データ記憶部１７に情報が記憶される過程は問わない。例えば、記録媒体を介して教師データが教師データ記憶部１７で記憶されるようになってもよく、通信回線等を介して送信された教師データが教師データ記憶部１７で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された教師データが教師データ記憶部１７で記憶されるようになってもよい。教師データ記憶部１７での記憶は、外部のストレージデバイス等から読み出した教師データのＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。教師データ記憶部１７は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。

分割部１８は、教師データ記憶部１７で記憶されている教師データを用いて機械学習を行うことにより、決定部１６が決定した判断形態素と１個以上の先行形態素と０個以上の後続形態素とを用いて判断形態素の位置が処理単位の分割位置であるかどうかを判断し、形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する。なお、その機械学習において、先行形態素の数と後続形態素の数の取り得るパターンに応じて学習を行うものとする。例えば、次のパターン１〜パターン４までを取り得る場合には、分割部１８は各パターンについて機械学習を行う。そして、判断形態素の位置が分割位置であるかどうかを判断する場合には、分割部１８は、その判断時の先行形態素の数と後続形態素の数に応じたパターンに対応する学習結果のモデルを用いて判断を行うものとする。

パターン１：先行形態素の数＝３、後続形態素の数＝３
パターン２：先行形態素の数＝４、後続形態素の数＝２
パターン３：先行形態素の数＝５、後続形態素の数＝１
パターン４：先行形態素の数＝６、後続形態素の数＝０

分割部１８が、ある判断形態素の位置が処理単位の分割位置であると判断したことは、その判断形態素の先頭の位置が分割位置となることであってもよく、その後端の位置が分割位置となることであってもよい。本実施の形態では、前者の場合について説明する。

分割部１８は、例えば、形態素列情報に対応するテキストデータにおける分割位置を示す情報（例えば、ポインタなど）を分割情報として構成してもよく、判断形態素を識別する情報と、その判断形態素の位置が分割位置であるかどうかを示す情報とを対応付けて有する情報を分割情報として構成してもよく、あるいは、その他の分割位置を示す情報を分割情報として構成してもよい。この分割部１８による判断は、判断形態素の位置を順次、１個ずつずらしながらなされる。

分割部１８で用いられる機械学習は、例えば、サポートベクターマシン（ＳＶＭ）による機械学習であってもよく、それ以外の機械学習であってもよい。サポートベクターマシン以外の機械学習は、例えば、最大エントロピーを用いた機械学習や、シンプルベイス法を用いた機械学習等であってもよく、適切な機械学習を行うことができるのであれば、その種類を問わない。なお、本実施の形態では、機械学習がサポートベクターマシンによる機械学習である場合について説明する。例えば、分割部１８による分割情報の構成の処理のために、「ＹａｍＣｈａ」を用いてもよい。「ＹａｍＣｈａ」については、次の文献を参照されたい。

文献：Ｔ．ｋｕｄｏ，Ｙ．Ｍａｔｓｕｍｏｔｏ，「Ｃｈｕｎｋｉｎｇｗｉｔｈｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓ」，Ｐｒｏｃ．ｏｆｔｈｅ２ｎｄｍｅｅｔｉｎｇＮｏｒｔｈＡｍｅｒｉｃａｎＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，２００１年

出力部１９は、少なくとも、分割部１８が構成した分割情報を出力する。出力部１９は、分割情報と共に、形態素列情報そのものや、形態素列情報に対応するテキストデータを出力してもよい。ここで、この出力は、例えば、表示デバイス（例えば、ＣＲＴや液晶ディスプレイなど）への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。この出力が記録媒体への蓄積である場合に、例えば、音声認識後のテキストデータが記憶されている図示しない記録媒体に、分割位置を示す分割情報を、対応する位置に追記することであってもよい。

なお、出力部１９は、出力を行うデバイス（例えば、表示デバイスやプリンタなど）を含んでもよく、あるいは含まなくてもよい。また、出力部１９は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

この出力部１９によって出力された分割情報の示す分割位置で分割されたテキストデータを用いて、その処理単位ごとの処理が行われることになる。例えば、その処理単位ごとの翻訳が行われることになる。この翻訳は、機械翻訳であることが一般的であるが、人による翻訳であってもよい。いずれの場合であっても、プロの翻訳家によって分割されたのと同様の適切な翻訳単位の分割位置を知ることができるため、精度の高い翻訳を行うことができると考えられる。また、前述のように、その処理単位ごとに字幕を表示してもよく、講演を音声認識したテキストを、その処理単位ごとに提示してもよい。
次に、本実施の形態による処理単位分割装置１の動作について、図２のフローチャートを用いて説明する。

（ステップＳ１０１）音声信号受付部１１は、音声信号を受け付けたかどうか判断する。そして、音声信号を受け付けた場合には、ステップＳ１０２に進み、そうでない場合には、音声信号を受け付けるまでステップＳ１０１の処理を繰り返す。なお、音声信号受付部１１は、例えば、所定の時間間隔ごとに音声信号を受け付けてもよい。

（ステップＳ１０２）音声認識部１２は、音声信号受付部１１が受け付けた音声信号に対する音声認識の処理を行う。
（ステップＳ１０３）形態素解析部１３は、音声認識の結果であるテキストデータを形態素解析する。

（ステップＳ１０４）形態素列情報受付部１４は、形態素解析の結果である形態素列情報を形態素解析部１３から受け付ける。
（ステップＳ１０５）ポーズ検出部１５は、ポーズの検出を行う。そして、ポーズが検出された場合には、決定部１６にそのポーズの位置を示す情報を渡す。

（ステップＳ１０６）決定部１６は、各判断形態素について、先行形態素の数と、後続形態素の数とを決定する。この決定の処理については、図３のフローチャートを用いて後述する。

（ステップＳ１０７）分割部１８は、決定部１６によって決定された、各形態素の先行形態素の数と、後続形態素の数とを用いて、判断形態素の位置が処理単位の分割位置であるかどうか判断し、分割情報を構成する。
（ステップＳ１０８）出力部１９は、分割部１８が構成した分割情報を出力する。そして、ステップＳ１０１に戻る。

なお、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。また、図２のフローチャートでは、音声信号受付部１１が受け付けた音声信号の単位ごとに、音声認識や形態素解析、ポーズの検出、先行形態素の数等の決定、分割位置であるかどうかの判断が行われる場合について説明したが、そうでなくてもよい。例えば、音声認識の処理においては、音声認識の処理に適切な単位で音声認識処理を行ってもよい。その他の処理についても同様である。例えば、すべての分割情報が構成されてから、それらを一括して出力するようにしてもよい。

そのように、適切な単位で各処理を実行する場合に、図１で示される各構成要素、あるいは、構成要素の間に、情報を記憶しておく図示しない記録媒体が存在してもよい。その図示しない記録媒体での記憶は、一時的なものであってもよく、あるいは、そうでなくてもよい。

また、図２のフローチャートにおいて、分割部１８による分割情報の構成の処理（ステップＳ１０７）の処理が実行されるまでに、分割部１８は、あらかじめ教師データ記憶部１７で記憶されている教師データを読み出して機械学習を行っているものとする。

図３は、図２のフローチャートにおける先行形態素の数と、後続形態素の数とを決定する処理の詳細を示すフローチャートである。
（ステップＳ２０１）決定部１６は、判断形態素の所定の範囲内にポーズが存在するかどうか判断する。すなわち、決定部１６は、判断形態素のあとに、あらかじめ決められた後続形態素の数より少ない数の形態素に続いて、ポーズ検出部１５によって検出されたポーズが存在するかどうか判断する。例えば、あらかじめ決められた後続形態素の数が「３」である場合に、判断形態素のあとに、２個の形態素を挟んでポーズが存在する場合には、決定部１６は、判断形態素の所定の範囲内にポーズが存在すると判断する。そして、判断形態素の所定の範囲内にポーズが存在すると判断した場合には、ステップＳ２０２に進み、そうでない場合には、ステップＳ２０５に進む。

（ステップＳ２０２）決定部１６は、後続形態素の数を、判断形態素と、ポーズとの間に存在する形態素の数に決定する。
（ステップＳ２０３）決定部１６は、先行形態素の数を、先行形態素の数と後続形態素の数の合計数から、ステップＳ２０２で決定した後続形態素の数を引いた値に決定する。例えば、両者の合計数が６であり、後続形態素の数が２である場合には、先行形態素の数は４となる。

（ステップＳ２０４）決定部１６は、未決定の判断形態素、すなわち、先行形態素の数と後続形態素の数をまだ決定していない判断形態素が存在するかどうか判断する。そして、存在する場合には、ステップＳ２０１に戻って、その未決定の判断形態素について、後続形態素数等の決定を行い、そうでない場合には、図２のフローチャートに戻る。なお、未決定の判断形態素とは、単に先行形態素の数と後続形態素の数を決定していないだけでなく、先行形態素の数と後続形態素の数を決定できる状態にあるにもかかわらず、いまだにそれらを決定していない判断形態素のことである。例えば、先行形態素の数と後続形態素の数をまだ決定していない判断形態素が存在したとしても、その判断形態素に続く形態素が受け付けられておらず、また、その判断形態素に続くポーズも検出されていない場合には、その判断形態素は、未決定の判断形態素ではないことになる。その判断形態素に関する先行形態素の数と後続形態素の数を決めることはできないからである。

（ステップＳ２０５）決定部１６は、後続形態素の数をあらかじめ決められた後続形態素の数に決定し、先行形態素の数を、両者の合計数から、あらかじめ決められた後続形態素の数を引いた値に決定する。

ここで、先行形態素の数と後続形態素の数を決定する方法について図４を参照しながら説明する。図４では、形態素列情報として、…「頂い」「て」「おる」「方々」「ばかり」「で」「ござい」「ます」「ので」が形態素列情報受付部１４で受け付けられ、その後にポーズ検出部１５によってポーズが検出されたとする。また、あらかじめ決められた後続形態素の数が「３」に設定されており、先行形態素の数と後続形態素の数の合計数が「６」に設定されていたとする。

このような状況において、判断形態素が「方々」である場合には、判断形態素のあとの２個以内の形態素に続いてポーズが存在するのではないため（ステップＳ２０１）、決定部１６は、後続形態素の数を「３」に決定し、先行形態素の数を「３」に決定する（ステップＳ２０５）。その結果、図４の△と□で示されるように、先行形態素が「頂い」「て」「おる」に決定され、後続形態素が「ばかり」「で」「ござい」に決定される。

一方、判断形態素が「ござい」である場合には、判断形態素のあとの２個以内の形態素に続いてポーズが存在するため（ステップＳ２０１）、決定部１６は、後続形態素の数を、判断形態素とポーズとの間の形態素数である「２」に決定する（ステップＳ２０２）。また、決定部１６は、合計数「６」から後続形態素の数「２」を引くことにより、先行形態素の数「４」を決定する（ステップＳ２０３）。その結果、図４で示されるように、先行形態素が「おる」「方々」「ばかり」「で」に決定され、後続形態素が「ます」「ので」に決定される。

次に、本実施の形態による処理単位分割装置１の動作について、具体例を用いて説明する。また、この具体例では、教師テキストデータとして、名古屋大学同時通訳データベース（独話）を用いた。そのデータベースに含まれる文数等は次の通りである。
文数：２０２４
形態素数（日）、単語数（英）：６４８３５
翻訳単位境界数：３７６８
ＣＢＡＰによる節境界数：８６４３
平均文長：３０．６
平均翻訳単位長：１０．７
平均節長：５．８

そのデータベースの詳細については、次の文献を参照されたい。
文献：Ｈ．Ｔｏｈｙａｍａ，Ｓ．Ｍａｔｓｕｂａｒａ，Ｎ．ｋａｗａｇｕｃｈｉ，Ｙ．Ｉｎａｇａｋｉ，「ＣｏｎｓｔｒｕｃｔｉｏｎａｎｄｕｔｉｌｉｚａｔｉｏｎｏｆＢｉｌｉｎｇｕａｌＳｐｅｅｃｈＣｏｒｐｕｓｆｏｒＳｉｍｕｌｔａｎｅｏｕｓＭａｃｈｉｎｅＩｎｔｅｒｐｒｅｔａｔｉｏｎＲｅｓｅａｒｃｈ」，Ｐｒｏｃｏｆ９ｔｈＥｕｒｏｐｉａｎＣｏｎｆ．ｏｎＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎａｎｄＴｅｃｈｎｏｌｏｇｙ，２００５年

そのデータベースに含まれる日本語のテキストデータを、プロの通訳者が分割する。図５は、教師データ記憶部１７で記憶されている教師データの一例を示す図である。図５において、教師形態素列情報と、教師分割情報とが対応付けられている。教師形態素列情報は、表層情報と、品詞情報と、活用形情報とを含んでいる。例えば、表層情報「言う」は、品詞が「動詞−自立」であり、活用形が「基本形」であることが示されている。教師分割情報は、分割位置を示すものである。すなわち、「Ｂ」は、その「Ｂ」と対応付けられている形態素の先頭が分割位置であることを示す記号である。「Ｉ」は、分割位置でないことを示す記号である。図５では、例えば、「私普段から親しく…」の先頭が翻訳単位の分割位置であることが示されている。なお、「ＹａｍＣｈａ」を用いる場合には、教師データにおいて、文の区切りを示すために空行を挿入する必要があるため、そのような教師データを用いる必要がある（図５において、文の区切りに空行を挿入すればよい）。

また、あらかじめ、分割部１８は、教師データ記憶部１７で記憶されている教師データを読み出して、先行形態素の数と後続形態素の数の組合せの取り得る各パターンについて機械学習を行っているものとする。また、１秒以上の発話のない区間をポーズとして検出するものとする。

次に、処理単位分割装置１の具体的な動作について説明する。ある講演者の発話した音声がマイクロフォンで集音され、音声信号受付部１１で受け付けられ（ステップＳ１０１）、順次、音声認識部１２で音声認識されて（ステップＳ１０２）、形態素解析部１３によって形態素解析され（ステップＳ１０３）、形態素列情報受付部１４によって受け付けられる（ステップＳ１０４）。具体的には、形態素列情報受付部１４では、図６で示される形態素列情報の各レコードが順次、受け付けられることになる。なお、図６で示されるように、音声信号において発話のない区間の時間の長さを示す情報が、形態素列情報に付加されているものとする。この情報は、音声認識部１２によって付加されたものとする。

その後、ポーズ検出部１５は、順次、受け付けられる形態素列情報を参照し、形態素列情報に付加されている、音声信号において発話のない区間の時間の長さを示す情報が１秒以上を示す場合に、その位置のポーズを検出する（ステップＳ１０５）。この具体例では、形態素列情報に対応したテキストデータの「おはようございます」「…鈴木でございます」「…お願いします」のあとにポーズが検出される。ポーズ検出部１５は、発話のない区間の時間の長さを示す情報がポーズであることを検出した場合には、その発話のない区間の時間の長さを示す情報を、ポーズを示す情報に変更することによって、決定部１６にポーズの位置を知らせるようにしてもよい。

また、決定部１６は、図４を用いた説明と同様に、そのポーズの直前に位置する後続形態素の数が「０」になるまで、順次、先行形態素の数と後続形態素の数を決定する（ステップＳ１０６、ステップＳ２０１〜Ｓ２０５）。例えば、判断形態素が「鈴木」に決定された場合には、先行形態素は「いただき」「まし」「た」に決定され、後続形態素は「で」「ござい」「ます」に決定される。また、例えば、判断形態素が「で」に決定された場合には、先行形態素は「いただき」「まし」「た」「鈴木」に決定され、後続形態素は「ござい」「ます」に決定される。決定部１６は、例えば、先行形態素「いただき」「まし」「た」、判断形態素「鈴木」、後続形態素「で」「ござい」「ます」という決定結果を分割部１８に渡してもよく、あるいは、図４で示されるように、形態素列情報の各形態素に、先行形態素、判断形態素、後続形態素を識別する情報を付加することによって（この場合には、その先行形態素等を識別する情報が、判断形態素の位置をずらすごとに順次、更新されていくことになる）、決定結果を分割部１８に知らせるようにしてもよい。

その後、分割部１８は、機械学習を行ったデータと、決定部１６によって決定された判断形態素ごとの先行形態素の数と後続形態素の数とを用いて、形態素列情報の各レコードに分割情報「Ｂ」「Ｉ」のいずれが付与されるのかを決定し、それぞれ付与された分割情報を出力部１９に渡す（ステップＳ１０７）。図７は、分割部１８から出力部１９に渡された形態素列情報と、分割情報との対応を示す図である。

出力部１９は、分割部１８から受け取った形態素列情報のうち、表層情報のみを残し、その表層情報と分割情報とを対応付けた情報を出力する（ステップＳ１０８）。図８は、そのようにして出力された表層情報と分割情報との対応を示す図である。

なお、出力部１９が図８以外の情報を出力してもよいことは言うまでもない。例えば、図９で示されるように、表層情報をＢの区切りごとに改行して表示した情報であってもよい。図９の場合には、行ごとに翻訳を行うことになる。

また、この具体例の説明では、説明の便宜上、図２のフローチャートが上から下に１回だけ処理されるかのように説明したが、本来は、図２のフローチャートの各処理が繰り返して実行されることにより、図８や図９で示される出力対象となる情報が順次、構成されることになる。

次に、本実施の形態による処理単位分割装置１での処理単位の分割の実験について説明し、その効果について説明する。この実験でも、前述の名古屋大学同時通訳データベースに含まれる１６の講演に対応したコーパスを用いた。そして、１６の講演のうち、１の講演をテストデータとし、残りの１５の講演を教師データとして用いて実験を行った。また、データ量が少ないため、テストデータを順番に代えながら、１６回繰り返して実験を行う交叉検定を行った。また、機械学習としては、ＹａｍＣｈａを用いるものとする。

なお、この実験において、ＹａｍＣｈａのパラメータの設定は次の通りである。ある分割情報が「Ｂ」「Ｉ」のいずれであるかを決定するために、判断形態素の付近の７個の形態素を用いる（その７個には判断形態素も含まれる）。なお、前述のように、その７個の形態素の位置は、ポーズの存在する位置に依存して変化することになる（図４の説明参照のこと）。すなわち、ＹａｍＣｈａのｓｔａｔｉｃｆｅａｔｕｒｅＦは、ポーズの位置に依存して以下のような値を取り得る。

Ｆ：−３，−２，−１，０，１，２，３（後続形態素の数＝３の場合）
Ｆ：−４，−３，−２，−１，０，１，２（後続形態素の数＝２の場合）
Ｆ：−５，−４，−３，−２，−１，０，１（後続形態素の数＝１の場合）
Ｆ：−６，−５，−４，−３，−２，−１，０（後続形態素の数＝０の場合）

また、その決定する分割情報よりも前の３個の分類情報も用いる。すなわち、ＹａｍＣｈａのｄｙｎａｍｉｃｆｅａｔｕｒｅＴ：−３，−２，−１となる。本実験では、この値を固定にしたが、それに限定されるものではない。また、この実験において、ＳＶＭの多項式カーネルの次数は、２次であり、多クラスの識別（すなわち、「Ｂ」「Ｉ」の識別）には、ｐａｉｒｗｉｓｅ法を用いている。

図１０，図１１は、本実験の結果を示すグラフである。図１０は、ポーズ検出部１５が検出するポーズの長さのしきい値と、Ｆ値（判定精度）との関係を示すグラフである。例えば、ポーズの長さのしきい値が０．５秒である場合には、発話のない０．５秒以上の区間がポーズとして検出されることになる。また、図１１は、ポーズの長さがしきい値以下の形態素数の累積頻度を示すグラフである。

図１０のグラフから、ポーズを検出する際に用いるあらかじめ決められた時間の長さを１秒から１．５秒程度にすることによって、十分な数の後続形態素の数を用いた分割位置の判定と同程度の精度を実現できると共に、１．０〜１．５秒程度の遅れで処理単位の分割位置を決定できることがわかる。また、図１１のグラフから、ポーズを検出する際に用いるあらかじめ決められた時間の長さを１秒から１．５秒程度にすることによって、ポーズのあとの形態素が確定するのを待つ場合（すなわち、図１１におけるポーズの長さが非常に大きい場合）に比べて、３〜１０％程度の頻度で、判定時間遅れを回避した処理単位の分割位置の決定を実現できることがわかる。

最後に、ポーズの直前の後続形態素の数を０にしても判定精度がそれほど下がらないことについて説明する。図１２は、後続形態素の数と、Ｆ値との関係を示すグラフである。図１２のグラフにおいて、処理単位（この場合は音声翻訳単位）の末にポーズが存在するもの（with pause、出現数は２７８０）、処理単位の末にポーズが存在しないもの（no pause、出現数は９８８）、その両者をあわせた全体（all、出現数は３７６８）を分けて表示している。図１２のグラフからわかるように、処理単位の末にポーズをともなうものの判定精度は高く、後続形態素の数が０になったとしても、性能劣化が少ないことがわかる。このことから、処理単位の末のポーズをともなう場合には、後続形態素の数を少なくしても、精度よく分割位置の判定を行うことができること、すなわち、本実施の形態による処理単位分割装置１のように、ポーズの直前において後続形態素の数を少なくしたとしても性能があまり劣化しないことがわかる。

以上のように、本実施の形態による処理単位分割装置１によれば、ポーズが検出された場合に、そのポーズのあとの形態素が確定するのを待つことなく、分割位置の判断を行うことができるため、処理単位の分割位置の判断に遅延を生じさせず、分割位置の判断を早く行うことができるようになる。その結果、従来の方法に比べて、より適切にリアルタイム処理に対応することができるようになる。また、ポーズを検出する際に用いられるあらかじめ決められた時間の長さを適切に選択することによって、後続形態素の数の減少に伴う性能劣化を小さくすることも可能となる。

なお、本実施の形態では、形態素列情報、及び教師形態素列情報が、表層情報と、品詞情報と、活用形情報とを含む場合について説明したが、これは一例であって、形態素列情報、及び教師形態素列情報は、表層情報と、品詞情報とを含むものであってもよく（この場合には、形態素解析は、形態素への分割と品詞の特定とを行うことになる）、形態素列情報、及び教師形態素列情報は、表層情報のみを含むものであってもよい（この場合には、形態素解析は、形態素への分割のみを行うことになる）。

また、前述のように、形態素列情報受付部１４が形態素列情報を形態素解析部１３以外から受け付ける場合には、処理単位分割装置１は、形態素解析部１３や、音声認識部１２、音声信号受付部１１を備えていなくてもよい。

また、本実施の形態では、処理対象のテキストデータが日本語である場合、すなわち、日本語に関する処理単位の分割位置の判断を行う場合について説明したが、処理対象のテキストデータの言語は問わない。処理対象のテキストデータは、例えば、英語やフランス語、中国語、韓国語等であってもよい。処理対象のテキストデータが英語等である場合に、形態素列情報は、例えば、単語の列を示す情報であってもよい。その場合には、その単語の列を示す情報は、スペースで分かち書きされた単語の列であってもよい。

また、上記実施の形態では、処理単位分割装置１がスタンドアロンである場合について説明したが、処理単位分割装置１は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部や受付部は、通信回線を介して入力を受け付けたり、画面を出力したりすることになる。

また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。

また、上記実施の形態において、処理単位分割装置１に含まれる２以上の構成要素が通信デバイスや入力デバイス等を有する場合に、２以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。

また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における処理単位分割装置１を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、発話された音声に対応するテキストデータを処理単位に分割する処理単位分割装置１として機能させるためのプログラムであって、発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける形態素列情報受付部と、前記形態素列情報受付部が受け付けた形態素列情報に対応する音声における発話のない区間であり、あらかじめ決められた時間の長さ以上の区間であるポーズを検出するポーズ検出部と、前記形態素列情報受付部が受け付けた形態素列情報における、処理単位の分割位置であるかどうかを判断する形態素である判断形態素と、前記判断形態素の時間的に直前の１個以上の形態素である先行形態素と、前記判断形態素の時間的に直後の０個以上の形態素である後続形態素とを決定するものであり、前記形態素列情報における、前記判断形態素とポーズ検出部が検出したポーズとの間の形態素数と、あらかじめ決められた後続形態素の数とのうち、多くない方の数を後続形態素の数に決定する決定部と、教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である教師分割情報とを有する教師データを用いて機械学習を行うことにより、前記決定部が決定した前記判断形態素と１個以上の前記先行形態素と０個以上の前記後続形態素とを用いて前記判断形態素の位置が処理単位の分割位置であるかどうかを判断し、前記形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部と、少なくとも前記分割情報を出力する出力部として機能させるためのものである。

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を受け付ける受付部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。

また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体（例えば、ＣＤ−ＲＯＭなどの光ディスクや磁気ディスク、半導体メモリなど）に記録されたプログラムが読み出されることによって実行されてもよい。

また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

図１３は、上記プログラムを実行して、上記実施の形態による処理単位分割装置１を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。

図１３において、コンピュータシステム１００は、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブ１０５、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ１０６を含むコンピュータ１０１と、キーボード１０２と、マウス１０３と、モニタ１０４とを備える。

図１４は、コンピュータシステムを示す図である。図１４において、コンピュータ１０１は、ＣＤ−ＲＯＭドライブ１０５、ＦＤドライブ１０６に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１１２と、ＣＰＵ１１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１１３と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク１１４と、ＣＰＵ１１１、ＲＯＭ１１２等を相互に接続するバス１１５とを備える。なお、コンピュータ１０１は、ＬＡＮへの接続を提供する図示しないネットワークカードを含んでいてもよい。

コンピュータシステム１００に、上記実施の形態による処理単位分割装置１の機能を実行させるプログラムは、ＣＤ−ＲＯＭ１２１、またはＦＤ１２２に記憶されて、ＣＤ−ＲＯＭドライブ１０５、またはＦＤドライブ１０６に挿入され、ハードディスク１１４に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ１０１に送信され、ハードディスク１１４に記憶されてもよい。プログラムは実行の際にＲＡＭ１１３にロードされる。なお、プログラムは、ＣＤ−ＲＯＭ１２１やＦＤ１２２、またはネットワークから直接、ロードされてもよい。

プログラムは、コンピュータ１０１に、上記実施の形態による処理単位分割装置１の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム１００がどのように動作するのかについては周知であり、詳細な説明は省略する。
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上より、本発明による処理単位分割装置等によれば、ポーズが検出された場合に、そのポーズに後続する形態素が確定しなくてもポーズの前の形態素に関する分割位置の判断を行うことができ、テキストデータを処理単位に分割するシステム等として有用である。

本発明の実施の形態１による処理単位分割装置の構成を示すブロック図同実施の形態による処理単位分割装置の動作を示すフローチャート同実施の形態による処理単位分割装置の動作を示すフローチャート同実施の形態における先行形態素数等の決定について説明するための図同実施の形態における教師データの一例を示す図同実施の形態における形態素列情報の一例を示す図同実施の形態における形態素列情報と分割情報との対応の一例を示す図同実施の形態における出力部が出力した情報の一例を示す図同実施の形態における出力部が出力した情報の一例を示す図同実施の形態における検出するポーズの長さのしきい値と、Ｆ値との関係を示す図同実施の形態におけるポーズの長さがしきい値以下の形態素数の累積頻度を示す図同実施の形態における後続形態素の数と、Ｆ値との関係を示す図同実施の形態におけるコンピュータシステムの外観一例を示す模式図同実施の形態におけるコンピュータシステムの構成の一例を示す図

符号の説明

１処理単位分割装置
１１音声信号受付部
１２音声認識部
１３形態素解析部
１４形態素列情報受付部
１５ポーズ検出部
１６決定部
１７教師データ記憶部
１８分割部
１９出力部

Claims

発話された音声に対応するテキストデータを処理単位に分割する処理単位分割装置であって、
発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける形態素列情報受付部と、
教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である教師分割情報とを有する教師データが記憶される教師データ記憶部と、
前記形態素列情報受付部が受け付けた形態素列情報に対応する音声における発話のない区間であり、あらかじめ決められた時間の長さ以上の区間であるポーズを検出するポーズ検出部と、
前記形態素列情報受付部が受け付けた形態素列情報における、処理単位の分割位置であるかどうかを判断する形態素である判断形態素と、前記判断形態素の時間的に直前の１個以上の形態素である先行形態素と、前記判断形態素の時間的に直後の０個以上の形態素である後続形態素とを決定するものであり、前記形態素列情報における、前記判断形態素とポーズ検出部が検出したポーズとの間の形態素数と、あらかじめ決められた後続形態素の数とのうち、多くない方の数を後続形態素の数に決定する決定部と、
前記教師データ記憶部で記憶されている教師データを用いて機械学習を行うことにより、前記決定部が決定した前記判断形態素と１個以上の前記先行形態素と０個以上の前記後続形態素とを用いて前記判断形態素の位置が処理単位の分割位置であるかどうかを判断し、前記形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部と、
少なくとも前記分割情報を出力する出力部と、を備えた処理単位分割装置。
前記決定部は、先行形態素の数と、後続形態素の数との和が一定数となるように前記先行形態素の数と、前記後続形態素の数とを決定する、請求項１記載の処理単位分割装置。
発話された音声から生成された音声信号を受け付ける音声信号受付部と、
前記音声信号受付部が受け付けた音声信号に対して音声認識を行い、前記発話された音声に対応するテキストデータを取得する音声認識部と、
前記音声認識部が取得したテキストデータを形態素に分割して形態素列情報受付部に渡す形態素解析部と、をさらに備えた請求項１または請求項２記載の処理単位分割装置。
前記形態素列情報、及び前記教師形態素列情報はそれぞれ、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素ごとに対応付けて有する情報である、請求項１から請求項３のいずれか記載の処理単位分割装置。
前記機械学習は、サポートベクターマシンによる機械学習である、請求項１から請求項４のいずれか記載の処理単位分割装置。
前記処理単位は、テキストデータを目的言語に翻訳するための翻訳単位である、請求項１から請求項５のいずれか記載の処理単位分割装置。
前記ポーズ検出部がポーズを検出する際に用いるあらかじめ決められた時間の長さは、１秒から１．５秒の間の時間である、請求項１から請求項６のいずれか記載の処理単位分割装置。
発話された音声に対応するテキストデータを処理単位に分割する処理単位分割方法であって、
発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける形態素列情報受付ステップと、
前記形態素列情報受付ステップで受け付けた形態素列情報に対応する音声における発話のない区間であり、あらかじめ決められた時間の長さ以上の区間であるポーズを検出するポーズ検出ステップと、
前記形態素列情報受付ステップで受け付けた形態素列情報における、処理単位の分割位置であるかどうかを判断する形態素である判断形態素と、前記判断形態素の時間的に直前の１個以上の形態素である先行形態素と、前記判断形態素の時間的に直後の０個以上の形態素である後続形態素とを決定するものであり、前記形態素列情報における、前記判断形態素とポーズ検出ステップで検出したポーズとの間の形態素数と、あらかじめ決められた後続形態素の数とのうち、多くない方の数を後続形態素の数に決定する決定ステップと、
教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である教師分割情報とを有する教師データを用いて機械学習を行うことにより、前記決定ステップで決定した前記判断形態素と１個以上の前記先行形態素と０個以上の前記後続形態素とを用いて前記判断形態素の位置が処理単位の分割位置であるかどうかを判断し、前記形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割ステップと、
少なくとも前記分割情報を出力する出力ステップと、を備えた処理単位分割方法。
コンピュータを、
発話された音声に対応するテキストデータを処理単位に分割する処理単位分割装置として機能させるためのプログラムであって、
発話された音声に対応するテキストデータが形態素に分割された情報である形態素列情報を受け付ける形態素列情報受付部と、
前記形態素列情報受付部が受け付けた形態素列情報に対応する音声における発話のない区間であり、あらかじめ決められた時間の長さ以上の区間であるポーズを検出するポーズ検出部と、
前記形態素列情報受付部が受け付けた形態素列情報における、処理単位の分割位置であるかどうかを判断する形態素である判断形態素と、前記判断形態素の時間的に直前の１個以上の形態素である先行形態素と、前記判断形態素の時間的に直後の０個以上の形態素である後続形態素とを決定するものであり、前記形態素列情報における、前記判断形態素とポーズ検出部が検出したポーズとの間の形態素数と、あらかじめ決められた後続形態素の数とのうち、多くない方の数を後続形態素の数に決定する決定部と、
教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記教師テキストデータを処理単位に分割した場合における教師テキストデータの分割位置を示す情報である教師分割情報とを有する教師データを用いて機械学習を行うことにより、前記決定部が決定した前記判断形態素と１個以上の前記先行形態素と０個以上の前記後続形態素とを用いて前記判断形態素の位置が処理単位の分割位置であるかどうかを判断し、前記形態素列情報に対応するテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部と、
少なくとも前記分割情報を出力する出力部として機能させるためのプログラム。
発話された音声に対応するテキストデータを処理単位に分割する際に用いられるテキストデータのデータ構造であって、
発話された音声から生成された音声信号が音声認識され、音声認識結果であるテキストデータが形態素に分割された情報である形態素列情報と、
前記音声信号における発話のない区間に対応する形態素列情報の位置に挿入された、当該音声信号における発話のない区間の時間の長さを示す情報と、を含むデータ構造。