JP2020064630A

JP2020064630A - 文章記号挿入装置及びその方法

Info

Publication number: JP2020064630A
Application number: JP2019187743A
Authority: JP
Inventors: 績央渡邊; Isao Watanabe; 上林航; Ko Uebayashi
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2020-04-23
Anticipated expiration: 2038-10-15
Also published as: JP7229144B2

Abstract

【課題】文字列テキストデータに句点、読点等の文章記号が適切に挿入されていない場合に、適切にテキストに対して句点等の文章記号の挿入を行う装置及び方法を提供する。【解決手段】対話管理システムにおいて適切に文章記号が挿入されている学習対象の文字列テキストデータ中、着目形態素組の形態素及び文法情報を入力データと、着目形態素組の形態素間に文章記号が挿入されているどうかを示す出力データとを教師データとして学習して学習モデルを形成し、推定対象の文字列テキストデータ中、着目形態素組の形態素及び部報情報を入力データとして学習モデルに入力して得られた出力データに基づき着目形態素組の形態素間に文章記号を挿入すべきか否かを判断する。【選択図】図１

Description

本発明は、句点、読点等といった文章記号を挿入する文章記号挿入装置に関する。

現在、一のユーザの音声データ、又は、複数のユーザの音声データを入力することで音声認識テキストデータを出力する多種多様の音声認識エンジンが提供されている。ただし、音声認識エンジンによっては、句点を挿入する機能がないものもあり、また、句点を挿入する機能があっても、ユーザが発話しない時間が所定時間以上であれば句点を挿入するなど簡易的な機能が多い。

これに対し、特許文献１では、自由な入力単位を文の言語処理単位に適切に変換するために、形態素解析されたテキストデータに基づき複数の単語及び品詞並びに対して句点に対応する節境界らしさを表わすスコアを予め計算して統計モデルとして記憶し、形態素解析されたテキストデータに基づいて句点挿入箇所の韻律情報の経験的知識を予め抽出して経験的規則として記憶し、これらの統計モデル及び経験的規則を参照して、加えて、無音区間を検出して音声認識した単語列について、１つの入力単位の音声認識結果を複数の言語処理単位に分割し、複数の入力単位の音声認識結果を一つの言語処理単位に接合する接合処理を実行する音声言語処理単位変換装置を開示している。

特許第３００９６４２号

前記の音声言語処理単位変換装置では、統計モデルの計算式を予め作成しておく必要があり、特許文献１にも複数の計算式が提示されており、複数の計算式をテストデータで試して最もパフォーマンスの良い計算式を採用するか、その計算式をトライアンドエラーにて改良する必要があった。

本発明はこうした課題に鑑みてなされたものであり、その目的は、より適切にテキストに対して句点等の文章記号の挿入を行う機能を提供することにある。

本発明に係る文章記号挿入装置は、学習対象の文字列テキストデータ中、処理対象の形態素と当該処理対象形態素の次の形態素からなる着目形態素組の形態素及び文法情報を入力データとし、当該入力データと、着目形態素組の形態素間に文章記号が挿入されているかどうかを示す出力データとを教師データとして学習して学習モデルを形成する学習部と、文字列テキストデータを形態素解析し、分割された形態素と当該形態素の文法情報とを出力する形態素処理部と、推定対象の文字列テキストデータが前記形態素処理部で形態素解析されて得られた形態素と当該形態素の文法情報のうち、処理対象の形態素と当該処理対象形態素の次の形態素からなる着目形態素組の形態素及び文法情報を入力データとして前記学習モデルに入力し、出力された出力データに基づき着目形態素組の形態素間に文章記号を挿入すべきか否かを判断する推定部と、前記推定部の推定結果に基づき推定対象の文字列テキストデータに文章記号を挿入する文章記号挿入部とからなる。

本発明によれば、文章記号を挿入するための計算式を利用者が作成することなく、教師データで挿入された文章記号を踏まえ、推定対象の文字列テキストデータに適切に文章記号を挿入することができる。

本発明に係る第１の実施形態に係る対話管理システムの構成図である。本発明に係る第１の実施形態に係る対話型音声認識データ例である。本発明に係る第１の実施形態に係る形態素解析結果例である。本発明に係る第１の実施形態に係る教師データ例である。本発明に係る第１の実施形態に係る推定処理対象の音声認識データ例である。本発明に係る第１の実施形態に係る推定処理対象の音声認識データ例の形態素解析結果例である。本発明に係る第１の実施形態に係る推定処理説明図である。本発明に係る第１の実施形態に係る推定処理対象の音声認識データ例に句点を挿入した例である。本発明に係る第１の実施形態に係る学習処理シーケンス図である。本発明に係る第１の実施形態に係る推定処理シーケンス図である。本発明に係る第２の実施形態に係るワイルドカード設定説明図である。本発明に係る第３の実施形態に係る学習処理シーケンス図である。本発明に係るその他の実施形態に係る発話主体種別別の音声認識データ例である。本発明に係るその他の実施形態に係る句点挿入済みの音声認識データ例の対比図である。

（第１の実施形態）

以下、各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面において説明上重要ではない部材の一部は省略して表示する。

図１は本実施形態に係る対話管理システムの構成図である。対話管理システム１はコールセンター等に構築され、クライアントとオペレータの対話を管理しており、対話を録音し、録音データをテキスト化し、テキストデータに句点を挿入して記録する機能を提供している。対話管理システム１は、対話録音装置１００、音声認識装置２００及び句点挿入装置３００からなり、それぞれ有線又は無線にてネットワークに接続しており、通信可能となっている。なお、本実施形態では、対話録音装置１００、音声認識装置２００及び句点挿入装置３００をそれぞれ別のハードウェアから構成したものの、これらの装置を一のコンピュータ上で構成することもできるし、各装置を機能単位で更に複数のコンピュータで構成することもできる。

対話録音装置１００は、一の発話者と他の発話者の対話を音声データである対話録音データとして記録し、音声認識装置２００に送信する。典型的には、クライアントは携帯電話や固定電話を用いて電話公衆網を介してコールセンターのオペレータと通話を行い、この電話網を介した通話を対象として記録する。ここで、対話録音データには対話の連続した音声のデータだけでなく、発話者別の音声データであってもよい。電話公衆網を介してコールセンター側に送信されるクライアントの音声データと、典型的にはコールセンターの社内ネットワークに接続している電話機に発話されるオペレータの音声データをそれぞれ別のデータとして記録することができる。また、一の音声データであっても、話者別に音声を分離する公知慣用の音声分離技術もあり、これを用いることで話者別の音声データを取得することができる。

音声認識装置２００は、対話録音装置１００から記録している対話録音データから受信し、その対話録音データを公知慣用の音声認識技術を用いて文字列であるテキストデータに変換して音声認識データとして記録し、句点挿入装置３００に送信する。音声認識技術としては、体系的には、統計的手法、隠れマルコフモデル等を用いるものがある。音声認識装置は、対話の音声を文字列に変換するのみで句点や読点を挿入する機能を持たない装置もあるが、話者の切り替わりや発話の間を検出して句点や読点を挿入する機能を有するものもある。

句点挿入装置３００は、文字列テキストデータである音声認識データに対して適切に句点を挿入し、句点挿入済音声認識データを記録し、システム利用者が利用する装置からの要求を受けて記録した句点挿入済音声認識データを出力する装置であり、句点という文章記号を挿入する文章記号挿入装置の一種である。句点挿入装置３００は、前処理部３１０、形態素処理部３２０、教師データ生成部３３０、学習部３４０、推定部３５０及び句点挿入部３６０からなる。なお、図１のワイルドカード処理部３７０は第１の実施形態では用いず、第２の実施形態で用いるため、点線にて作画している。

前処理部３１０は処理対象となる音声認識データに対し、所定の記号を取り除く処理を行う。本実施形態ではこの所定の記号には句点を含むが、句点を含まなくてもよい。本実施形態では音声認識装置２００が句点を挿入する機能を有していたとしても、この前処理部３１０で処理対象となる音声認識データから句点が取り除かれることになり、本句点挿入装置３００で改めて句点を挿入する。また、前処理部３１０は本実施形態において学習対象の学習データについて句点を取り除かない。

形態素処理部３２０は、前処理済みの音声認識データに対して既存の形態素解析技術を用いて形態素解析を行う。ここで、形態素とは意味を持つ最小の言語単位であり、形態素解析とは、自然言語のテキストデータから、文法や単語の品詞などの情報に基づき、形態素に分割し、分割した形態素の品詞を判別することである。本実施形態では、テキストデータ中の形態素に対し、原形、品詞及び活用形を判別して付与する。

教師データ生成部３３０は、形態素解析データを学習部３４０に入力する教師データに変換し、その教師データを学習部３４０に出力する。図２はお客様とオペレータの対話の音声認識データ例を示したものであり、学習用のため、人手で句点を適切に挿入している。この学習用音声認識データ例を形態素解析したものが、図３の通りである。この学習用形態素解析データ例を変換した教師データが図４であり、形態素順に昇順に付与した番号、対象形態素の原形（基本形）、品詞及び活用形と、対象形態素と対象形態素の次の形態素の間に句点が挿入されている否かを示す句点有無とからなる。つまり、変換処理としては、図３の形態素の中で句点を特定し、句点の前の形態素の句点有無を「有」にし、それ以外の形態素の句点有無を「無」にし、句点の形態素を取り除いた。

学習部３４０は、入力された教師データを学習して学習モデルを形成する。教師データの入力データは、対象の形態素、その次の形態素（ここで、対象の形態素及び次の形態素のペアを着目形態素組と呼称する）、着目形態素組に隣接する２つの形態素それぞれについての原形、品詞、活用形であり、教師データの出力データは、対象の形態素の句点有無であり、言い換えれば、着目形態素組の形態素間に句点があるかどうかの情報である。図４には、教師データの一つの入力データ例及び対応する出力データ例を示している。ここで、着目形態素組に隣接する２つの形態素を第１隣接形態素組と呼称し、着目形態素組とは逆側に第１隣接形態素組と隣接する２つの形態素を第２隣接形態素組と呼称し、以降、着目形態素組から見てｎ番目に隣接する２つの形態素を第ｎ隣接形態素組と呼称する。ここで、形態素自身ではなく、形態素の原形を入力データとして用いているのは、形態素によっては活用形が異なり、学習するバリエーションが多くなるため原形を本実施形態では原形を用いている。原形の代わりに形態素自身を用いてもよいし、原形に加えて形態素自身を用いてもよい。なお、人工知能／機械学習／ディープラーニングの学習手法としては、様々なものが提案されており、いずれの手法を用いてもよいとする。

推定部３５０は、推定対象となる入力データを前処理部３１０及び形態素処理部３２０を介して取得し、入力データを学習モデルに入力して出力データを取得し、入力データに紐づけて出力データを記録する。前処理部３１０は図５に一例と示す推定処理対象となる音声認識データに対し、所定の記号を取り除く処理を行う。形態素処理部３２０は、前処理済みの音声認識データに対して既存の形態素解析技術を用いて形態素解析を行い、図６に示す形態素解析データを得る。推定部３５０はこの形態素解析データから着目形態素組の２つの形態素及び第１隣接形態素組の２つの形態素それぞれについての原形、品詞、活用形を入力データとして学習モデルに入力し、出力データを取得し、着目形態素組の形態素間に句点を挿入すべきか否かを判断し、その判断結果を対象の形態素の句点有無に記録する（図７参照）。学習モデルの出力データの具体例としては、句点を挿入すべき程度を示す値（例えば、０ないし１の値で１に近い程挿入すべきであることを示す）と、句点を挿入すべきではない程度を示す値（例えば、０ないし１の値で１に近い程挿入すべきではないことを示す）である。ここで、この具体例の場合にあっては、それぞれの値に基づき句点有無を判断することになり、例えば、句点を挿入すべき程度を示す値と句点を挿入すべきではない程度を示す値を比較し、句点を挿入すべき程度を示す値が大きければ句点有と判断し、句点を挿入すべきではない程度を示す値が大きければ句点無と判断する。

形態素処理部３２０は形態素解析する前の推定対象の音声認識データ上の形態素の位置も形態素解析時に記録しており、句点挿入部３６０は、句点有無が「有」となっている形態素について前記推定対象の音声認識データ上の対応する位置に句点を挿入する（図８参照）。

次に本実施形態に係る句点挿入装置の動作について、図９を用いて学習動作を、図１０を用いて推定動作を説明する。

図９に示す通り、前処理部３１０が学習対象となる多数の対話データである音声認識データに対して前処理を実行する（ステップ１０５）。形態素処理部３２０は前処理済みの全音声認識データに対して形態素解析を行う（ステップ１１０）。教師データ生成部３３０は全形態素解析データを教師データに変換する（ステップ１１５）。学習部３４０は全教師データから一の教師データを取り出し、対象の教師データから一の入力データ及び出力データを取り出し、学習を実行する（ステップ１２０）。学習部３４０は最後の入力データ及び出力データか否かを判断し（ステップ１２５）、最後の入力データ及び出力データではない場合には対象の教師データの次の入力データ及び出力データを取り出し（ステップ１３０）、ステップ１２０を実行する。最後の入力データ及び出力データの場合には、学習部３４０は対象の対話データが最後の対話データか否かを判断し（ステップ１３５）、最後の対話データでなければ学習部３４０は次の対話データを取り出し（ステップ１４０）、ステップ１２０を実行する。最後の対話データの場合には、学習動作を終了する。

図１０に示す通り、前処理部３１０が推定対象となる対話データである音声認識データに対して前処理を実行する（ステップ２０５）。形態素処理部３２０は前処理済みの音声認識データに対して形態素解析を行う（ステップ２１０）。推定部３５０は形態素解析データから最初の入力データを学習モデルに入力し、出力データを得る（ステップ２１５）。推定部３５０は得た出力データに基づき対象形態素の次に句点を挿入すべきか否かを判断し、その判断結果を対象形態素と関連付けて記録する（ステップ２２０）。推定部３５０は対象の入力データが最後の入力データか否かを判断し（ステップ２２５）、最後の入力データでなければ次の入力データを取り出し（ステップ２３０）、ステップ２１５に移行する。最後の入力データであれば、句点挿入部３６０は全入力データに対する句点有無判断結果に基づき推定対象の音声認識データに対して句点を挿入する（ステップ２３５）。

このように本実施形態に対話管理システムによれば、学習用の音声認識データを準備して入力することで、特に、統計式を予め検討することなく、学習して学習用データに対応した学習モデルが形成され、推定時にはこの学習モデルを用いて各形態素間に句点を挿入すべきかどうかを判断し、挿入すべき句点が適切に挿入される。

なお、本実施形態においては、着目形態素組の２つの形態素及び第１隣接形態素組の２つの形態素の原形、品詞及び活用形を入力データとして学習し、形成した学習モデルに対し、着目形態素組の２つの形態素及び第１隣接形態素組の２つの形態素それぞれについての原形、品詞、活用形を入力データとして入力し、出力データを用いて着目形態素組の形態素間に句点を挿入すべきか否かを判断したが、第１隣接形態素組と同様に、これらに加え第２隣接形態素組の２つの形態素の原形、品詞及び活用形を用いて学習して推定してもよいし、着目形態素組の２つの形態素及び第１隣接形態素組の２つの形態素ないし第ｎ隣接形態素の２つの形態素を用いて学習して推定してもよい。また、学習対象の音声認識データ中、着目形態素組の原形等を用いて学習し、推定対象の音声認識データ中、着目形態素組の原形等を用いて推定してもよい。

（第２の実施形態）

本第２の実施形態に係る対話管理システム１は、前記第１の実施形態に係る対話管理システム１と同様であり、句点挿入装置３００がワイルドカード処理部３７０を追加で有する点を異にする構成である。

ワイルドカード処理部３７０はワイルドカード設定情報を参照し、学習用形態素解析データ及び推定用形態素解析データに該当するデータがあれば、「＊」（アスタリスク）等のワイルドカード記号で置換を行う。ワイルドカード設定情報はシステム設定者が予め、形態素、品詞、活用形の組み合わせでワイルドカード設定したい組み合わせを設定する。過去の対話データである音声認識データを多数用意したとしても、対話で利用される可能性がある全ての形態素、品詞及び活用形の組み合わせを網羅することは難しいため、現在の学習用対話データでカバーできない組み合わせのうち、今後、出現頻度の可能性が高い形態素、品詞及び活用形をワイルドカード設定することが望ましい。形態素、品詞及び活用形のいずれでもワイルドカード指定することができ、形態素、品詞及び活用形のうち２つをワイルドカード指定することもできる。上記ワイルドカード処理部３７０の具体的な処理例としては、図１１に示す通り、形態素、品詞及び活用形がそれぞれ「難しい」、「形容詞」、「＊」である一のワイルドカード設定があり、学習用データには図３に示す通り、「難しい」、「形容詞」、「連用形‐促音便」があり、前記一のワイルドカード設定に該当するため、図１１に示す通り、活用形を「連用形‐促音便」から「＊」に変更する。同様に、学習用データにおいても図６に示す通り、形態素、品詞及び活用形がそれぞれ「様」、「接尾辞」、「（ｎｕｌｌ）」があり、一のワイルドカード設定で形態素、品詞及び活用形が「＊」、「接尾辞」、「（ｎｕｌｌ）」があって合致するため、学習用データの形態素「様」を「＊」に変換する。ワイルドカード処理部３７０で処理された後は、前記第１の実施形態と同様に、学習時に学習部３４０でワイルドカード処理された形態素解析データから教師データを生成して学習し、推定時に推定部３５０でワイルドカード処理された形態素解析データを用いて形成済みの学習モデルに基づき推定を行う。

このように本実施形態の対話管理システムによれば、学習用データにない形態素、品詞及び活用形をワイルドカード設定することで、推定用データに学習用データでは出現しなかった形態素、品詞及び活用形の組み合わせが出現したとしても、ワイルドカード設定でカバーされることで、学習モデルでの推定が適切に実行される。

なお、本実施形態においては予めシステム設定者がワイルドカード設定情報を設定し、そのワイルドカード設定情報を参照して処理を行ったが、ワイルドカード設定情報を用いることなく、学習対象の音声認識データをワイルドカード指定することもでき、この場合、学習対象の音声認識データのワイルドカード指定を参照して推定対象の音声認識データをワイルドカード指定して推定処理を行うこととなる。

また、ワイルドカード設定情報はシステム設定者が予め、形態素、品詞、活用形の組み合わせでワイルドカード設定したい組み合わせを設定するとしたが、システム設定者が任意で気づいたタイミングでワイルドカード設定をする他、例えば、図４の教師データの入力データを出現頻度で集計したリスト（又は、必要に応じて出現頻度数にて昇順又は降順したリスト）をシステム設定者等のユーザに表示してワイルドカード設定を受け付ける構成であってもよく、ユーザによっては出現頻度件数等で足切りして出現頻度の少ない語彙をワイルドカード設定することもできる。

（第３の実施形態）

本第３の実施形態に係る対話管理システム１は、前記第１の実施形態に係る対話管理システム１と同様であり、着目形態素組の２つの形態素及び第１隣接形態素組の２つの形態素ないし第ｎ隣接形態素の２つの形態素を用いて学習して推定する処理を、ｎが１を初期値とし、ｎを所定閾値までそれぞれ実施し、最もテスト結果の良い推定結果となったｎの値の学習モデルを用いて以降の推定処理を行うことを異にする構成である。ここで、形成されるｎ個の学習モデルのテストは、教師データと同様の構成であるテストデータを用いて行うが、教師データのうち学習時に用いる教師データを７割程度とし、残り３割の教師データをテストデータとして用いテスト実行しても良い。学習モデルにテストデータの入力データを入力して得られた出力データとテストデータの出力データとを比較することでテストの正誤が分かり、テストデータ個数中の正解数が正答率となり、ｎ個の学習モデルのうち正答率が最も高い学習モデルが実運用で使用する学習モデルとなる。

次に、図１２を用いて本実施形態に係る対話管理システム１の動作について説明するが、同じステップ番号が付与されているステップは第１の実施形態の動作のため説明を省力する。また、本実施形態のｎの所定閾値は３とする。ステップ１１５で教師データを作成した後、ｎを初期値の１とし、以降の動作を実行する（ステップ３０５）。つまり、ステップ１２０ないしステップ１４０の各動作である学習処理を、着目形態素組と第１隣接形態素組を対象として実行することでｎが１の学習モデルが形成される。ステップ３１５で、ｎが所定閾値の３であるかどうかを比較し、ｎが１であるため１インクリメントとし、ステップ１２０に戻り、同様に、着目形態素組、第１隣接形態素組及び第２隣接形態素組を対象として学習処理を実行してｎが２の学習モデルが形成される。同様に、ステップ３１５に移行してｎが３として学習処理がなされ、ｎが３の学習モデルが形成される。ｎが３であり、次のステップ３１５の判断ブロックで終了に移行する。以上により、ｎ＝１の学習モデル、ｎ＝２の学習モデル、ｎ＝３の学習モデルが形成されたことになり、テストデータを用いてテスト実行することで、それぞれの学習モデルの正答率が得られ、最も正答率の高い学習モデルを今後の推定処理で用いる学習モデルとする。

このように本実施形態の対話管理システムによれば、ｎの閾値個数分の学習モデルを形成し、最も正答率の高い学習モデルを採用して今後の推定処理を行うため、推定処理に用いられる入力データに最適な推定処理が可能となる。

（その他の実施形態）

前記各実施形態においては、発話主体又は発話主体種別が異なっている場合であっても、発話主体又は発話主体種別によらず複数の発話主体又は発話主体種別による発話内容全体を対象に前処理及び形態素解析処理を実行して学習し、形成した学習モデルを用いて推定を行っているが、発話主体又は発話主体種別別に学習し、推定を行ってもよい。発話主体／発話主体種別の識別は、例えば、発話内容を録音している際に可能であり、お客様がコールセンターのオペレータと通話している例であれば、お客様とオペレータで通話チャネルが異なり、オペレータの通話チャネルから出力される音声データにはオペレータの識別情報（オペレータそれぞれに付与されているオペレータ識別情報又はオペレータという役割を示す発話主体種別識別情報）を付与し、お客様の通話チャネルから出力される音声データにはお客様の識別情報（お客様それぞれに付与されている顧客識別情報又はオペレータという役割を示す発話主体種別識別情報）を付与し、音声認識時に、それらの発話主体の識別情報を用いることで、オペレータの音声認識テキストデータと、お客様の音声認識テキストデータを識別して保存可能となる。この他にも発話主体を識別する方法はあり、いずれにしろ、音声認識装置２００から句点挿入装置３００に音声認識データを入力する際に、句点挿入装置３００が発話主体毎に学習及び推定処理が可能であればよく、発話主体毎に音声認識テキストデータを句点挿入装置３００に入力してもよい（図１３に示す通り、発話主体種別により分離可能な音声認識データでもよい）。前記オペレータとお客様の例の場合には、オペレータの音声認識テキストデータを学習してオペレータの学習モデルを形成し、推定時に推定処理対象のオペレータの音声認識テキストデータを入力し、句点挿入箇所の出力データを得て句点挿入を反映する。

また、前記各実施形態においては、着目形態素組の２つの形態素及び第１隣接形態素組の２つの形態素の原形、品詞及び活用形を入力データとし、着目形態素組の２つの形態素間の句点有無を示す出力データを学習データとして学習し、形成した学習モデルに対し、着目形態素組の２つの形態素及び第１隣接形態素組の２つの形態素それぞれについての原形、品詞、活用形を入力データとして入力し、出力データを用いて着目形態素組の形態素間に句点を挿入すべきか否かを判断したが、同様に、着目形態素組の２つの形態素及び第１隣接形態素組の２つの形態素の原形、品詞及び活用形を入力データとし、着目形態素組の２つの形態素間の読点有無を示す出力データを学習データとして学習し、形成した学習モデルに対し、着目形態素組の２つの形態素及び第１隣接形態素組の２つの形態素それぞれについての原形、品詞、活用形を入力データとして入力し、出力データを用いて着目形態素組の形態素間に読点を挿入すべきか否かを判断する構成であってもよい。読点に代えて、改行等の文章記号であっても同様である。

また、本実施形態においては、対話の音声認識データを処理対象としたが、対話に限らず、発話者が一人のスピーチ、講演の音声認識データでもよく、対話も二人に限らず三人以上の議論等であってもよい。更には、音声認識データでなくてもよく、ワープロソフトで作成した文章であってもよい。音声認識データでは音声認識エンジンにより適切に文章記号が挿入されないという課題があったが、書き手が入力する文章にも文章記号が適切に挿入されていない課題がある。例えば、読点の打ち方は文法的に間違っていなくとも、人為的に取り決めている推敲基準があり、読点挿入装置に対してその推敲基準を満たした教師データで学習して推定することで、推敲基準を満たす読点を挿入することができる。

また、前記各実施形態においては、学習モデルの出力データの具体例としては、句点を挿入すべき程度を示す値と、句点を挿入すべきではない程度を示す値とを例示したが、いずれか一方であってもよく、例えば、句点を挿入すべき程度を示す値が所定閾値以上であれば句点を挿入すべきと判断する構成であってもよく、この場合の所定閾値は利用者が設定可能で、その所定閾値毎に句点を挿入した推定対象の音声認識データを記録し、いずれかの句点を挿入した音声認識データと、他の句点を挿入した音声認識データを比較し、句点挿入の有無を顕示する構成であってもよい。ここで、例えば、句点を挿入すべき程度を示す値の所定閾値を小さいくすることで、図１４に示す通り、句点が挿入され易くなり、標準の所定閾値で句点を挿入した音声認識データと比較し、追加された句点を下線で顕示し、削除された句点を二重取り消し線顕示してもよい。

本発明は、文字列テキストデータに文章記号を適切に挿入する文章記号挿入装置に好適に利用可能である。

対話録音装置１００
音声認識装置２００
句点挿入装置３００
前処理部３１０
形態素処理部３２０
教師データ生成部３３０
学習部３４０
推定部３５０
句点挿入部３６０

Claims

学習対象の文字列テキストデータ中、処理対象の形態素と当該処理対象形態素の次の形態素からなる着目形態素組の形態素及び文法情報を入力データとし、当該入力データと、
着目形態素組の形態素間に文章記号が挿入されているかどうかを示す出力データとを教師データとして学習して学習モデルを形成する学習部と、
文字列テキストデータを形態素解析し、分割された形態素と当該形態素の文法情報とを出力する形態素処理部と、
推定対象の文字列テキストデータが前記形態素処理部で形態素解析されて得られた形態素と当該形態素の文法情報のうち、処理対象の形態素と当該処理対象形態素の次の形態素からなる着目形態素組の形態素及び文法情報を入力データとして前記学習モデルに入力し、出力された出力データに基づき着目形態素組の形態素間に文章記号を挿入すべきか否かを判断する推定部と、
前記推定部の推定結果に基づき推定対象の文字列テキストデータに文章記号を挿入する文章記号挿入部とからなり、
前記文字列テキストデータは発話主体別の識別情報が付与されており、
前記学習部は発話主体別の識別情報を用いて発話主体別に学習して学習モデルを形成し、
前記推定部は発話主体別の識別情報により発話主体別の学習モデルを用いて文章記号を挿入すべきか否かを判断し、前記推定部の出力データは、文章記号を挿入すべき程度を示す値、及び／又は、文章記号を挿入すべきではない程度を示す値であり、
前記文章記号挿入部は、出力データを所定閾値と比較した結果に基づき文章記号を挿入
する文章記号挿入装置。
推定対象の文字列テキストデータから所定の文章記号を取り除く前処理部を含む
前記請求項１に記載の文章記号挿入装置。
前記前処理部が取り除く文章記号は、前記推定部が挿入すべきか否かを判断する文章記号である
前記請求項２に記載の文章記号挿入装置。
前記文章記号挿入部により前記所定閾値を標準の所定閾値で文章記号を挿入した文字列テキストデータと、前記文章記号挿入部により前記所定閾値を変更した所定閾値で文章記号を挿入した文字列テキストデータとを比較し、追加された文章記号及び削除された文章記号を顕示する
前記請求項１ないし３のいずれかに記載の文章記号挿入装置。
ワイルドカード設定情報又は学習データの入力データのワイルドカード指定を参照し、
推定対象の入力データをワイルドカード記号に置換するワイルドカード処理部を含み、
当該ワイルドカード処理部によりワイルドカードに置換された推定対象の入力データを用いて推定部で推定する
前記請求項１ないし４のいずれに記載の文章記号挿入装置。
学習対象の文字列テキストデータ中、処理対象の形態素と当該処理対象形態素の次の形態素からなる着目形態素組の形態素及び文法情報を入力データとし、当該入力データと、着目形態素組の形態素間に文章記号が挿入されているかどうかを示す出力データとを教師データとして学習して学習モデルを形成する学習ステップと、
文字列テキストデータを形態素解析し、分割された形態素と当該形態素の文法情報とを出力する形態素処理ステップと、
推定対象の文字列テキストデータが前記形態素処理ステップで形態素解析されて得られた形態素と当該形態素の文法情報のうち、処理対象の形態素と当該処理対象形態素の次の形態素からなる着目形態素組の形態素及び文法情報を入力データとして前記学習モデルに入力し、出力された出力データに基づき着目形態素組の形態素間に文章記号を挿入すべきか否かを判断する推定ステップと、
前記推定ステップの推定結果に基づき推定対象の文字列テキストデータに文章記号を挿入する文章記号挿入ステップとからなり、
前記文字列テキストデータは発話主体別の識別情報が付与されており、
前記学習ステップで、発話主体別の識別情報を用いて発話主体別に学習して学習モデルを形成し、
前記推定ステップで、発話主体別の識別情報により発話主体別の学習モデルを用いて文章記号を挿入すべきか否かを判断し、
前記推定ステップの出力データは、文章記号を挿入すべき程度を示す値、及び／又は、文章記号を挿入すべきではない程度を示す値であり、
前記文章記号挿入ステップは、出力データを所定閾値と比較した結果に基づき文章記号を挿入する文章記号挿入方法。