JP7293767B2 - テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム - Google Patents

テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム Download PDF

Info

Publication number
JP7293767B2
JP7293767B2 JP2019052012A JP2019052012A JP7293767B2 JP 7293767 B2 JP7293767 B2 JP 7293767B2 JP 2019052012 A JP2019052012 A JP 2019052012A JP 2019052012 A JP2019052012 A JP 2019052012A JP 7293767 B2 JP7293767 B2 JP 7293767B2
Authority
JP
Japan
Prior art keywords
unit
segment
boundary
learning
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019052012A
Other languages
English (en)
Other versions
JP2020154661A (ja
Inventor
克己 金崎
嘉偉 勇
聖彦 篠宮
俊之 古田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2019052012A priority Critical patent/JP7293767B2/ja
Publication of JP2020154661A publication Critical patent/JP2020154661A/ja
Application granted granted Critical
Publication of JP7293767B2 publication Critical patent/JP7293767B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステムに関する。
今日において、例えば議会の会議録等のテキストデータを、複数のセグメントに分割するテキストセグメンテーション装置が知られている。このようなテキストセグメンテーション装置は、テキストデータを各話題等に応じたセグメントに分割する。これにより、テキストの読解を容易とすることができる。また、テキストデータをセグメントに分割処理することで、テキストの要約の作成、論旨の構造化作業、及び、所望の話題の検索等を行い易くすることができる。また、テキストデータのセグメント分割処理は、書き言葉及び話し言葉のいずれにも需要がある。なお、話し言葉の場合は、音声を認識処理又は書き起こし処理することでテキストデータを形成し、このテキストデータに対してセグメント分割処理を施すようになる。
さらに、例えば議会での発言を引用したニュース又はウェブログ(Weblog=ブログ)記事から元の発言を特定してその引用の正確性を判断する場合、テキストデータをセグメントに分割処理することで、議会の会議録からその引用に対応するセグメントを容易に検索可能とすることができる。また、インタビューの取材メモ(MEMORANDUM=備忘録)をセグメント分割処理することで、話の流れを容易に整理可能とすることができる。
このように、セグメント分割処理の応用範囲は広い。例えば、使われている語彙から話題のかたまり又は変化を検出して各セグメントに分割処理するセグメント分割処理手法が知られている。また、「次に」等の、話題を切り替える手がかり表現を検出して各セグメントに分割処理するセグメント分割処理手法が知られている。
例えば、特許文献1(特開2004-145790号公報)には、比較的短い文書を高精度にセグメント化可能な文書のセグメント化方法が開示されている。この文書のセグメント化方法の場合、集合内の文毎に、各文と複数の文書を含むコーパス内の各文書との間の関連度を算出する。また、集合内の隣接する二つの文の関連度に基づいて、互いの結束度を算出する。そして、この結束度が予め定められた閾値以上である連続した範囲の文を一つのセグメントとして抽出する。
しかし、従来は、話題に対応する語彙に基づいてセグメント分割処理が行われていた。このため、「話者の交代又は明示的な節の切り替わりに基づくセグメント分割処理」、「話題に対応する語彙の切り替わりに基づくセグメント分割処理」、及び、「セグメントの境界にある手がかり表現に基づくセグメント分割処理」を、それぞれ区別して実行することが困難となっていた。このため、ユーザが理解し難いテキストの構造にセグメント分割処理が行われる問題があった。
本発明は、上述の課題に鑑みてなされたものであり、ユーザが理解し易いテキストの構造にセグメント分割処理を行うことが可能なテキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステムの提供を目的とする。
上述した課題を解決し、目的を達成するために、本発明は、セグメントに分割されて入力されるテキスト情報を取得する取得部と、取得部により取得されたテキスト情報を、より細かいセグメントに分割処理する分割処理部とを有し、分割処理部は、セグメント境界の特徴を学習して学習モデルを作成する境界特徴学習部と、学習モデルの学習結果に基づいてセグメント境界の場所を推定する境界推定部と、セグメント境界の特徴の学習及びセグメント境界の場所の推定を繰り返し行うように境界特徴学習部及び境界推定部を制御する反復制御部と、反復制御部による制御結果に基づく学習モデルを記憶部に記憶させる記憶制御部と、を有し、記憶部に記憶された学習モデルを用いてテキスト情報を前記より細かいセグメントに分割処理する
本発明によれば、ユーザが理解し易いテキストの構造にセグメント分割処理を行うことができるという効果を奏する。
図1は、実施の形態のテキストセグメンテーションシステムのシステム構成図である。 図2は、実施の形態のテキストセグメンテーションシステムを構成するハードウェアの共通するハードウェア構成を示す図である。 図3は、実施の形態のテキストセグメンテーションシステムに設けられているテキストセグメンテーションサーバ装置の機能ブロック図である。 図4は、テキストセグメンテーションサーバ装置の学習動作の流れを示すシーケンス図である。 図5は、学習モデルに基づくセグメント境界決定動作の流れを示すシーケンス図である。 図6は、セグメント分割処理結果の第1の表示例を示す図である。 図7は、セグメント分割処理結果の第2の表示例を示す図である。 図8は、セグメント分割処理結果の第3の表示例を示す図である。 図9は、セグメント分割処理結果の第4の表示例を示す図である。
以下、添付図面を参照して、実施の形態のテキストセグメンテーションシステムの説明をする。
(概要)
まず、実施の形態のテキストセグメンテーションシステムの概要を説明する。理解容易な議会の会議録のセグメント分割処理を例としてすると、質問又はや答弁は、いくつかの話題に分かれており、一つの話題の先頭には、「まず、」「次に、」といった「手がかり表現」が現れることが多い。同様に、話題の末尾には、質問であれば「見解を伺います。」答弁であれば「してまいります。」といった手がかり表現がある。これらの手がかり表現は話者によって異なることもあるため、すべてのパターンを網羅しておくことが難しい。そこで、手がかり表現の特徴を機械学習技術によって学習する。
明らかにセグメント境界となる箇所がわかっている場合がある。議会の会議録であれば、話者の切り替わるところを明らかにセグメント境界となる箇所とすることができる。または、最初にいくつかの手がかり表現がわかっているとしてもよい。このパターンに合致する場所を探し、それを最初にセグメント境界とする。
このように暫定的に得られたセグメント境界の前の行はセグメント末尾の行であり、その次の行はセグメント先頭の行となる。このため、その特徴をそれぞれ機械学習技術によって学習する。このようにして学習された学習モデルによってセグメント先頭又はセグメント末尾と判定される箇所を、さらに検索する。セグメント先頭の直前及びセグメント末尾の直後は、セグメント境界と考えられる。そこで、再びその前の行と次の行の特徴を学習する。
また、最初に採用した暫定的なセグメント境界と、その後の学習によって判定されたセグメント境界を区別して表示する。これにより、ユーザに対して、性質の異なるセグメント境界の存在を認識させることができる。
また、手間をかけてセグメント分割処理されたテキストデータ(教師データ)を用意することなく、手がかり表現に基づくセグメント分割処理を行うことができる。
また、「話者の交代又は明示的な節の切り替わりに基づくセグメント分割処理」、「話題に対応する語彙の切り替わりに基づくセグメント分割処理」、及び、「セグメントの境界にある手がかり表現に基づくセグメント分割処理」の3種類のセグメント分割処理を区別して行うことができる。そして、このような3種類(あるいはそのうちの2種類)のセグメンテーションを区別して提示することにより、テキストデータへの理解をより深めることができる。さらに、セグメント境界の確からしさを数値として得ることもできる。この確からしさに応じて提示方法を変えてもよい。
[実施の形態]
(システム構成)
図1は、実施の形態のテキストセグメンテーションシステムのシステム構成を示す図である。この図1に示すテキストセグメンテーションシステムは、クライアント端末1及びサーバ群2を、例えばインターネット等の公共網又はLAN(Local Area Network)等のプライベート網を介して相互に接続して構成されている。
サーバ群2は、アプリケーションサーバ装置4、テキスト保存サーバ装置5及びテキストセグメンテーションサーバ装置6を有している。アプリケーションサーバ装置4は、ユーザからのセグメント分割処理要求を受け付ける。また、アプリケーションサーバ装置4は、ユーザから要求されたテキストデータをテキスト保存サーバ装置5から取得し、テキストセグメンテーションサーバ装置6に送信して、セグメント分割処理要求を行う。
また、アプリケーションサーバ装置4の表示生成部7は、テキストセグメンテーションサーバ装置6によりセグメント分割処理されたテキストデータを、ネットワーク3を介してクライアント端末1に送信する。クライアント端末1のWebブラウザ8は、セグメント分割処理されたテキストデータを、モニタ装置等に表示する。
なお、この例では、サーバ群2は、各サーバ装置4~6を有することとしたが、一つのサーバ装置に各サーバ装置4~6の各処理を実行させてもよい。
(クライアント端末及び各サーバ装置のハードウェア構成)
図2は、クライアント端末1、サーバ群2のアプリケーションサーバ装置4、テキスト保存サーバ装置5及びテキストセグメンテーションサーバ装置6のハードウェア構成を示す図である。これらは、一般的なパーソナルコンピュータ装置の構成を有しており、図2に示すように、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、HDD(ハードディスクドライブ)14、操作インタフェース部(操作I/F)15、及び、通信部16を有している。操作I/F15には、マウス装置17及びキーボード装置18等の入力装置が接続されている。なお、各サーバ装置の場合、これらのハードウェアのうち、操作インタフェース部(操作I/F)15は省略可能である。
クライアント端末1の場合、HDD14には、Webブラウザ8のWebブラウジングプログラム、及び、クライアント端末用のテキストセグメンテーションプログラムが記憶されている。セグメント分割処理を希望するテキストデータの指定処理は、クライアント端末用のテキストセグメンテーションプログラム及びアプリケーションサーバ装置4用のテキストセグメンテーションプログラムに基づいて行われる。クライアント端末用のテキストセグメンテーションプログラムは、セグメント分割処理を希望するテキストデータの指定処理を行うためのユーザインタフェースの部分を受け持っている。クライアント端末1のCPU11は、このテキストセグメンテーションプログラムに基づいて、セグメント分割処理を希望するテキストデータを指定処理し、また、セグメント分割処理されたテキストデータを、Webブラウザ8を介してモニタ装置等に表示制御する。
アプリケーションサーバ装置4の場合、HDD14には、アプリケーションサーバ装置4用のテキストセグメンテーションプログラムが記憶されている。アプリケーションサーバ装置4のCPU11は、このテキストセグメンテーションプログラムを実行することで表示生成部7として機能し、セグメント分割処理されたテキストデータをクライアント端末1に送信する。
テキスト保存サーバ装置5の場合、HDD14には、テキスト保存サーバ装置5用のテキストセグメンテーションプログラム、及び、セグメント分割処理前及びセグメント分割処理後のテキストデータが記憶されている。テキスト保存サーバ装置5のCPU11は、HDD14に対するテキストデータの書き込み制御及び読み出し制御を行う。
テキストセグメンテーションサーバ装置6の場合、HDD14には、このサーバ装置6用のテキストセグメンテーションプログラムが記憶されている。サーバ装置6のCPU11は、このテキストセグメンテーションプログラムを実行することで、図3に示す各機能を実現する。
(テキストセグメンテーションサーバ装置の機能)
すなわち、サーバ装置6のCPU11は、テキストセグメンテーションプログラムを実行することで、図3に示すように、学習機能インタフェース部21、反復制御部22、セグメンテーション機能インタフェース部23、境界特徴学習部24、境界推定部25、及び、境界特徴記憶制御部26の各機能を実現する。
この図3からわかるように、テキストセグメンテーションサーバ装置6は、学習機能インタフェース部21と、セグメンテーション機能インタフェース部23との、2つのアプリケーションインタフェース部を提供している。
学習機能インタフェース部21は、この学習機能を装置外に提供する部分であり、装置外との入出力を仲介する。セグメンテーション機能インタフェース部23は、セグメンテーション機能を装置外に提供する部分であり、装置外との入出力を仲介する。
反復制御部22は、学習機能による学習及び推定を繰り返し制御することで、次第に正確な推定を可能とする。境界特徴学習部24は、セグメント境界の特徴を学習して学習モデルを形成する。境界特徴記憶制御部26は、この学習モデルをHDD14等の記憶部に記憶制御及び読み出し制御する。境界推定部25は、境界特徴記憶制御部26を介して記憶部から読み出される学習モデルに基づいて、セグメント境界の推定動作を行う。
(学習モデルの形成動作)
図4は、学習モデルの形成動作の流れを示すシーケンス図である。この図4のシーケンス図のステップS1において、例えば以下の表1に例示するテキストデータが供給されると、学習機能インタフェース部21は、反復制御部22を呼び出す。
Figure 0007293767000001
この表1のテキストデータは、議会の会議録から抜粋単純化して作成したテキストデータの一例である。発言者はデータに含まれていなくてもよいが、この例ではこの6文が福祉保健局長の一連の発言の全体であると仮定している。発言者の区切りをセグメントの区切りとみなし、各セグメントの先頭にはB(Begin)、末尾にはE(End)、その中間にはM(Middle)のラベルが付加されている。
なお、この例にはないが、実際には単一の行がセグメントとなることもあり、そのような行にはラベルWを付加する。また、セグメントに含まれない行には、ラベルOを付加する。このようなラベルの付加形態は、この他、例えばセグメント先頭にB、その他のセグメントに含まれる行にはI、セグメントに含まれない行にはOのラベルを付加する付加形態としてもよい。
次に、図4のシーケンス図において、反復制御部22は、境界特徴学習部24と境界推定部25を、ステップS2及びステップS7に示すように繰り返し呼び出す。この反復は、境界推定部25の推定結果として返信されるセグメント列の変化が十分小さくなるか、又は、予め定められた所定の回数分、繰り返し実行される。
具体的には、境界特徴学習部24は、まず、セグメント先頭の特徴を学習するためのものと、セグメント末尾の特徴を学習するためのものとの、2つの訓練データを形成する(ステップS3)。
具体的には、境界特徴学習部24は、セグメント先頭の方では、入力されたテキストデータでBラベルが付加されている行に「1」のラベルを付加し、それ以外のランダムに選択した行に「0」のラベルを付加し、これらを合わせて訓練データを形成する。表1の例の場合、Bラベルが付加されている行が1つのみであるが、実際のテキストデータは、これより大きなテキストデータとなるため、多数の行にBラベルが付加されている。
同様に、境界特徴学習部24は、セグメント末尾の方では、入力されたテキストデータでEラベルが付加されている行に「1」のラベルを付加し、それ以外のランダムに選択した行に「0」のラベルを付加し、これらを合わせて訓練データを形成する。
次に、境界特徴学習部24は、セグメント先頭及びセグメント末尾に対して、機械学習の技術によって2値分類の学習モデルを作成する(ステップS4、ステップS5)。具体的には、境界特徴学習部24は、上述の訓練データに含まれる文に対してどの単語がいくつ含まれるかを示すベクトルを作成し、必要であれば次元圧縮を施した後、例えば「Support Vector Machine」又は「Logistic Regression」等のアルゴリズムを用いて学習モデルを作成する。境界特徴学習部24は、このように作成した学習モデルを反復制御部22に送信する(ステップS6)。
次に、反復制御部22は、この学習モデルを指定して境界推定部25を呼び出す(ステップS7)。境界推定部25では、入力セグメント列に含まれる全ての発言文に対してセグメント先頭及びセグメント末尾それぞれのモデルを適用し、セグメント先頭と推定される行及びセグメント末尾と推定される行を特定する(ステップS8、ステップS9)。
このとき、「Logistic Regression」等のモデルでは、セグメント先頭又はセグメント末尾と推定される蓋然性を数値として得ることができる。このため、この数値が所定の閾値以上のときにセグメント先頭やセグメント末尾と判定するかを変更可能とすることで(閾値を変更可能とすることで)、最終的に得られるセグメントの粒度を調整可能とすることができる。
次に、セグメント先頭と推定された文の直前とセグメント末尾と推定された文の直後がセグメント境界であるとみなしてセグメント境界を決定する(ステップS10)。最後に、学習機能インタフェース21が、反復制御部22から返された学習モデルを(ステップS11、ステップS12)、境界特徴記憶制御部26を介してHDD14等の記憶部に書き込み、学習モデルの形成動作が終了する(ステップS13)。
(学習モデルに基づく出力データの出力動作)
図5は、このように形成した学習モデルに基づいて、入力データに対してセグメント分割処理を施した出力データを形成する各部の動作を示すシーケンス図である。この図5において、例えば表1に例示したような入力データのセグメント列がセグメンテーション機能インタフェース部23に供給されると、セグメンテーション機能インタフェース部23は、境界特徴記憶制御部26を介して、HDD14等の記憶部から上述の学習モデルを読み出す(ステップS21、ステップS22)。
次に、セグメンテーション機能インタフェース部23は、読み出された学習モデルを境界推定部25に供給する(ステップS23)。上述のように、境界推定部25は、入力セグメント列に含まれる全ての発言文に対してセグメント先頭及びセグメント末尾それぞれのモデルを適用し、セグメント先頭と推定される行及びセグメント末尾と推定される行を特定する(ステップS24、ステップS25)。
次に、セグメント先頭と推定された文の直前とセグメント末尾と推定された文の直後がセグメント境界であるとみなしてセグメント境界を決定する(ステップS26)。そして、境界推定部25は、決定した境界でセグメント分割処理した出力データ(出力セグメント列)を出力する(ステップS27)。
一般に、モデルの学習には大規模なデータが必要となるが、大きなデータを学習機能で学習してモデルを作成しておけば、小規模なデータのみが与えられた場合にもそのモデルを使って、セグメンテーション機能での処理を可能とすることができる。
学習機能の中でもモデルと合わせてセグメント列も得られるので、大きなデータを1度処理するだけであれば、セグメンテーション機能を分離する必要はなく、学習機能から出力セグメント列を返すようにしてもよい。
以下の表2に、出力データ(出力セグメント列)の一例を示す。
Figure 0007293767000002
この表2に示すように、出力データは入力データと同じ形をしているが、この例では前半3文と後半3文がそれぞれセグメントとなっている。つまり、表1に示した入力データの場合は、全体が「B、M、E」の1つのセグメントであったが、この表2の例は、前半3文の「B、M、E」と、後半3文の「B、M、E」との2つのセグメントに分割されている。
この表2の例は、学習するほどの大きさではないが、同じようなデータが多数存在する場合は、入力データにおいて発言者境界にある最後の文から「まいります。」で終わる表現がセグメント末尾に典型的な表現として学習されることが考えられる。この結果、3文目も末尾に「まいります。」を含むため、セグメント末尾と推定されることが期待される。そうすると、4文目はセグメント先頭となるので、その文から「次に、」で始まる文がセグメント先頭に典型的な表現として学習される。実施の形態のテキストセグメンテーションシステムは、このような学習を繰り返すことで、次第にセグメント先頭及びセグメント末尾の特徴を学習しながら、セグメント分割処理を行う。
(出力データの第1の表示例)
次に、この実施の形態のテキストセグメンテーションシステムは、入力セグメント列を、さらに細かくセグメント分割処理して出力セグメント列を形成する。入力セグメント列が、発言者境界を表す等のように、入力におけるセグメンテーションと出力におけるセグメンテーションは別の観点からのセグメンテーションとなることが多い。このため、実施の形態のテキストセグメンテーションシステムは、この2つのセグメンテーションを区別して表示する。
すなわち、上述のようにセグメント分割処理された出力データは、テキストセグメンテーションサーバ装置6からアプリケーションサーバ装置4に供給され、アプリケーションサーバ装置4の表示生成部7により、クライアント端末1に送信され、Webブラウザ8を介してモニタ装置等に表示される。この際、表示生成部7は、図6に示すように入力データのセグメント境界に、例えば記号「***」を付加し、出力データのセグメント境界に、例えば記号「―――」を付加して、クライアント端末1に送信する。
これにより、図6に示すように入力データのセグメント境界に記号「***」が付加され、出力データのセグメント境界に記号「―――」が付加された文章情報がモニタ装置に表示される。ユーザは、この各記号により、入力におけるセグメンテーションと出力におけるセグメンテーションとを区別して認識することができる。
(出力データの第2の表示例)
次に、図7は、セグメント分割処理した出力データの第2の表示例を示している。この場合、アプリケーションサーバ装置4の表示生成部7は、テキストセグメンテーションサーバ装置6から出力データが供給されると、セグメント境界に相当する入力データに対しては、例えば「3.1」、「4.1」等のように、それぞれ異なる上位桁のナンバリング処理を施す。また、表示生成部7は、同じ入力データにおけるセグメント境界に対しては、例えば「3.1」、「3.2」等のように、それぞれ異なる下位桁のナンバリング処理を施す。このようなナンバリング処理により、入力におけるセグメンテーション(上位桁)と出力におけるセグメンテーション(下位桁)とを区別して認識させることができる。
(出力データの第3の表示例)
次に、図8は、セグメント分割処理した出力データを、ユーザの操作(指定)に応じてインタラクティブに表示可能とした第3の表示例を示している。この場合、アプリケーションサーバ装置4の表示生成部7は、複数の入力セグメントのうち、最初の入力セグメントの先頭から十数文字程度を、大項目としてクライアント端末1に表示する。図8の例の場合、「まず、災害医療体制についてでございますが、・・・」との文章が、大項目として表示される文章となっている。
表示生成部7は、このような大項目の文章と共に、中項目への展開を指定するためのアイコンを表示する。図8の例の場合、右向きの三角形のアイコンが、下位の項目への展開を指定するためのアイコンである。表示生成部7は、このアイコンが操作されると、各入力セグメントの先頭から十数文字程度を、中項目としてクライアント端末1に表示する。図8の例の場合、「まず、災害医療体制についてでございますが、・・・」との文章と、「次に、在宅療養の推進についてでございますが、・・・」との文章が、中項目として表示される文章となっている。なお、この中項目の2つの文章は、入力セグメントのセグメント境界に相当する文章である。
次に、さらにアイコンが操作されると、表示生成部7は、操作により指定された中項目の全文章を小項目としてクライアント端末1に表示する。このように、ユーザの操作に応じて、大項目→中項目→小項目の順に各セグメントを展開して表示することで、上述と同様に、入力におけるセグメンテーションと出力におけるセグメンテーションとを区別して認識させることができる。
(出力データの第4の表示例)
次に、図9は、表示生成部7が、入力セグメントの前に発言者名を表示し、出力セグメントに対してはその境界に水平線を引くと共に、特徴的な表現に下線を引いて表示した例である。
この図9の例は、入力セグメントの前に、「福祉保健局長」との発言者名を表示し、各入力セグメントの境界に水平線を付加すると共に、例えば各入力セグメントの、「まず」、「次に」及び「まいります。」等の特徴的な表現の箇所にアンダーラインを付加した例である。これにより、上述と同様に、入力におけるセグメンテーションと出力におけるセグメンテーションとを区別して認識させることができる。
(実施の形態の効果)
以上の説明から明らかなように、実施の形態のテキストセグメンテーションシステムは、テキストセグメンテーションサーバ装置6が、学習機能とセグメンテーション機能を備える。セグメンテーション機能は、セグメントの列を入力とし、これとは異なるセグメントの列を出力する。各セグメントはいくつかの文からなるテキストであり、入力したセグメントをすべて結合したものと、出力されたセグメントをすべて結合したものは同じテキストとなる。一般には、出力されるセグメントは入力より細かくセグメント分割したものとなる。
学習機能はセグメンテーション機能を実行する前に実行しておく必要があるもので、セグメンテーション機能の場合と同様のセグメントの列を入力とするが、出力はなく、装置内部の状態を、セグメンテーション機能を実行できる状態にする。
学習機能は次の特徴を持つ。まず、入力セグメント列のうち各セグメントの最初の文及び最後の文の特徴を機械学習技術によって学習する。次いで、入力に含まれるすべての文から、最初の文および最後の文それぞれの特徴に合致する文をすべて求める。そのうえで、最初の文の特徴に合致する文の直前と、最後の文の特徴に合致する文の直後で分割することにより、入力全体を新しいセグメント列に分割する。さらに、この結果を初めの入力セグメント列と同様に処理する。
これにより、再び新しいセグメント列への分割を得ることができる。このような1回以上の処理の繰り返しによって最終的なセグメント列への分割を行うことができるが、このときの各セグメントの最初の文および最後の文の特徴を装置内部の状態として保存しておく。
セグメンテーション機能においては、入力に含まれるすべての文から、保存されている最初の文および最後の文それぞれの特徴に合致する文をすべて求める。そのうえで、最初の文の特徴に合致する文の直前と、最後の文の特徴に合致する文の直後で分割することにより、入力全体を新しいセグメント列に分割する。このとき、入力においてセグメント分割されている場所では、出力においても必ず分割されるようにしてもよい。
このような実施の形態のテキストセグメンテーションシステムは、「話者の交代又は明示的な節の切り替わりに基づくセグメント分割処理」、「話題に対応する語彙の切り替わりに基づくセグメント分割処理」、及び、「セグメントの境界にある手がかり表現に基づくセグメント分割処理」を、それぞれ区別して実行することができる。このため、ユーザが理解し易いテキストの構造にセグメント分割処理が行うことができる。
また、セグメンテーション結果を人間に理解できるように表示するにあたって、テキストセグメンテーションサーバ装置6の入力と出力のように、より粗いセグメンテーションと、より細かいセグメンテーションがある場合、これを区別して、以下のいずれかのように表示する。
粗いセグメントの境界と細かいセグメントの境界に異なる記号あるいは線を挿入してすべての文を表示する。
セグメントに「1.1」,「1.2」,「2.1」等のような番号を付加して全ての文を表示する。上位の数字は粗いセグメントの区別を表し、下位の数字は細かいセグメントの区別を表す。
折りたたみ可能なリストとして表示する。畳んだ状態では粗いセグメントそれぞれの初めの部分だけがリストして表示されている。1段階開くと、細かいセグメントそれぞれの初めの部分のリストを見ることができる。2段階開くと、細かいセグメントのすべての文が表示される。
実際の例では、例えば粗いセグメントは話者の切り替えを表し、細かいセグメントは手がかり表現による区切りになっている。この場合、粗いセグメントには話者をつけて表示し、細かいセグメントは手がかり表現に目印をつけて表示する。
このような表示形態により、入力におけるセグメンテーションと出力におけるセグメンテーションとを区別してユーザに認識させることができる。
最後に、上述の実施の形態は、一例として提示したものであり、本発明の範囲を限定することは意図していない。この新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことも可能である。
例えば、上述の実施の形態の説明では、学習機能とセグメンテーション機能に分割して説明したが、学習機能の最終段階で得られるセグメント分割をそのまま出力することにして、学習機能とセグメンテーション機能を分けない構成も可能である。
さらに、上述の実施の形態の構成等に、その他の装置又はデバイスとの組み合わせ等、上述の構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。そして、このような実施の形態及び実施の形態の変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1 クライアント端末
2 サーバ群
3 ネットワーク
4 アプリケーションサーバ装置
5 テキスト保存サーバ装置
6 テキストセグメンテーションサーバ装置
7 表示生成部
8 Webブラウザ
21 学習機能インタフェース部
22 反復制御部
23 セグメンテーション機能インタフェース部
24 境界特徴学習部
25 境界推定部
26 境界特徴記憶制御部
特開2004-145790号公報

Claims (6)

  1. セグメントに分割されて入力されるテキスト情報を取得する取得部と、
    前記取得部により取得されたテキスト情報を、より細かいセグメントに分割処理する分割処理部と
    を有し、
    前記分割処理部は、
    セグメント境界の特徴を学習して学習モデルを作成する境界特徴学習部と、
    前記学習モデルの学習結果に基づいてセグメント境界の場所を推定する境界推定部と、
    セグメント境界の特徴の学習及びセグメント境界の場所の推定を繰り返し行うように前記境界特徴学習部及び前記境界推定部を制御する反復制御部と、
    前記反復制御部による制御結果に基づく前記学習モデルを記憶部に記憶させる記憶制御部と、を有し、
    前記記憶部に記憶された前記学習モデルを用いて前記テキスト情報を前記より細かいセグメントに分割処理するテキストセグメンテーション装置。
  2. 前記分割処理部は、前記セグメントを分割する粒度を調節するパラメータ設定部を有すること
    を特徴とする請求項1に記載のテキストセグメンテーション装置。
  3. 前記分割処理部は、入力時に既に分割されている前記テキスト情報のセグメントと、分割処理したセグメントとを識別可能な表示形態として、前記分割処理したセグメントを出力すること
    を特徴とする請求項1または請求項に記載のテキストセグメンテーション装置。
  4. 取得部が、セグメントに分割されて入力されるテキスト情報を取得する取得ステップと、
    分割処理部が、前記取得部により取得されたテキスト情報を、より細かいセグメントに分割処理する分割処理ステップと
    を有し、
    前記分割処理ステップは、
    境界特徴学習部が、セグメント境界の特徴を学習して学習モデルを作成する境界特徴学習ステップと、
    境界推定部が、前記学習モデルの学習結果に基づいてセグメント境界の場所を推定する境界推定ステップと、
    セグメント境界の特徴の学習及びセグメント境界の場所の推定を繰り返し行うように前記境界特徴学習部及び前記境界推定部を制御する反復制御ステップと、
    前記反復制御ステップによる制御結果に基づく前記学習モデルを記憶部に記憶させる記憶制御ステップと、
    前記記憶部に記憶された前記学習モデルを用いて前記テキスト情報を前記より細かいセグメントに分割処理するステップと、を有するテキストセグメンテーション方法。
  5. コンピュータを
    セグメントに分割されて入力されるテキスト情報を取得する取得部と、
    前記取得部により取得されたテキスト情報を、より細かいセグメントに分割処理する分割処理部として機能させ
    前記分割処理部は、
    セグメント境界の特徴を学習して学習モデルを作成する境界特徴学習部と、
    前記学習モデルの学習結果に基づいてセグメント境界の場所を推定する境界推定部と、
    セグメント境界の特徴の学習及びセグメント境界の場所の推定を繰り返し行うように前記境界特徴学習部及び前記境界推定部を制御する反復制御部と、
    前記反復制御部による制御結果に基づく前記学習モデルを記憶部に記憶させる記憶制御部と、を有し、
    前記記憶部に記憶された前記学習モデルを用いて前記テキスト情報を前記より細かいセグメントに分割処理することを特徴とするテキストセグメンテーションプログラム。
  6. ネットワークを介して相互に接続されたクライアント端末とサーバ装置とを有し、
    前記サーバ装置が、
    セグメントに分割されて入力されるテキスト情報を取得部で取得し、
    前記取得部により取得されたテキスト情報を、分割処理部で、より細かいセグメントに分割処理し、前記ネットワークを介して前記クライアント端末に送信して表示し、
    前記分割処理部は、
    セグメント境界の特徴を学習して学習モデルを作成する境界特徴学習部と、
    前記学習モデルの学習結果に基づいてセグメント境界の場所を推定する境界推定部と、
    セグメント境界の特徴の学習及びセグメント境界の場所の推定を繰り返し行うように前記境界特徴学習部及び前記境界推定部を制御する反復制御部と、
    前記反復制御部による制御結果に基づく前記学習モデルを記憶部に記憶させる記憶制御部と、を有し、
    前記記憶部に記憶された前記学習モデルを用いて前記テキスト情報を前記より細かいセグメントに分割処理することを特徴とするテキストセグメンテーションシステム。
JP2019052012A 2019-03-19 2019-03-19 テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム Active JP7293767B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019052012A JP7293767B2 (ja) 2019-03-19 2019-03-19 テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019052012A JP7293767B2 (ja) 2019-03-19 2019-03-19 テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム

Publications (2)

Publication Number Publication Date
JP2020154661A JP2020154661A (ja) 2020-09-24
JP7293767B2 true JP7293767B2 (ja) 2023-06-20

Family

ID=72559142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019052012A Active JP7293767B2 (ja) 2019-03-19 2019-03-19 テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム

Country Status (1)

Country Link
JP (1) JP7293767B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007512609A (ja) 2003-11-21 2007-05-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 文書構造化のためのテキストセグメンテーション及びトピック注釈付け
JP2009015795A (ja) 2007-07-09 2009-01-22 Nippon Telegr & Teleph Corp <Ntt> テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体
JP2014500547A (ja) 2010-11-22 2014-01-09 アリババ・グループ・ホールディング・リミテッド 複数の粒度でのテキスト分割

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198393A (ja) * 1997-01-08 1998-07-31 Matsushita Electric Ind Co Ltd 会話記録装置
KR101259558B1 (ko) * 2009-10-08 2013-05-07 한국전자통신연구원 문장경계 인식 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007512609A (ja) 2003-11-21 2007-05-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 文書構造化のためのテキストセグメンテーション及びトピック注釈付け
JP2009015795A (ja) 2007-07-09 2009-01-22 Nippon Telegr & Teleph Corp <Ntt> テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体
JP2014500547A (ja) 2010-11-22 2014-01-09 アリババ・グループ・ホールディング・リミテッド 複数の粒度でのテキスト分割

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
松井祥峰ほか,単語の結束度と文の表層情報を組み合わせたテキストセグメンテーション,情報処理学会研究報告,社団法人情報処理学会,2004年07月16日,Vol.2004, No.73(2004-NL-162),pp.151-158

Also Published As

Publication number Publication date
JP2020154661A (ja) 2020-09-24

Similar Documents

Publication Publication Date Title
US20190103111A1 (en) Natural Language Processing Systems and Methods
JP3981734B2 (ja) 質問応答システムおよび質問応答処理方法
JP7211045B2 (ja) 要約文生成方法、要約文生成プログラム及び要約文生成装置
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
US10217454B2 (en) Voice synthesizer, voice synthesis method, and computer program product
CN109426658B (zh) 使用基于文本分析的智能特征建议进行文档美化
WO2005050472A2 (en) Text segmentation and topic annotation for document structuring
US9129216B1 (en) System, method and apparatus for computer aided association of relevant images with text
JP2007094855A (ja) 文書処理装置及び文書処理方法
JP7031462B2 (ja) 分類プログラム、分類方法、および情報処理装置
JP6064629B2 (ja) 音声入出力データベース検索方法、プログラム、及び装置
US20230103313A1 (en) User assistance system
CN111444725B (zh) 语句的生成方法、装置、存储介质和电子装置
WO2020065970A1 (ja) 学習システム、学習方法、及びプログラム
KR20240128047A (ko) 비디오 생성 방법 및 장치, 전자 장치 및 판독 가능한 저장 매체
CN110110218A (zh) 一种身份关联方法及终端
CN114138969A (zh) 文本处理方法及装置
JP6924975B2 (ja) 音解析装置及びその処理方法、プログラム
JP7293767B2 (ja) テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム
US20240256597A1 (en) Machine learning selection of images
CN110297965B (zh) 课件页面的显示及页面集的构造方法、装置、设备和介质
JP2021039727A (ja) テキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体
CN113435213B (zh) 针对用户问题和知识库返回答案的方法和装置
JP2004253011A (ja) 自動要約処理装置および自動要約処理方法
JP2002073662A (ja) 情報提示装置及び情報提示プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230522

R151 Written notification of patent or utility model registration

Ref document number: 7293767

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151