JP7293767B2 - テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム - Google Patents
テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム Download PDFInfo
- Publication number
- JP7293767B2 JP7293767B2 JP2019052012A JP2019052012A JP7293767B2 JP 7293767 B2 JP7293767 B2 JP 7293767B2 JP 2019052012 A JP2019052012 A JP 2019052012A JP 2019052012 A JP2019052012 A JP 2019052012A JP 7293767 B2 JP7293767 B2 JP 7293767B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- segment
- boundary
- learning
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、実施の形態のテキストセグメンテーションシステムの概要を説明する。理解容易な議会の会議録のセグメント分割処理を例としてすると、質問又はや答弁は、いくつかの話題に分かれており、一つの話題の先頭には、「まず、」「次に、」といった「手がかり表現」が現れることが多い。同様に、話題の末尾には、質問であれば「見解を伺います。」答弁であれば「してまいります。」といった手がかり表現がある。これらの手がかり表現は話者によって異なることもあるため、すべてのパターンを網羅しておくことが難しい。そこで、手がかり表現の特徴を機械学習技術によって学習する。
(システム構成)
図1は、実施の形態のテキストセグメンテーションシステムのシステム構成を示す図である。この図1に示すテキストセグメンテーションシステムは、クライアント端末1及びサーバ群2を、例えばインターネット等の公共網又はLAN(Local Area Network)等のプライベート網を介して相互に接続して構成されている。
図2は、クライアント端末1、サーバ群2のアプリケーションサーバ装置4、テキスト保存サーバ装置5及びテキストセグメンテーションサーバ装置6のハードウェア構成を示す図である。これらは、一般的なパーソナルコンピュータ装置の構成を有しており、図2に示すように、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、HDD(ハードディスクドライブ)14、操作インタフェース部(操作I/F)15、及び、通信部16を有している。操作I/F15には、マウス装置17及びキーボード装置18等の入力装置が接続されている。なお、各サーバ装置の場合、これらのハードウェアのうち、操作インタフェース部(操作I/F)15は省略可能である。
すなわち、サーバ装置6のCPU11は、テキストセグメンテーションプログラムを実行することで、図3に示すように、学習機能インタフェース部21、反復制御部22、セグメンテーション機能インタフェース部23、境界特徴学習部24、境界推定部25、及び、境界特徴記憶制御部26の各機能を実現する。
図4は、学習モデルの形成動作の流れを示すシーケンス図である。この図4のシーケンス図のステップS1において、例えば以下の表1に例示するテキストデータが供給されると、学習機能インタフェース部21は、反復制御部22を呼び出す。
図5は、このように形成した学習モデルに基づいて、入力データに対してセグメント分割処理を施した出力データを形成する各部の動作を示すシーケンス図である。この図5において、例えば表1に例示したような入力データのセグメント列がセグメンテーション機能インタフェース部23に供給されると、セグメンテーション機能インタフェース部23は、境界特徴記憶制御部26を介して、HDD14等の記憶部から上述の学習モデルを読み出す(ステップS21、ステップS22)。
次に、この実施の形態のテキストセグメンテーションシステムは、入力セグメント列を、さらに細かくセグメント分割処理して出力セグメント列を形成する。入力セグメント列が、発言者境界を表す等のように、入力におけるセグメンテーションと出力におけるセグメンテーションは別の観点からのセグメンテーションとなることが多い。このため、実施の形態のテキストセグメンテーションシステムは、この2つのセグメンテーションを区別して表示する。
次に、図7は、セグメント分割処理した出力データの第2の表示例を示している。この場合、アプリケーションサーバ装置4の表示生成部7は、テキストセグメンテーションサーバ装置6から出力データが供給されると、セグメント境界に相当する入力データに対しては、例えば「3.1」、「4.1」等のように、それぞれ異なる上位桁のナンバリング処理を施す。また、表示生成部7は、同じ入力データにおけるセグメント境界に対しては、例えば「3.1」、「3.2」等のように、それぞれ異なる下位桁のナンバリング処理を施す。このようなナンバリング処理により、入力におけるセグメンテーション(上位桁)と出力におけるセグメンテーション(下位桁)とを区別して認識させることができる。
次に、図8は、セグメント分割処理した出力データを、ユーザの操作(指定)に応じてインタラクティブに表示可能とした第3の表示例を示している。この場合、アプリケーションサーバ装置4の表示生成部7は、複数の入力セグメントのうち、最初の入力セグメントの先頭から十数文字程度を、大項目としてクライアント端末1に表示する。図8の例の場合、「まず、災害医療体制についてでございますが、・・・」との文章が、大項目として表示される文章となっている。
次に、図9は、表示生成部7が、入力セグメントの前に発言者名を表示し、出力セグメントに対してはその境界に水平線を引くと共に、特徴的な表現に下線を引いて表示した例である。
以上の説明から明らかなように、実施の形態のテキストセグメンテーションシステムは、テキストセグメンテーションサーバ装置6が、学習機能とセグメンテーション機能を備える。セグメンテーション機能は、セグメントの列を入力とし、これとは異なるセグメントの列を出力する。各セグメントはいくつかの文からなるテキストであり、入力したセグメントをすべて結合したものと、出力されたセグメントをすべて結合したものは同じテキストとなる。一般には、出力されるセグメントは入力より細かくセグメント分割したものとなる。
2 サーバ群
3 ネットワーク
4 アプリケーションサーバ装置
5 テキスト保存サーバ装置
6 テキストセグメンテーションサーバ装置
7 表示生成部
8 Webブラウザ
21 学習機能インタフェース部
22 反復制御部
23 セグメンテーション機能インタフェース部
24 境界特徴学習部
25 境界推定部
26 境界特徴記憶制御部
Claims (6)
- セグメントに分割されて入力されるテキスト情報を取得する取得部と、
前記取得部により取得されたテキスト情報を、より細かいセグメントに分割処理する分割処理部と
を有し、
前記分割処理部は、
セグメント境界の特徴を学習して学習モデルを作成する境界特徴学習部と、
前記学習モデルの学習結果に基づいてセグメント境界の場所を推定する境界推定部と、
セグメント境界の特徴の学習及びセグメント境界の場所の推定を繰り返し行うように前記境界特徴学習部及び前記境界推定部を制御する反復制御部と、
前記反復制御部による制御結果に基づく前記学習モデルを記憶部に記憶させる記憶制御部と、を有し、
前記記憶部に記憶された前記学習モデルを用いて前記テキスト情報を前記より細かいセグメントに分割処理するテキストセグメンテーション装置。 - 前記分割処理部は、前記セグメントを分割する粒度を調節するパラメータ設定部を有すること
を特徴とする請求項1に記載のテキストセグメンテーション装置。 - 前記分割処理部は、入力時に既に分割されている前記テキスト情報のセグメントと、分割処理したセグメントとを識別可能な表示形態として、前記分割処理したセグメントを出力すること
を特徴とする請求項1または請求項2に記載のテキストセグメンテーション装置。 - 取得部が、セグメントに分割されて入力されるテキスト情報を取得する取得ステップと、
分割処理部が、前記取得部により取得されたテキスト情報を、より細かいセグメントに分割処理する分割処理ステップと
を有し、
前記分割処理ステップは、
境界特徴学習部が、セグメント境界の特徴を学習して学習モデルを作成する境界特徴学習ステップと、
境界推定部が、前記学習モデルの学習結果に基づいてセグメント境界の場所を推定する境界推定ステップと、
セグメント境界の特徴の学習及びセグメント境界の場所の推定を繰り返し行うように前記境界特徴学習部及び前記境界推定部を制御する反復制御ステップと、
前記反復制御ステップによる制御結果に基づく前記学習モデルを記憶部に記憶させる記憶制御ステップと、
前記記憶部に記憶された前記学習モデルを用いて前記テキスト情報を前記より細かいセグメントに分割処理するステップと、を有するテキストセグメンテーション方法。 - コンピュータを
セグメントに分割されて入力されるテキスト情報を取得する取得部と、
前記取得部により取得されたテキスト情報を、より細かいセグメントに分割処理する分割処理部として機能させ、
前記分割処理部は、
セグメント境界の特徴を学習して学習モデルを作成する境界特徴学習部と、
前記学習モデルの学習結果に基づいてセグメント境界の場所を推定する境界推定部と、
セグメント境界の特徴の学習及びセグメント境界の場所の推定を繰り返し行うように前記境界特徴学習部及び前記境界推定部を制御する反復制御部と、
前記反復制御部による制御結果に基づく前記学習モデルを記憶部に記憶させる記憶制御部と、を有し、
前記記憶部に記憶された前記学習モデルを用いて前記テキスト情報を前記より細かいセグメントに分割処理することを特徴とするテキストセグメンテーションプログラム。 - ネットワークを介して相互に接続されたクライアント端末とサーバ装置とを有し、
前記サーバ装置が、
セグメントに分割されて入力されるテキスト情報を取得部で取得し、
前記取得部により取得されたテキスト情報を、分割処理部で、より細かいセグメントに分割処理し、前記ネットワークを介して前記クライアント端末に送信して表示し、
前記分割処理部は、
セグメント境界の特徴を学習して学習モデルを作成する境界特徴学習部と、
前記学習モデルの学習結果に基づいてセグメント境界の場所を推定する境界推定部と、
セグメント境界の特徴の学習及びセグメント境界の場所の推定を繰り返し行うように前記境界特徴学習部及び前記境界推定部を制御する反復制御部と、
前記反復制御部による制御結果に基づく前記学習モデルを記憶部に記憶させる記憶制御部と、を有し、
前記記憶部に記憶された前記学習モデルを用いて前記テキスト情報を前記より細かいセグメントに分割処理することを特徴とするテキストセグメンテーションシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019052012A JP7293767B2 (ja) | 2019-03-19 | 2019-03-19 | テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019052012A JP7293767B2 (ja) | 2019-03-19 | 2019-03-19 | テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020154661A JP2020154661A (ja) | 2020-09-24 |
JP7293767B2 true JP7293767B2 (ja) | 2023-06-20 |
Family
ID=72559142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019052012A Active JP7293767B2 (ja) | 2019-03-19 | 2019-03-19 | テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7293767B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007512609A (ja) | 2003-11-21 | 2007-05-17 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 文書構造化のためのテキストセグメンテーション及びトピック注釈付け |
JP2009015795A (ja) | 2007-07-09 | 2009-01-22 | Nippon Telegr & Teleph Corp <Ntt> | テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体 |
JP2014500547A (ja) | 2010-11-22 | 2014-01-09 | アリババ・グループ・ホールディング・リミテッド | 複数の粒度でのテキスト分割 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10198393A (ja) * | 1997-01-08 | 1998-07-31 | Matsushita Electric Ind Co Ltd | 会話記録装置 |
KR101259558B1 (ko) * | 2009-10-08 | 2013-05-07 | 한국전자통신연구원 | 문장경계 인식 장치 및 방법 |
-
2019
- 2019-03-19 JP JP2019052012A patent/JP7293767B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007512609A (ja) | 2003-11-21 | 2007-05-17 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 文書構造化のためのテキストセグメンテーション及びトピック注釈付け |
JP2009015795A (ja) | 2007-07-09 | 2009-01-22 | Nippon Telegr & Teleph Corp <Ntt> | テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体 |
JP2014500547A (ja) | 2010-11-22 | 2014-01-09 | アリババ・グループ・ホールディング・リミテッド | 複数の粒度でのテキスト分割 |
Non-Patent Citations (1)
Title |
---|
松井祥峰ほか,単語の結束度と文の表層情報を組み合わせたテキストセグメンテーション,情報処理学会研究報告,社団法人情報処理学会,2004年07月16日,Vol.2004, No.73(2004-NL-162),pp.151-158 |
Also Published As
Publication number | Publication date |
---|---|
JP2020154661A (ja) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190103111A1 (en) | Natural Language Processing Systems and Methods | |
JP3981734B2 (ja) | 質問応答システムおよび質問応答処理方法 | |
JP7211045B2 (ja) | 要約文生成方法、要約文生成プログラム及び要約文生成装置 | |
CN111753060A (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
US10217454B2 (en) | Voice synthesizer, voice synthesis method, and computer program product | |
CN109426658B (zh) | 使用基于文本分析的智能特征建议进行文档美化 | |
WO2005050472A2 (en) | Text segmentation and topic annotation for document structuring | |
US9129216B1 (en) | System, method and apparatus for computer aided association of relevant images with text | |
JP2007094855A (ja) | 文書処理装置及び文書処理方法 | |
JP7031462B2 (ja) | 分類プログラム、分類方法、および情報処理装置 | |
JP6064629B2 (ja) | 音声入出力データベース検索方法、プログラム、及び装置 | |
US20230103313A1 (en) | User assistance system | |
CN111444725B (zh) | 语句的生成方法、装置、存储介质和电子装置 | |
WO2020065970A1 (ja) | 学習システム、学習方法、及びプログラム | |
KR20240128047A (ko) | 비디오 생성 방법 및 장치, 전자 장치 및 판독 가능한 저장 매체 | |
CN110110218A (zh) | 一种身份关联方法及终端 | |
CN114138969A (zh) | 文本处理方法及装置 | |
JP6924975B2 (ja) | 音解析装置及びその処理方法、プログラム | |
JP7293767B2 (ja) | テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム | |
US20240256597A1 (en) | Machine learning selection of images | |
CN110297965B (zh) | 课件页面的显示及页面集的构造方法、装置、设备和介质 | |
JP2021039727A (ja) | テキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体 | |
CN113435213B (zh) | 针对用户问题和知识库返回答案的方法和装置 | |
JP2004253011A (ja) | 自動要約処理装置および自動要約処理方法 | |
JP2002073662A (ja) | 情報提示装置及び情報提示プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230522 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7293767 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |