JP2009301140A - テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 - Google Patents
テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 Download PDFInfo
- Publication number
- JP2009301140A JP2009301140A JP2008152180A JP2008152180A JP2009301140A JP 2009301140 A JP2009301140 A JP 2009301140A JP 2008152180 A JP2008152180 A JP 2008152180A JP 2008152180 A JP2008152180 A JP 2008152180A JP 2009301140 A JP2009301140 A JP 2009301140A
- Authority
- JP
- Japan
- Prior art keywords
- division
- text
- words
- word
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】本発明は、入力されたテキストを文単位に分割し、分割された文を形態素解析し、形態素解析された助詞を除く全ての単語を検索語として抽出し、活用形のある単語を終止形に変換し、検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、助詞を除く全ての単語を関連語として抽出し、活用形のある単語を終止形に変換し、検索語と関連語記憶手段に格納されている関連語との組み合わせであるキーワード集合を用いて、文同士の連結性に基づいて意味段落を求め、分割候補を作成し、分割候補を評価して一つの分割結果を選択して出力する。
【選択図】図1
Description
入力されたテキストを文単位に分割し、分割文章記憶手段202に格納するテキスト分解手段201と、
テキスト分解手段201により分割された文を形態素解析し、形態素解析された助詞を除く全ての単語を検索語として抽出し、活用形のある単語を終止形に変換し、検索語記憶手段212に格納する検索語抽出手段211と、
検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、助詞を除く全ての単語を関連語として抽出し、活用形のある単語を終止形に変換し、関連語記憶手段222に格納する関連語取得手段221と、
検索語記憶手段212に格納されている検索語と関連語記憶手段222に格納されている関連語との組み合わせであるキーワード集合を用いて、分割文章記憶手段202に格納されている文同士の連結性に基づいて意味段落を求め、分割候補を作成し分割候補記憶手段242に格納する分割候補生成手段231と、
分割候補記憶手段242に格納されている分割候補を評価して一つの分割結果を選択して出力する分割結果評価手段241と、を有する。
キーワード集合を前後の複数の文で比較し、内容的にまとまっている一文または複数の文から構成される意味段落を求める意味段落生成手段を有し、
意味段落生成手段は、
キーワード集合を纏めたブロックB1,B2を作成し、i番目とi+1番目の2つの文の連結度Ci bを、単語tの出現頻度を用いて、
により求める手段と、
i={1,2,…,N}と変化させ、
分割候補記憶手段242に格納されている分割候補の意味段落に含まれる文の範囲内において、キーワード集合を参照して、各キーワードの出現頻度を求め、該出現頻度に基づいて、該分割候補記憶手段に格納されている全ての分割候補を評価して評価値を求め、該評価値が最小となる分割候補を選択する手段を含む。
評価値を求める際に、入力されたテキストを細かく分割する程小さい値をとる第1の指標と、意味段落間で内容が異なる程小さい値をとる第2の指標を求め、該第1の指標と該第2の指標の和を評価値とする。
テキスト分解手段が、入力されたテキストを文単位に分割し、分割文章記憶手段に格納するテキスト分解ステップ(ステップ1)と、
検索語抽出手段が、テキスト分解ステップ(ステップ1)で分割された文を形態素解析し、形態素解析された助詞を除く全ての単語を検索語として抽出し、活用形のある単語を終止形に変換し、検索語記憶手段に格納する検索語抽出ステップ(ステップ2)と、
関連語取得手段は、検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、助詞を除く全ての単語を関連語として抽出し、活用形のある単語を終止形に変換し、関連語記憶手段に格納する関連語取得ステップ(ステップ3)と、
分割候補生成手段が、検索語記憶手段に格納されている検索語と関連語記憶手段に格納されている関連語との組み合わせであるキーワード集合を用いて、分割文章記憶手段に格納されている文同士の連結性に基づいて意味段落を求め、分割候補を作成し分割候補記憶手段に格納する分割候補生成ステップ(ステップ4)と、
分割結果評価手段が、分割候補記憶手段に格納されている分割候補を評価して一つの分割結果を選択して出力する分割結果評価ステップ(ステップ5)と、を行う。
キーワード集合を前後の複数の文で比較し、内容的にまとまっている一文または複数の文から構成される意味段落を求める意味段落生成ステップを行い、
意味段落生成ステップは、
キーワード集合を纏めたブロックB1,B2を作成し、i番目とi+1番目の2つの文の連結度Ci bを、単語tの出現頻度を用いて、
により求めるステップと、
i={1,2,…,N}と変化させ、
分割候補記憶手段に格納されている分割候補の意味段落に含まれる文の範囲内において、キーワード集合を参照して、各キーワードの出現頻度を求め、該出現頻度に基づいて、該分割候補記憶手段に格納されている全ての分割候補を評価して評価値を求め、該評価値が最小となる分割候補を選択する。
評価値を求める際に、入力されたテキストを細かく分割する程小さい値をとる第1の指標と、意味段落間で内容が異なる程小さい値をとる第2の指標を求め、該第1の指標と該第2の指標の和を評価値とする。
まず、入力部251から図5に示すテキスト264が入力される。
テキスト分解部201は、入力されたテキストを一文字ずつ読み込み、図6に示すような文単位にN個に分割して分解文章記憶部202に格納する。ここで、文とは、句点「。」で区切られる一文をさす。テキスト264の一例として図3で示すようなテキスト264に対して、当該テキスト分解部201を実行すると、文単位に分解された9つの文401〜409が生成され分解文章記憶部202に格納される。テキスト分解部201において生成される文の個数は入力されるテキストによって異なる。また、句点「。」の入力ミスがあった場合は、複数の文が1つの文として扱われる。
検索語抽出部211において、検索語を抽出する。検索語とは、ウェブ上でAND検索(全ての単語が含まれる結果を求める検索)を行う際に入力する、一つまたは複数の単語をさす。はじめに、抽出検索語抽出部21では、分解文章記憶部202に格納されている文章を読み出して、各文章について形態素解析を行う。そして、形態素解析により助詞を除く全ての単語を取り出す。そして活用形のある単語は原形に変換して抽出し、それ以外の単語は変換を行うことなく検索語として抽出する。
図9は、本発明の一実施の形態における関連語抽出部の処理手順のフローチャートである。
分解文章記憶部202に格納されている全ての文に対して関連語取得部221の処理が終了すると、分割候補生成部231において、検索語記憶部212と関連語記憶部222に格納されている検索語と関連語をそれぞれ読み出し、それらを連結してキーワード集合を生成する。図8の検索語の例と図10の関連語の例から作成したキーワード集合の例を図11に示す。例えば、キーワード集合1001は、検索語601と関連語801を連結して作成されたものである。作成されたキーワード集合は、キーワード集合記憶部232に格納される。ここで、分割候補生成部231では、検索語がない文に対してはそれに対応する関連語も存在しないため、キーワード集合を作成しない。
分割候補生成部231にてK個の分割候補が作成されると、分割結果評価部241では、分割候補記憶部242に格納されている分割候補とキーワード集合記憶部232に格納されているキーワード集合を参照する。そして、分割候補記憶部242に格納されているK個の分割結果のうち、一つの結果を選択する処理を行う。
分割結果評価部241において、評価関数Qiが最小となる分割候補の番号が選択されると、分割結果評価部241で選択された分割候補の番号を出力部252に渡す。出力部252は、当該番号を受け取ると、分割候補記憶部242に格納されている分割候補の中から受け取った番号に対応する分割候補を読み取り、表示部265に分割結果として出力する。図14の分割候補の例では、i=2が出力部252に渡されるので、出力部242は分割候補記憶部242に格納されている2番目の分割候補を読出し、意味段落1203から意味段落1205までをテキストセグメンテーション結果として、表示部265に出力する。
202 分解文章記憶手段、分解文章記憶部
211 検索語抽出手段、検索語抽出部
221 関連語取得手段、関連語取得部
222 関連語記憶手段、関連語記憶部
231 分割候補生成手段、分割候補生成部
232 キーワード集合記憶部
241 分割結果評価手段、分割結果評価部
250 制御部
251 入力部
252 出力部
260 コンピュータ
261 ネットワーク
262 ウェブ
263 構造化言語で記述された記事
264 テキスト
265 表示部
501 一般語リスト記憶部
Claims (10)
- テキストを内容に応じて分割するテキストセグメンテーション装置であって、
入力されたテキストを文単位に分割し、分割文章記憶手段に格納するテキスト分解手段と、
前記テキスト分解手段により分割された文を形態素解析し、形態素解析された助詞を除く全ての単語を検索語として抽出し、活用形のある単語を終止形に変換し、検索語記憶手段に格納する検索語抽出手段と、
前記検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、助詞を除く全ての単語を関連語として抽出し、活用形のある単語を終止形に変換し、関連語記憶手段に格納する関連語取得手段と、
前記検索語記憶手段に格納されている前記検索語と前記関連語記憶手段に格納されている前記関連語との組み合わせであるキーワード集合を用いて、前記分割文章記憶手段に格納されている文同士の連結性に基づいて意味段落を求め、分割候補を作成し分割候補記憶手段に格納する分割候補生成手段と、
前記分割候補記憶手段に格納されている前記分割候補を評価して一つの分割結果を選択して出力する分割結果評価手段と、
を有することを特徴とするテキストセグメンテーション装置。 - 前記分割候補生成手段は、
前記キーワード集合を前後の複数の文で比較し、内容的にまとまっている一文または複数の文から構成される前記意味段落を求める意味段落生成手段を有し、
前記意味段落生成手段は、
前記キーワード集合を纏めたブロックB1,B2を作成し、i番目とi+1番目の2つの文の連結度Ci bを、単語tの出現頻度を用いて、
により求める手段と、
i={1,2,…,N}と変化させ、
前記平均連結度Ci(但し、i=(1,2,…,N))を用いて意味段落の境界である平均連結度の谷を、条件
を含む請求項1記載のテキストセグメンテーション装置。 - 前記分割結果評価手段は、
前記分割候補記憶手段に格納されている前記分割候補の意味段落に含まれる文の範囲内において、前記キーワード集合を参照して、各キーワードの出現頻度を求め、該出現頻度に基づいて、該分割候補記憶手段に格納されている全ての分割候補を評価して評価値を求め、該評価値が最小となる分割候補を選択する手段を含む
請求項1記載のテキストセグメンテーション装置。 - 前記分割結果評価手段は、
前記評価値を求める際に、入力された前記テキストを細かく分割する程小さい値をとる第1の指標と、前記意味段落間で内容が異なる程小さい値をとる第2の指標を求め、該第1の指標と該第2の指標の和を評価値とする
請求項3記載のテキストセグメンテーション装置。 - テキストを内容に応じて分割するテキストセグメンテーション方法であって、
テキスト分解手段が、入力されたテキストを文単位に分割し、分割文章記憶手段に格納するテキスト分解ステップと、
検索語抽出手段が、前記テキスト分解ステップで分割された文を形態素解析し、形態素解析された助詞を除く全ての単語を検索語として抽出し、活用形のある単語を終止形に変換し、検索語記憶手段に格納する検索語抽出ステップと、
関連語取得手段は、前記検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、助詞を除く全ての単語を関連語として抽出し、活用形のある単語を終止形に変換し、関連語記憶手段に格納する関連語取得ステップと、
分割候補生成手段が、前記検索語記憶手段に格納されている前記検索語と前記関連語記憶手段に格納されている前記関連語との組み合わせであるキーワード集合を用いて、前記分割文章記憶手段に格納されている文同士の連結性に基づいて意味段落を求め、分割候補を作成し分割候補記憶手段に格納する分割候補生成ステップと、
分割結果評価手段が、前記分割候補記憶手段に格納されている前記分割候補を評価して一つの分割結果を選択して出力する分割結果評価ステップと、
を行うことを特徴とするテキストセグメンテーション方法。 - 前記分割候補生成ステップにおいて、
前記キーワード集合を前後の複数の文で比較し、内容的にまとまっている一文または複数の文から構成される前記意味段落を求める意味段落生成ステップを行い、
前記意味段落生成ステップは、
前記キーワード集合を纏めたブロックB1,B2を作成し、i番目とi+1番目の2つの文の連結度Ci bを、単語tの出現頻度を用いて、
により求めるステップと、
i={1,2,…,N}と変化させ、
前記平均連結度Ci(但し、i=(1,2,…,N))を用いて意味段落の境界である平均連結度の谷を、条件
を行う請求項5記載のテキストセグメンテーション方法。 - 前記分割結果評価ステップにおいて、
前記分割候補記憶手段に格納されている前記分割候補の意味段落に含まれる文の範囲内において、前記キーワード集合を参照して、各キーワードの出現頻度を求め、該出現頻度に基づいて、該分割候補記憶手段に格納されている全ての分割候補を評価して評価値を求め、該評価値が最小となる分割候補を選択する
請求項5記載のテキストセグメンテーション方法。 - 前記分割結果評価ステップにおいて、
前記評価値を求める際に、入力された前記テキストを細かく分割する程小さい値をとる第1の指標と、前記意味段落間で内容が異なる程小さい値をとる第2の指標を求め、該第1の指標と該第2の指標の和を評価値とする
請求項7記載のテキストセグメンテーション方法。 - 請求項1乃至4のいずれか1項に記載のテキストセグメンテーション装置を構成する各手段としてコンピュータを機能させるためのテキストセグメンテーションプログラム。
- 請求項9記載のテキストセグメンテーションプログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008152180A JP5215051B2 (ja) | 2008-06-10 | 2008-06-10 | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008152180A JP5215051B2 (ja) | 2008-06-10 | 2008-06-10 | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013015670A Division JP2013101679A (ja) | 2013-01-30 | 2013-01-30 | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009301140A true JP2009301140A (ja) | 2009-12-24 |
JP5215051B2 JP5215051B2 (ja) | 2013-06-19 |
Family
ID=41547998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008152180A Expired - Fee Related JP5215051B2 (ja) | 2008-06-10 | 2008-06-10 | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5215051B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012173817A (ja) * | 2011-02-17 | 2012-09-10 | Fujitsu Ltd | 検索支援装置、プログラム及び方法 |
JP2013101679A (ja) * | 2013-01-30 | 2013-05-23 | Nippon Telegr & Teleph Corp <Ntt> | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
WO2017086108A1 (ja) * | 2015-11-16 | 2017-05-26 | 大日本印刷株式会社 | 情報提示装置、情報提示方法、プログラム、情報処理装置及び案内ロボット制御システム |
CN113743087A (zh) * | 2021-09-07 | 2021-12-03 | 珍岛信息技术(上海)股份有限公司 | 一种基于神经网络词汇扩展段落的文本生成方法及系统 |
-
2008
- 2008-06-10 JP JP2008152180A patent/JP5215051B2/ja not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
CSNG200900266090; 阿部直人 他3名: 'ウェブ検索を利用したブログテキストセグメンテーション法' 電子情報通信学会 第19回データ工学ワークショップ論文集 , 20080407, (DEWS2008 B4-5), 電子情報通信学会データ工学研究専門委員会 * |
JPN6012021902; 阿部直人 他3名: 'ウェブ検索を利用したブログテキストセグメンテーション法' 電子情報通信学会 第19回データ工学ワークショップ論文集 , 20080407, (DEWS2008 B4-5), 電子情報通信学会データ工学研究専門委員会 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012173817A (ja) * | 2011-02-17 | 2012-09-10 | Fujitsu Ltd | 検索支援装置、プログラム及び方法 |
JP2013101679A (ja) * | 2013-01-30 | 2013-05-23 | Nippon Telegr & Teleph Corp <Ntt> | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
WO2017086108A1 (ja) * | 2015-11-16 | 2017-05-26 | 大日本印刷株式会社 | 情報提示装置、情報提示方法、プログラム、情報処理装置及び案内ロボット制御システム |
CN113743087A (zh) * | 2021-09-07 | 2021-12-03 | 珍岛信息技术(上海)股份有限公司 | 一种基于神经网络词汇扩展段落的文本生成方法及系统 |
CN113743087B (zh) * | 2021-09-07 | 2024-04-26 | 珍岛信息技术(上海)股份有限公司 | 一种基于神经网络词汇扩展段落的文本生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP5215051B2 (ja) | 2013-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101470732B (zh) | 一种辅助词库的生成方法和装置 | |
EP1736901B1 (en) | Method for classifying sub-trees in semi-structured documents | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
JP2022508737A (ja) | 自然言語文書を検索するシステム | |
Nualart et al. | How we draw texts: a review of approaches to text visualization and exploration | |
JP2022513353A (ja) | 自然言語検索システムの訓練方法、探索システムおよび対応の使用 | |
JP2008210024A (ja) | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 | |
JP4873738B2 (ja) | テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体 | |
JP2008146424A (ja) | Xml文書の適合度の算出方法およびそのプログラムと、情報処理装置 | |
JP4873739B2 (ja) | テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 | |
JP5215051B2 (ja) | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP2013101679A (ja) | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
Darmawiguna et al. | The development of integrated Bali tourism information portal using web scrapping and clustering methods | |
Elbarougy et al. | Graph-Based Extractive Arabic Text Summarization Using Multiple Morphological Analyzers. | |
JP2008197952A (ja) | テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体 | |
JP5214985B2 (ja) | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP5894273B2 (ja) | 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2008065468A (ja) | テキスト多重分類装置、テキストを多重分類する方法、プログラムおよび記憶媒体 | |
Al-Omari | Evaluating the effect of stemming in clustering of Arabic documents | |
Thilagavathi et al. | Document clustering in forensic investigation by hybrid approach | |
JP2013101678A (ja) | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
US20090249197A1 (en) | Document proofreading support method and document proofreading support apparatus | |
BAZRFKAN et al. | Using machine learning methods to summarize persian texts | |
JP2002269120A (ja) | 文書分類装置、文書分類方法及び該文書分類方法を実行するプログラム記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100817 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120508 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120612 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120717 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120918 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121106 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130130 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5215051 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160308 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |