JP2020067831A - テキスト処理方法及び、テキスト処理装置 - Google Patents
テキスト処理方法及び、テキスト処理装置 Download PDFInfo
- Publication number
- JP2020067831A JP2020067831A JP2018200325A JP2018200325A JP2020067831A JP 2020067831 A JP2020067831 A JP 2020067831A JP 2018200325 A JP2018200325 A JP 2018200325A JP 2018200325 A JP2018200325 A JP 2018200325A JP 2020067831 A JP2020067831 A JP 2020067831A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- characteristic word
- data
- text
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 18
- 238000003672 processing method Methods 0.000 title claims description 23
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 239000000284 extract Substances 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 description 5
- 241000251468 Actinopterygii Species 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012854 evaluation process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 239000013077 target material Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
まず、第1の実施態様によれば、入力された第1のテキストデータから、着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価するコンピュータによるテキスト処理方法を提供する。該方法において、
(S1)入力手段が、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第2のテキストデータ群におけるトピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力ステップ、
(S2)特徴語抽出手段が、関連文字列情報から特徴語を抽出する特徴語抽出ステップ、
(S3)アスペクトデータ作成手段が、トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成ステップの各ステップを有する学習工程の後、
(S4)入力手段が、第1のテキストデータを入力するテキストデータ入力ステップ、
(S5)特徴語検索手段が、アスペクトデータを参照し、少なくとも1つのトピックについて、第1のテキストデータに含まれる特徴語を検索する特徴語検索ステップ、
(S6)出力手段が、トピック毎に区別して特徴語の検索結果に基づく値を関連度として出力する出力ステップの各ステップを有する関連度評価工程を行う、ことを特徴とする。
すなわち、入力された第1のテキストデータから 着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価するコンピュータを用いたテキスト処理装置であって、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第2のテキストデータ群におけるトピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力手段と、関連文字列情報から特徴語を抽出する特徴語抽出手段と、トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成手段と、第1のテキストデータを入力するテキストデータ入力手段と、アスペクトデータを参照し、少なくとも1つのトピックについて、第1のテキストデータに含まれる特徴語を検索する特徴語検索手段と、トピックごとに区別して、特徴語の検索結果に基づく値を関連度として出力する出力手段とを備えたことを特徴とする。
図1は、本発明におけるテキスト処理装置(1)の全体図である。本装置(1)は公知のパーソナルコンピュータにより実施することができるほか、ウェブサーバ装置などのサーバ装置に実装することもできる。これらの機器の詳細については公知であるから説明を省略する。
図2は本発明に係るテキスト処理方法のフローチャートである。
学習用データ(201)は、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第2のテキストデータ群におけるトピックについて記載された関連文字列情報との組み合わせから構成されている。
例えば、過去の大量のニュースに関するテキストデータを第2のテキストデータ群として入力するとして、トピック「国際」の下に「米国」「欧州」「中国」があるとき、人手によって「米国」に関する記事部分を抽出したものが関連文字列情報である。この場合の関連文字列情報は、当該記事全体となる。
特徴語は、テキストデータ中でトピックが記載されていることを特徴づける語句であり、前述の「米国」がトピックであれば、例えば「米国」「ニューヨーク」「トランプ大統領」など他のトピックの記事と区別されるような語句が考えられる。
また、特徴語の抽出のためにテキストデータを形態素解析して所定の形態素に分けることも周知技術である。
本実施例では、アスペクトデータにはトピック毎の特徴語に加え、特徴語には重み値を合わせて格納する。
あるいは、特徴語に定義された重み情報に基づいて所定の演算式により重み値を設定し、アスペクトデータにはトピックごとに抽出された特徴語について重み値を格納することもできる。
関連度評価工程では、入力処理部(101)から評価を行う対象の第1テキストデータ(203)を入力し、記憶部(20)に記録する。(テキストデータ入力ステップ:S4)
具体的には、トピック毎にアスペクトデータ(202)に格納される特徴語を検索し、例えば特徴語の数に応じて関連度を評価する。テキストデータ中の特徴語が頻出する箇所が関連度の高い箇所として抽出すれば良いので、簡単な方法としては、特徴語がある閾値よりも狭い範囲で繰り返し出現する部分を関連箇所として出力することもできる。
本図は第1テキストデータ(203)の先頭から末尾までを横軸に取り、左が先頭、右が末尾の文字位置を示している。各特徴語の縦は重み値を示している。
本実施例では同じルールに基づく検索結果はOR演算を行う。つまり、2段目の特徴語「米国」は4500文字目と8000文字目に出現するが、この場合図示のように特徴語を検索したときに重複した部分が生じても、重みを合計するのではなくORをとることで2000文字から10500文字までが重み1のグラフとなる。
その上で、これらの重み値のAND演算を行うと、下段に示した関連度のようなグラフとなる。このグラフは、テキストデータ中の関連箇所を視覚的に示すものであり、aの場所はトピック「米国」に関連がないことを示し、bやcは関連が高いことを示している。
一方、図4(d)のように、ルール2にはX(Y Z)<100を定義し、XとYの共起によるグラフがある場合には、AとBの共起によるグラフと、XとYの共起によるグラフのANDを取る。
以上のように本発明の特徴語については、複数の単語列や、所定の範囲内に共起する単語の組み合わせを含むことができる。
図5には、第1の画面表示例を示す。画面の左側にはトピック欄(40)が配置され、ユーザーはキーボード(31)やマウスなどを用いて表示するトピックを選択する。図では大項目である「生産戦略と拠点戦略」及び小項目である「国内回帰の動き」が選択されており、その右のスコア欄(41)には重み値の計算値が線グラフで表示されている。スコア欄(41)は上端がテキストの先頭、下端が末尾である。
マーカー表示する範囲は、重み値の計算結果が所定の閾値を超えた語句が含まれる一文全体、又はその語句近傍の所定範囲の文章としてもよい。
このような表示方法は、ウェブブラウザのサイド部分のわずかな領域で、視覚的に分かりやすく表示することができ、例えば検索サービスの画面に適用しても好適である。
出力の態様も関連度の情報を図示しないメモリなどに一次的に格納したり、通信部(32)を介してネットワークを通じて別のコンピュータに送信する構成でもよい。
例えば、表2のようにトピックを「トランプ大統領」としたとき、「国」→「地域」→トピックと上位の概念から下位の概念の概念情報に分類され、国が階層1、地域が階層2、トピックが階層3となる。
マーカーの表示範囲としては、概念情報に属する特徴語ごとに、当該特徴語が含まれる文章全体、又は当該特徴語近傍の所定範囲の文章、又は特徴語のマージン範囲内の表示態様を変化させることができる。上位概念から下位概念のそれぞれの概念を含む文章ごとに区別できるように表示することで、読者は記事中の関連の程度を視覚的に理解しやすくなる。
すなわち、階層ごとに重み値とマージンの初期値を定める。表2の例では、階層1は重み値が1、前後のマージンが2500字、階層2は重み値が5、前後のマージンが1000字、階層3は重み値が10、前後のマージンが250字である。
10 CPU
101 入力処理部
102 特徴語抽出部
103 アスペクトデータ作成部
104 特徴語検索部
105 表示処理部
20 記憶部
201 学習用データ
202 アスペクトデータ
203 テキストデータ
30 モニタ
31 キーボード
32 通信部
Claims (13)
- 入力された第1のテキストデータから、
着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所と該トピックとの関連度を評価するコンピュータによるテキスト処理方法であって、
入力手段が、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた該第2のテキストデータ群における該トピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力ステップ、
特徴語抽出手段が、該関連文字列情報から特徴語を抽出する特徴語抽出ステップ、
アスペクトデータ作成手段が、該トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成ステップ
の各ステップを有する学習工程の後、
入力手段が、第1のテキストデータを入力するテキストデータ入力ステップ、
特徴語検索手段が、該アスペクトデータを参照し、少なくとも1つのトピックについて、該第1のテキストデータに含まれる特徴語を検索する特徴語検索ステップ、
出力手段が、トピック毎に区別して特徴語の検索結果に基づく値を該関連度として出力する出力ステップ
の各ステップを有する関連度評価工程を行う、
ことを特徴とする、テキスト処理方法。 - 前記テキスト処理方法において、
前記特徴語抽出ステップにおいて、前記特徴語抽出手段が、該関連文字列情報から特徴語を抽出する際に、該特徴語に定義された重み情報に基づいて所定の演算式により重み値を設定し、
前記アスペクトデータには前記トピックごとに抽出された特徴語について該重み値を格納し、
前記特徴語検索ステップにおいて、該重み値に基づいて検索条件を決定する
請求項1に記載のテキスト処理方法。 - 前記特徴語に定義された重み値が、前記特徴語抽出手段が特徴語を抽出する際に算出された出現頻度または共起頻度の少なくともいずれかに係る値である、
請求項2に記載のテキスト処理方法。 - 前記出力ステップにおいて、トピック毎に検索結果である複数の特徴語の数又はその重み値の合計に係る計算値を前記関連度として出力する
請求項2又は3に記載のテキスト処理方法。 - 前記アスペクトデータには前記トピックごとに抽出された特徴語と、当該特徴語が出現する前後少なくともいずれかの距離に係る距離値を格納し、
前記特徴語検索ステップにおいて、少なくとも該距離値に基づいて該第1のテキストデータに含まれる同じ種類又は異なる種類の特徴語の検索条件を決定する、
請求項1ないし4のいずれかに記載のテキスト処理方法。 - 前記特徴語検索ステップにおいて、前記特徴語検索手段が前記アスペクトデータに基づいて特徴語を検索すると共に、抽出された各特徴語の前記距離値を読み出し、該距離値の範囲内にある特徴語の前記重み値から所定の演算による計算値を前記関連度として出力する
請求項5に記載のテキスト処理方法。 - 前記アスペクトデータ作成ステップにおいて、前記アスペクトデータ作成手段が、
前記トピックごとに抽出された特徴語の各々について階層情報を定義すると共に、
該階層情報には、前記重み値と前記距離値の組み合わせのパターンを定義し、
前記特徴語検索ステップにおいて、該パターンに従った特徴語の検索条件を決定する
請求項5又は6に記載のテキスト処理方法。 - 前記トピックが、前記テキストデータに含まれる内容を読者が理解しやすいように上位概念から下位概念の2段階以上の概念情報に分類される構成において、
前記アスペクトデータ作成ステップにおいて、前記アスペクトデータ作成手段が、
前記階層情報を、該概念情報に応じて自動的に定義すると共に、
該トピック毎の特徴語のそれぞれを該概念情報と対応付ける
請求項1ないし7のいずれかに記載のテキスト処理方法。 - 前記出力ステップにおいて、前記出力手段が、
抽出された特徴語と共に、その関連度を所定のグラフによって表示する
請求項1ないし8のいずれかに記載のテキスト処理方法。 - 前記出力ステップにおいて、前記出力手段が、
前記第1のテキストデータを表示する構成において、抽出された特徴語の行の位置に合わせて所定のグラフを表示する
請求項1ないし9のいずれかに記載のテキスト処理方法。 - 前記出力ステップにおいて、前記出力手段が、
前記第1のテキストデータを表示する構成において、前記特徴語が含まれる文章全体、又は前記特徴語近傍の所定範囲の文章、又は前記特徴語の前記距離値の範囲内の表示態様を変化させる
請求項1ないし9のいずれかに記載のテキスト処理方法。 - 前記出力ステップにおいて、前記出力手段が、
前記概念情報に属する特徴語ごとに、当該特徴語が含まれる文章全体、又は当該特徴語近傍の所定範囲の文章、又は前記特徴語の前記距離値の範囲内の表示態様を変化させ、上位概念から下位概念のそれぞれの概念を含む文章ごとに区別できるように表示する
請求項8及び11に記載のテキスト処理方法。 - 入力された第1のテキストデータから着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所と該トピックとの関連度を評価するコンピュータを用いたテキスト処理装置であって、
複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた該第2のテキストデータ群における該トピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力手段と、
該関連文字列情報から特徴語を抽出する特徴語抽出手段と、
該トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成手段と、
第1のテキストデータを入力するテキストデータ入力手段と、
該アスペクトデータを参照し、少なくとも1つのトピックについて、該第1のテキストデータに含まれる特徴語を検索する特徴語検索手段と、
トピックごとに区別して、特徴語の検索結果に基づく値を該関連度として出力する出力手段と
を備えたことを特徴とする、テキスト処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018200325A JP7324577B2 (ja) | 2018-10-24 | 2018-10-24 | テキスト処理方法及び、テキスト処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018200325A JP7324577B2 (ja) | 2018-10-24 | 2018-10-24 | テキスト処理方法及び、テキスト処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020067831A true JP2020067831A (ja) | 2020-04-30 |
JP7324577B2 JP7324577B2 (ja) | 2023-08-10 |
Family
ID=70390423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018200325A Active JP7324577B2 (ja) | 2018-10-24 | 2018-10-24 | テキスト処理方法及び、テキスト処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7324577B2 (ja) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000163437A (ja) * | 1998-11-27 | 2000-06-16 | Seiko Epson Corp | 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体 |
US20040225667A1 (en) * | 2003-03-12 | 2004-11-11 | Canon Kabushiki Kaisha | Apparatus for and method of summarising text |
JP2009294723A (ja) * | 2008-06-02 | 2009-12-17 | Sharp Corp | 検索結果表示方法、検索装置及びコンピュータプログラム |
US20110060983A1 (en) * | 2009-09-08 | 2011-03-10 | Wei Jia Cai | Producing a visual summarization of text documents |
JP2012221316A (ja) * | 2011-04-11 | 2012-11-12 | Nippon Telegr & Teleph Corp <Ntt> | 文書トピック抽出装置及び方法及びプログラム |
JP2015152983A (ja) * | 2014-02-12 | 2015-08-24 | 日本電信電話株式会社 | トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム |
JP2015179385A (ja) * | 2014-03-19 | 2015-10-08 | 大日本印刷株式会社 | 資料検索装置、資料検索システム、資料検索方法、及び、プログラム |
JP2017058978A (ja) * | 2015-09-16 | 2017-03-23 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP2017134787A (ja) * | 2016-01-29 | 2017-08-03 | Kddi株式会社 | 複数地域でのトピックの評価を分析する装置、プログラム及び方法 |
US20170300563A1 (en) * | 2016-04-14 | 2017-10-19 | Linkedin Corporation | Generating text snippets using supervised machine learning algorithm |
US20180121539A1 (en) * | 2016-11-01 | 2018-05-03 | Quid, Inc. | Topic predictions based on natural language processing of large corpora |
-
2018
- 2018-10-24 JP JP2018200325A patent/JP7324577B2/ja active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000163437A (ja) * | 1998-11-27 | 2000-06-16 | Seiko Epson Corp | 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体 |
US20040225667A1 (en) * | 2003-03-12 | 2004-11-11 | Canon Kabushiki Kaisha | Apparatus for and method of summarising text |
JP2009294723A (ja) * | 2008-06-02 | 2009-12-17 | Sharp Corp | 検索結果表示方法、検索装置及びコンピュータプログラム |
US20110060983A1 (en) * | 2009-09-08 | 2011-03-10 | Wei Jia Cai | Producing a visual summarization of text documents |
JP2012221316A (ja) * | 2011-04-11 | 2012-11-12 | Nippon Telegr & Teleph Corp <Ntt> | 文書トピック抽出装置及び方法及びプログラム |
JP2015152983A (ja) * | 2014-02-12 | 2015-08-24 | 日本電信電話株式会社 | トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム |
JP2015179385A (ja) * | 2014-03-19 | 2015-10-08 | 大日本印刷株式会社 | 資料検索装置、資料検索システム、資料検索方法、及び、プログラム |
JP2017058978A (ja) * | 2015-09-16 | 2017-03-23 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP2017134787A (ja) * | 2016-01-29 | 2017-08-03 | Kddi株式会社 | 複数地域でのトピックの評価を分析する装置、プログラム及び方法 |
US20170300563A1 (en) * | 2016-04-14 | 2017-10-19 | Linkedin Corporation | Generating text snippets using supervised machine learning algorithm |
US20180121539A1 (en) * | 2016-11-01 | 2018-05-03 | Quid, Inc. | Topic predictions based on natural language processing of large corpora |
Also Published As
Publication number | Publication date |
---|---|
JP7324577B2 (ja) | 2023-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7680778B2 (en) | Support for reverse and stemmed hit-highlighting | |
US20050081146A1 (en) | Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus | |
EP2019361A1 (en) | A method and apparatus for extraction of textual content from hypertext web documents | |
JP2008515049A (ja) | 文書構造に基づいた検索結果の表示 | |
Piperski et al. | Big and diverse is beautiful: A large corpus of Russian to study linguistic variation | |
JP2012073804A (ja) | キーワード提示装置、方法及びプログラム | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
EP1843257A1 (en) | Methods and systems of indexing and retrieving documents | |
JP3820878B2 (ja) | 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体 | |
Kisilevich et al. | “Beautiful picture of an ugly place”. Exploring photo collections using opinion and sentiment analysis of user comments | |
JP4959603B2 (ja) | ドキュメントを解析するためのプログラム,装置および方法 | |
US9875298B2 (en) | Automatic generation of a search query | |
Zhang et al. | Sentiment bias detection in support of news credibility judgment | |
JP2010198142A (ja) | 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム | |
Bartík | Text-based web page classification with use of visual information | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JP2008077252A (ja) | 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 | |
JP7324577B2 (ja) | テキスト処理方法及び、テキスト処理装置 | |
JP7403216B2 (ja) | テキスト表示方法及び、テキスト表示装置 | |
JPH08166965A (ja) | 日本語テキスト自動分類方法 | |
JP6173990B2 (ja) | 検索支援装置、方法およびプログラム | |
JP4813312B2 (ja) | 電子文書検索方法、電子文書検索装置及びプログラム | |
Sariki et al. | A book recommendation system based on named entities | |
Balaji et al. | Finding related research papers using semantic and co-citation proximity analysis | |
Lamba et al. | Exploring OCR Errors in Full-Text Large Documents: A Study of LIS Theses and Dissertations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20181116 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210922 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220713 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220906 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20221026 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230622 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230731 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7324577 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |