JP2020067831A - テキスト処理方法及び、テキスト処理装置 - Google Patents

テキスト処理方法及び、テキスト処理装置 Download PDF

Info

Publication number
JP2020067831A
JP2020067831A JP2018200325A JP2018200325A JP2020067831A JP 2020067831 A JP2020067831 A JP 2020067831A JP 2018200325 A JP2018200325 A JP 2018200325A JP 2018200325 A JP2018200325 A JP 2018200325A JP 2020067831 A JP2020067831 A JP 2020067831A
Authority
JP
Japan
Prior art keywords
topic
characteristic word
data
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018200325A
Other languages
English (en)
Other versions
JP7324577B2 (ja
Inventor
裕司 皆川
Yuji Minakawa
裕司 皆川
亮 地主
Akira Jinushi
亮 地主
雅紀 木村
Masaki Kimura
雅紀 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Solize
Solize Corp
Original Assignee
Solize
Solize Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Solize, Solize Corp filed Critical Solize
Priority to JP2018200325A priority Critical patent/JP7324577B2/ja
Publication of JP2020067831A publication Critical patent/JP2020067831A/ja
Application granted granted Critical
Publication of JP7324577B2 publication Critical patent/JP7324577B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】着目するトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価する技術の提供。【解決手段】テキスト処理装置1において、入力手段が、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第2のテキストデータ群におけるトピックについて記載された関連文字列情報を学習用データとして入力し、特徴語抽出手段が、関連文字列情報から特徴語を抽出し、アスペクトデータ作成手段が、トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶する。各ステップを有する学習工程の後、入力手段が、第1のテキストデータを入力し、特徴語検索手段が、アスペクトデータを参照し、少なくとも1つのトピックについて、第1のテキストデータに含まれる特徴語を検索し、出力手段が、トピック毎に区別して特徴語の検索結果に基づく値を関連度として出力する。【選択図】図1

Description

本発明は、コンピュータによるテキスト処理方法及び装置に関し、特に、入力されたテキストデータから、着目するトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価する技術に係る。
電子化された大量の文書の中から、必要となる所望の文書を検索する技術が多数提案されている。最も簡単なものは検索する単語を入力し、その単語が含まれた文書を抽出して表示する技術である。インターネットにおける検索も、検索ロボットが自動的に収集した膨大なデータから、検索語が含まれるウェブデータなどを抽出して提示することで行われている。
極めて大量の文書から、検索語が含まれる文書を短時間で抽出することはコンピュータのテキスト処理方法の大きな効果の1つであるが、抽出された文書の量やその文書の容量によっては、単に検索語が含まれているかだけでなく、どの程度の関連性を有しているかを評価する手法が求められる。
例えば、特許文献1では、利用者の興味・関心に合った書籍・資料を書込み入りドキュメント画像を元に検索する資料検索装置等が提案されている。該装置では、書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、書込みの種類と位置を抽出する書込み抽出手段と、検索対象資料の第1の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、テキストデータから第2の特徴語を抽出する特徴語抽出手段と、書込みの種類と位置とを用いて第2の特徴語の重要度を算出し、テキストデータの前記特徴語データを作成する特徴データ作成手段と、検索用インデックスと特徴語データとの関連度を計算する関連度計算手段とを具備する構成が開示されている。
特許文献2では、ある特定の話題に対するテキスト集合から代表的な意見を抽出する方法が開示されている。すなわち、複数のコメントを含むテキスト集合から、代表的なコメントを抽出する代表コメント抽出方法において、テキスト集合から、テキスト集合の特徴を示す重要語を抽出する重要語抽出ステップと、複数のコメントを、重要語をもとにクラスタリングするクラスタリングステップと、クラスタリングで分割した各クラスタから、代表コメントを抽出する代表コメント抽出ステップにより、代表コメントを抽出することが開示されている。
また、関連する技術として特許文献3には、商品カテゴリに対応した特徴語を自動的に学習する方法が提案されている。商品カテゴリそれぞれに対応した特徴語を自動的に学習するシステムであって、カテゴリ名をクエリとして検索エンジンによって最大1000件のWebテキストを取得する手段と、カテゴリ名をクエリとして得られた最大1000件のWebテキストから、特徴語候補を抽出する手段と、抽出された特徴語候補とカテゴリとの関連度を算出する手段と、各カテゴリについて、前記の関連度が所定の閾値よりも高い特徴語候補を、当該カテゴリに対応した特徴語として関連付けて記憶する特徴語デーベースと、を備えることが開示されている。
特開2015−179385号公報 特開2013−15971号公報 特開2010−9307号公報
上記従来技術では、テキストデータにおける利用者の興味や代表的な意見について関連性の特徴語、重要語を表示することができるが、当該語句は全て抽出されてしまうため、文書内のどの部分が特に重要であるかなどは把握することができない。
本発明は上記従来技術の有する問題点に鑑みて創出されたものであり、着目するトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価する技術を提供することを目的とする。
本発明は上記課題を解決するため、本発明は次のようなテキスト処理方法及び装置を提供する。
まず、第1の実施態様によれば、入力された第1のテキストデータから、着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価するコンピュータによるテキスト処理方法を提供する。該方法において、
(S1)入力手段が、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第2のテキストデータ群におけるトピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力ステップ、
(S2)特徴語抽出手段が、関連文字列情報から特徴語を抽出する特徴語抽出ステップ、
(S3)アスペクトデータ作成手段が、トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成ステップの各ステップを有する学習工程の後、
(S4)入力手段が、第1のテキストデータを入力するテキストデータ入力ステップ、
(S5)特徴語検索手段が、アスペクトデータを参照し、少なくとも1つのトピックについて、第1のテキストデータに含まれる特徴語を検索する特徴語検索ステップ、
(S6)出力手段が、トピック毎に区別して特徴語の検索結果に基づく値を関連度として出力する出力ステップの各ステップを有する関連度評価工程を行う、ことを特徴とする。
第2の実施態様によれば、上記のテキスト処理方法の特徴語抽出ステップにおいて、特徴語抽出手段が、関連文字列情報から特徴語を抽出する際に、特徴語に定義された重み情報に基づいて所定の演算式により重み値を設定し、アスペクトデータにはトピックごとに抽出された特徴語について重み値を格納し、特徴語検索ステップにおいて、重み値に基づいて検索条件を決定する。
第3の実施態様によれば、特徴語に定義された重み値が、特徴語抽出手段が特徴語を抽出する際に算出された出現頻度または共起頻度の少なくともいずれかに係る値としてもよい。
第4の実施態様によれば、上記の出力ステップにおいて、トピック毎に検索結果である複数の特徴語の数又はその重み値の合計に係る計算値を上記の関連度として出力することもできる。
第5の実施態様によれば、アスペクトデータにはトピックごとに抽出された特徴語と、当該特徴語が出現する前後少なくともいずれかの距離に係る距離値を格納し、上記の特徴語検索ステップにおいて、少なくとも距離値に基づいて第1のテキストデータに含まれる同じ種類又は異なる種類の特徴語の検索条件を決定することができる。
第6の実施態様によれば、上記の特徴語検索ステップにおいて特徴語検索手段がアスペクトデータに基づいて特徴語を検索すると共に、抽出された各特徴語の距離値を読み出し、距離値の範囲内にある特徴語の重み値から所定の演算による計算値を上記の関連度として出力することができる。
第7の実施態様によれば、上記のアスペクトデータ作成ステップにおいて、アスペクトデータ作成手段が、トピックごとに抽出された特徴語の各々について階層情報を定義すると共に、階層情報には、重み値と距離値の組み合わせのパターンを定義し、特徴語検索ステップにおいて、パターンに従った特徴語の検索条件を決定することができる。
第8の実施態様によれば、トピックが、テキストデータに含まれる内容を読者が理解しやすいように上位概念から下位概念の2段階以上の概念情報に分類される構成において、上記のアスペクトデータ作成ステップにおいて、アスペクトデータ作成手段が、階層情報を、概念情報に応じて自動的に定義すると共に、トピック毎の特徴語のそれぞれを概念情報と対応付けることができる。
第9の実施態様によれば、上記の出力ステップにおいて、出力手段が、抽出された特徴語と共に、その関連度を所定のグラフによって表示する構成でもよい。
第10の実施態様によれば、上記の出力ステップにおいて、出力手段が、第1のテキストデータを表示する構成において、抽出された特徴語の行の位置に合わせて所定のグラフを表示することもできる。
第11の実施態様によれば、上記の出力ステップにおいて、出力手段が、第1のテキストデータを表示する構成において、特徴語が含まれる文章全体、又は特徴語近傍の所定範囲の文章、又は特徴語の距離値の範囲内の表示態様を変化させることができる。
第12の実施態様によれば、上記の出力ステップにおいて、出力手段が、概念情報に属する特徴語ごとに、当該特徴語が含まれる文章全体、又は当該特徴語近傍の所定範囲の文章、又は特徴語の距離値の範囲内の表示態様を変化させ、上位概念から下位概念のそれぞれの概念を含む文章ごとに区別できるように表示する構成でもよい。
第13の実施態様によれば、テキスト処理装置を提供することもできる。
すなわち、入力された第1のテキストデータから 着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価するコンピュータを用いたテキスト処理装置であって、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第2のテキストデータ群におけるトピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力手段と、関連文字列情報から特徴語を抽出する特徴語抽出手段と、トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成手段と、第1のテキストデータを入力するテキストデータ入力手段と、アスペクトデータを参照し、少なくとも1つのトピックについて、第1のテキストデータに含まれる特徴語を検索する特徴語検索手段と、トピックごとに区別して、特徴語の検索結果に基づく値を関連度として出力する出力手段とを備えたことを特徴とする。
本発明によれば、着目するトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価する技術を提供することができる。
本発明におけるテキスト処理装置(1)の全体図である。 本発明に係るテキスト処理方法のフローチャートである。 本発明に係る関連度の計算方法の説明図である。 本発明に係る関連度の計算方法の説明図である。 本発明の第1の画面表示例である。 本発明の第2の画面表示例である。 本発明の第3の画面表示例である。 本発明の第4の画面表示例である。
以下、本発明の実施形態を図面を用いて説明する。本発明は以下の実施例に限定されず請求項記載の範囲で適宜実施することができる。
図1は、本発明におけるテキスト処理装置(1)の全体図である。本装置(1)は公知のパーソナルコンピュータにより実施することができるほか、ウェブサーバ装置などのサーバ装置に実装することもできる。これらの機器の詳細については公知であるから説明を省略する。
図2は本発明に係るテキスト処理方法のフローチャートである。
本発明のテキスト処理方法は大きく2つの工程に分けられる。事前に機械学習を行う学習工程と、学習工程によって作成されたアスペクトデータを用いて入力されるテキスト中の関連箇所について関連度を評価する関連度評価工程である。本実施例では学習工程と関連度評価工程を連続したものとして説明しているが、アスペクトデータを作成して記憶させておけば、関連度評価工程だけを実装して実施することができる。
学習工程では、まず入力手段であるCPU(10)における入力処理部(101)が、ハードディスクなどの記憶部(20)に格納された学習用データ(201)を入力する。(学習用データ入力ステップ:S1)
学習用データ(201)は、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第2のテキストデータ群におけるトピックについて記載された関連文字列情報との組み合わせから構成されている。
トピックは、着目する話題を分類する項目であり、例えば技術文書であれば大項目から小項目に段階的に分類された見出しに対応させることもできるし、あるいは技術文書に含まれる一般的な要点を手作業で抽出したものでもよい。ニュースサイトや新聞、雑誌などの情報であれば、「国際」「経済」「社会」などのように分野別に分類されたもの、さらに「国際」という上位概念から「米国」「欧州」「中国」などのように下位概念に分類されたもの、などでもよい。あるいは「格差問題」「住宅問題」などのようにテーマ毎に分類されたものでもよい。
さらに本発明の特徴として、トピックはテキストデータに含まれる内容を読者が理解しやすいように上位概念から下位概念の2段階以上の概念情報に分類されたものとした上で、この概念情報を後述する特徴語の検索における検索条件に反映させることもできる。
入力する第2のテキストデータとは、学習に用いるためのテキストデータであって、少なくとも上記のトピックが含まれる文書に係るものであるが、トピックと何ら関係のないテキストデータを同時に入力してもよい。
関連文字列情報は、第2のテキストデータ群におけるトピックについて記載された関連文字列を予め定義したものであり、原則としては人手によって関連性を判断されて定義される。
例えば、過去の大量のニュースに関するテキストデータを第2のテキストデータ群として入力するとして、トピック「国際」の下に「米国」「欧州」「中国」があるとき、人手によって「米国」に関する記事部分を抽出したものが関連文字列情報である。この場合の関連文字列情報は、当該記事全体となる。
入力された学習用データ(201)を用いて特徴語抽出部(102)が関連文字列情報から特徴語を抽出する。(特徴語抽出ステップ:S2)
特徴語は、テキストデータ中でトピックが記載されていることを特徴づける語句であり、前述の「米国」がトピックであれば、例えば「米国」「ニューヨーク」「トランプ大統領」など他のトピックの記事と区別されるような語句が考えられる。
特徴語の抽出方法は、言語処理分野において公知であるが、特徴語の抽出で良く用いられる手法としてTF-IDFが挙げられる。TFは単語の出現頻度、IDFとは逆文書頻度であり、出現頻度の多い語句は重要という前提の上で、逆文書頻度を考慮することで特徴語が全記事においてどれくらいの記事で出現するかを表す尺度を導入する。IDFは、全記事数のうちからある語句が出現する記事数で割った値の対数に1を加えた値とするので、ある語句が出現する記事が少ないと大きくなり、どの記事にも出現する場合小さくなる。このIDFにTFを掛けたものがその語句の重み値とする。
特徴語の抽出方法としては、他にSVM(平尾努,磯崎秀樹,前田英作,松本祐治:Support Vector Machineを用いた重要文抽出法,情報処理学会論文誌. Vol.44, No.8, pp.2230−2243 (2003))、KeyGraph(インターネットURL:http://iit.kke.co.jp/keygraph/ 2018年9月10日検索)など様々な方法が知られており、本発明では公知の方法を適宜使用することができる。
また、特徴語の抽出のためにテキストデータを形態素解析して所定の形態素に分けることも周知技術である。
特徴語抽出ステップ(S2)によれば、関連文字列情報と第2テキストデータ群中の特徴語の対応付けができるので、関連文字列情報と対応するトピックデータと特徴語とも対応付けられる。本発明ではこの対応付けた情報をアスペクトデータ(202)と呼び、アスペクトデータ作成部(103)によって記憶部(20)に格納される。(アスペクトデータ作成ステップ:S3)
アスペクトデータ(202)として最も単純なデータはトピック毎に特徴語が定義されることであり、従来技術と異なり、様々なトピックに対してアスペクトデータを対応づけていることに本発明の特徴がある。従って、最小限の構成としてはアスペクトデータに特徴語だけが定義されていてもよい。
本実施例では、アスペクトデータにはトピック毎の特徴語に加え、特徴語には重み値を合わせて格納する。
重み値としては、上述したTF-IDFにおける重み値など、特徴語抽出手段が特徴語を抽出する際に算出された出現頻度または共起頻度の少なくともいずれかに係る値を用いることができる。
あるいは、特徴語に定義された重み情報に基づいて所定の演算式により重み値を設定し、アスペクトデータにはトピックごとに抽出された特徴語について重み値を格納することもできる。
さらに、アスペクトデータにはトピックごとに抽出された特徴語と、当該特徴語が出現する前後少なくともいずれかの距離に係る距離値(マージンと呼ぶ)を格納することもできる。ここでマージンは、当該特徴語と他の特徴語とが同時に出現したと判断するかどうかの距離を指しており、本発明の関連度を算出する上で重要なパラメータである。距離値を含むアスペクトデータの例を表1に示す。
Figure 2020067831
上記表の意味は、関連度を評価するテキストと、トピック「米国」に係る特徴語の重みについて、「アメリカ」であれば重み値が1で小さい反面、他の特徴語、すなわち「米国」「ニューヨーク」「トランプ大統領」と共起したかどうか判断するマージンが前に2500文字、後ろに2500字と広く設定されていることになる。一方、「トランプ大統領」が含まれる場合、それは米国に関連する確からしさがより高いと考えられて重み値が10となっている。この場合、範囲をより特定するためにマージンは前後それぞれ250と狭く設定されている。
距離値の定義は、重み値が1の時は2500,5の時は1000,というように重み値に対応づけて機械的に定義してもよいし、手作業で特徴語を考慮しながら定義してもよい。
以上の処理により学習工程を終え、結果としてアスペクトデータ(202)が生成される。
関連度評価工程では、入力処理部(101)から評価を行う対象の第1テキストデータ(203)を入力し、記憶部(20)に記録する。(テキストデータ入力ステップ:S4)
次いで特徴語検索部(104)が、アスペクトデータ(202)を参照し、少なくとも1つのトピックについて、第1テキストデータ(203)に含まれる特徴語を検索する。(特徴語検索ステップ:S5)
具体的には、トピック毎にアスペクトデータ(202)に格納される特徴語を検索し、例えば特徴語の数に応じて関連度を評価する。テキストデータ中の特徴語が頻出する箇所が関連度の高い箇所として抽出すれば良いので、簡単な方法としては、特徴語がある閾値よりも狭い範囲で繰り返し出現する部分を関連箇所として出力することもできる。
本実施例ではより複雑な処理を行っており、トピック毎の特徴語に重み値が設定されているので、その重み値に係る計算値を関連度とする。図3は本発明に係る関連度の計算方法の説明図である。
本図は第1テキストデータ(203)の先頭から末尾までを横軸に取り、左が先頭、右が末尾の文字位置を示している。各特徴語の縦は重み値を示している。
例えば、1段目の特徴語「アメリカ」は3000文字目にあって、マージンの前後2500文字として500文字から5500文字の範囲に重み1のグラフが描かれている。同じように8000文字目にあって5500文字から10500文字の範囲、14000文字目にあって11500文字から16500文字の範囲にもグラフが描かれる。
本実施例では同じルールに基づく検索結果はOR演算を行う。つまり、2段目の特徴語「米国」は4500文字目と8000文字目に出現するが、この場合図示のように特徴語を検索したときに重複した部分が生じても、重みを合計するのではなくORをとることで2000文字から10500文字までが重み1のグラフとなる。
特徴語「ニューヨーク」は4000文字目と14000文字目に出現して前後幅2000文字で重み3、「トランプ大統領」は4750文字目に出現して前後幅500文字で重み5と表される。
その上で、これらの重み値のAND演算を行うと、下段に示した関連度のようなグラフとなる。このグラフは、テキストデータ中の関連箇所を視覚的に示すものであり、aの場所はトピック「米国」に関連がないことを示し、bやcは関連が高いことを示している。
本発明では関連度を算出するために、重み値と共にマージンの概念を創出して、マージンを用いた演算を行ったことで、全く新しい関連度の算出方法を提供している。演算方法としては、上述したように同じルール(同じ特徴語)ではOR演算、異なるルール同士ではAND演算を行うことが好ましいが、同じ特徴語でAND演算を行ってもよいし、その他任意の計算値を用いることもできる。
アスペクトデータ(202)の例として、1つの単語又は形態素からなる特徴語について重み値及び距離値を定義した例を示しているが、特徴語は複数の単語列でもよい。例えば「アメリカ合衆国ニューヨーク市」の単語列を特徴語としてもよい。
また、2つの単語が所定の範囲内に共起する場合を1つのルールとしてもよい。例えば、単語Aと単語B又は単語Cが50文字以内に共起するというルール1をA(B C)<50と表す。50文字以内は例えばAがfish、Bがbirdであれば、fishのhと、birdのbの間が50字以内とする。このルール1の特徴度を1とすると図4(a)のようにfishのfから、birdのdまで、重み1のグラフが描かれる。
上記実施例と異なり、本実施例の図4(b)では前後のマージンの範囲内において重み値が変化する例を示している。このように重み値は一定でなく、特徴語から離れるに応じて小さくなるように変化させてもよい。
そして、図4(c)のように、ルール1に定義されたAとBの共起によるグラフと、AとCの共起によるグラフの場合は、同じルール同士であるからORを取る。
一方、図4(d)のように、ルール2にはX(Y Z)<100を定義し、XとYの共起によるグラフがある場合には、AとBの共起によるグラフと、XとYの共起によるグラフのANDを取る。
以上のように本発明の特徴語については、複数の単語列や、所定の範囲内に共起する単語の組み合わせを含むことができる。
表示処理部(105)はモニタ(30)からトピック毎に区別して特徴語の検索結果に基づく値を関連度として表示する。表示方法は、図3のようにグラフ化して表示することが好ましい。
図5には、第1の画面表示例を示す。画面の左側にはトピック欄(40)が配置され、ユーザーはキーボード(31)やマウスなどを用いて表示するトピックを選択する。図では大項目である「生産戦略と拠点戦略」及び小項目である「国内回帰の動き」が選択されており、その右のスコア欄(41)には重み値の計算値が線グラフで表示されている。スコア欄(41)は上端がテキストの先頭、下端が末尾である。
スコア欄(41)を見ると横軸のスコアが高い位置が関連度の高い関連箇所を示しており、文章全体の中でトピックに関連する記述がどの位置にあるかを容易に把握することができる。スコア欄の線グラフをマウスなどで指定することで、当該記載部分を閲覧できるようにしてもよい。
スコア欄(41)において閾値を超えた箇所は、その右欄の文書一覧表示(42)においてマーカー表示されている。ユーザーはトピック欄(40)からトピックを選ぶことで、そのトピックに関連する記載がどこにどのくらいの量記載されているのかを一目で理解することができる。
マーカー表示する範囲は、重み値の計算結果が所定の閾値を超えた語句が含まれる一文全体、又はその語句近傍の所定範囲の文章としてもよい。
図6には、第2の画面表示例を示す。本実施例では、左側のトピック欄(40)からトピックを選択すると、右側の関連箇所表示欄(43)において複数の文書の関連箇所を表示できるようになっている。例えば、白書のように毎年発行される文書を複数年度分指定してトピックを選択すると、各年度の白書において1つのトピックに関連する箇所が抽出される。所定の重み値の計算結果を超える部分だけを図のように配列すれば、複数の文書における同じトピックに係る記載を比較対照することが容易に行える。
図7ではウェブブラウザにおいてウェブサイトの記事を表示すると共に、その横に関連度を示す棒グラフを表示する例を示している。棒グラフは記事の行の位置と一致しており、例えば検索窓に入力してユーザーが指定したトピックについて、記事のどの位置に関連する情報が記載されているか容易に分かるように構成されている。
このような表示方法は、ウェブブラウザのサイド部分のわずかな領域で、視覚的に分かりやすく表示することができ、例えば検索サービスの画面に適用しても好適である。
以上、本発明に係る表示例を示したが、関連度出力ステップ(S6)では、必ずしも結果を表示する必要はなく、あるトピックについて、テキストデータ(203)の中の関連箇所について関連度を出力する構成でもよい。関連度としては、上述したような重み値を計算した値のほか、関連の有り、無しだけの情報でもよい。
出力の態様も関連度の情報を図示しないメモリなどに一次的に格納したり、通信部(32)を介してネットワークを通じて別のコンピュータに送信する構成でもよい。
本発明の別実施例として、アスペクトデータ作成ステップ(S3)において、アスペクトデータ作成部(103)が、トピックごとに抽出された特徴語の各々について階層情報を定義することができる。
例えば、表2のようにトピックを「トランプ大統領」としたとき、「国」→「地域」→トピックと上位の概念から下位の概念の概念情報に分類され、国が階層1、地域が階層2、トピックが階層3となる。
Figure 2020067831
特徴語をこのように読者が理解しやすい概念情報で分類することで新聞記事から「アメリカ」について記載される広範囲な部分から、地域を特定し、さらに所望のトピックの部分までを段階に分けて把握することができるようになる。
このような分類を行った場合、図8に示すように所望のトピック(50)を選択すると、階層1(国名)の部分は薄いマーカー表示(51)、階層2(地域)が一致する部分は中濃度のマーカー表示(52)、選択されたトピック(50)の部分は濃いマーカー表示(53)で表示することができる。
マーカーの表示範囲としては、概念情報に属する特徴語ごとに、当該特徴語が含まれる文章全体、又は当該特徴語近傍の所定範囲の文章、又は特徴語のマージン範囲内の表示態様を変化させることができる。上位概念から下位概念のそれぞれの概念を含む文章ごとに区別できるように表示することで、読者は記事中の関連の程度を視覚的に理解しやすくなる。
上記階層情報をさらに、アスペクトデータ作成ステップ(S3)における重み値と距離値の定義に用いることができる。
すなわち、階層ごとに重み値とマージンの初期値を定める。表2の例では、階層1は重み値が1、前後のマージンが2500字、階層2は重み値が5、前後のマージンが1000字、階層3は重み値が10、前後のマージンが250字である。
このように定めておくと、特徴語が抽出された後、それを読者の理解しやすい概念情報に分類すると同時に階層が決まるので、重み値とマージンが適切に設定される。すなわち、階層情報に、重み値と距離値の組み合わせのパターンを定義し、特徴語検索ステップ(S5)において、パターンに従った特徴語の検索条件を決定することができる。
概念情報としては、国や地域、トピックについて辞書データやシソーラスなどのデータベースを参照し、上位概念から下位概念を自動的に分類することもできる。特徴語が抽出された後にこれらのデータベースと照合することで、例えば「アメリカ」「ニューヨーク」「トランプ大統領」であれば、国、地域、固有名詞であることから、上位概念、中位概念、下位概念の分類され、それに対応する階層情報、さらに重み値及び距離値の定義まで行うことができる。
本発明は、以上のように読者の理解しやすい概念情報と、コンピュータが関連度を算出するときの値のセットをパターン化することができるので、関連度算出の高精度化に寄与すると同時に、ユーザーにも違和感のない結果を得ることができる。
1 テキスト処理装置
10 CPU
101 入力処理部
102 特徴語抽出部
103 アスペクトデータ作成部
104 特徴語検索部
105 表示処理部
20 記憶部
201 学習用データ
202 アスペクトデータ
203 テキストデータ
30 モニタ
31 キーボード
32 通信部

Claims (13)

  1. 入力された第1のテキストデータから、
    着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所と該トピックとの関連度を評価するコンピュータによるテキスト処理方法であって、
    入力手段が、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた該第2のテキストデータ群における該トピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力ステップ、
    特徴語抽出手段が、該関連文字列情報から特徴語を抽出する特徴語抽出ステップ、
    アスペクトデータ作成手段が、該トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成ステップ
    の各ステップを有する学習工程の後、
    入力手段が、第1のテキストデータを入力するテキストデータ入力ステップ、
    特徴語検索手段が、該アスペクトデータを参照し、少なくとも1つのトピックについて、該第1のテキストデータに含まれる特徴語を検索する特徴語検索ステップ、
    出力手段が、トピック毎に区別して特徴語の検索結果に基づく値を該関連度として出力する出力ステップ
    の各ステップを有する関連度評価工程を行う、
    ことを特徴とする、テキスト処理方法。
  2. 前記テキスト処理方法において、
    前記特徴語抽出ステップにおいて、前記特徴語抽出手段が、該関連文字列情報から特徴語を抽出する際に、該特徴語に定義された重み情報に基づいて所定の演算式により重み値を設定し、
    前記アスペクトデータには前記トピックごとに抽出された特徴語について該重み値を格納し、
    前記特徴語検索ステップにおいて、該重み値に基づいて検索条件を決定する
    請求項1に記載のテキスト処理方法。
  3. 前記特徴語に定義された重み値が、前記特徴語抽出手段が特徴語を抽出する際に算出された出現頻度または共起頻度の少なくともいずれかに係る値である、
    請求項2に記載のテキスト処理方法。
  4. 前記出力ステップにおいて、トピック毎に検索結果である複数の特徴語の数又はその重み値の合計に係る計算値を前記関連度として出力する
    請求項2又は3に記載のテキスト処理方法。
  5. 前記アスペクトデータには前記トピックごとに抽出された特徴語と、当該特徴語が出現する前後少なくともいずれかの距離に係る距離値を格納し、
    前記特徴語検索ステップにおいて、少なくとも該距離値に基づいて該第1のテキストデータに含まれる同じ種類又は異なる種類の特徴語の検索条件を決定する、
    請求項1ないし4のいずれかに記載のテキスト処理方法。
  6. 前記特徴語検索ステップにおいて、前記特徴語検索手段が前記アスペクトデータに基づいて特徴語を検索すると共に、抽出された各特徴語の前記距離値を読み出し、該距離値の範囲内にある特徴語の前記重み値から所定の演算による計算値を前記関連度として出力する
    請求項5に記載のテキスト処理方法。
  7. 前記アスペクトデータ作成ステップにおいて、前記アスペクトデータ作成手段が、
    前記トピックごとに抽出された特徴語の各々について階層情報を定義すると共に、
    該階層情報には、前記重み値と前記距離値の組み合わせのパターンを定義し、
    前記特徴語検索ステップにおいて、該パターンに従った特徴語の検索条件を決定する
    請求項5又は6に記載のテキスト処理方法。
  8. 前記トピックが、前記テキストデータに含まれる内容を読者が理解しやすいように上位概念から下位概念の2段階以上の概念情報に分類される構成において、
    前記アスペクトデータ作成ステップにおいて、前記アスペクトデータ作成手段が、
    前記階層情報を、該概念情報に応じて自動的に定義すると共に、
    該トピック毎の特徴語のそれぞれを該概念情報と対応付ける
    請求項1ないし7のいずれかに記載のテキスト処理方法。
  9. 前記出力ステップにおいて、前記出力手段が、
    抽出された特徴語と共に、その関連度を所定のグラフによって表示する
    請求項1ないし8のいずれかに記載のテキスト処理方法。
  10. 前記出力ステップにおいて、前記出力手段が、
    前記第1のテキストデータを表示する構成において、抽出された特徴語の行の位置に合わせて所定のグラフを表示する
    請求項1ないし9のいずれかに記載のテキスト処理方法。
  11. 前記出力ステップにおいて、前記出力手段が、
    前記第1のテキストデータを表示する構成において、前記特徴語が含まれる文章全体、又は前記特徴語近傍の所定範囲の文章、又は前記特徴語の前記距離値の範囲内の表示態様を変化させる
    請求項1ないし9のいずれかに記載のテキスト処理方法。
  12. 前記出力ステップにおいて、前記出力手段が、
    前記概念情報に属する特徴語ごとに、当該特徴語が含まれる文章全体、又は当該特徴語近傍の所定範囲の文章、又は前記特徴語の前記距離値の範囲内の表示態様を変化させ、上位概念から下位概念のそれぞれの概念を含む文章ごとに区別できるように表示する
    請求項8及び11に記載のテキスト処理方法。
  13. 入力された第1のテキストデータから着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所と該トピックとの関連度を評価するコンピュータを用いたテキスト処理装置であって、
    複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた該第2のテキストデータ群における該トピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力手段と、
    該関連文字列情報から特徴語を抽出する特徴語抽出手段と、
    該トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成手段と、
    第1のテキストデータを入力するテキストデータ入力手段と、
    該アスペクトデータを参照し、少なくとも1つのトピックについて、該第1のテキストデータに含まれる特徴語を検索する特徴語検索手段と、
    トピックごとに区別して、特徴語の検索結果に基づく値を該関連度として出力する出力手段と
    を備えたことを特徴とする、テキスト処理装置。
JP2018200325A 2018-10-24 2018-10-24 テキスト処理方法及び、テキスト処理装置 Active JP7324577B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018200325A JP7324577B2 (ja) 2018-10-24 2018-10-24 テキスト処理方法及び、テキスト処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018200325A JP7324577B2 (ja) 2018-10-24 2018-10-24 テキスト処理方法及び、テキスト処理装置

Publications (2)

Publication Number Publication Date
JP2020067831A true JP2020067831A (ja) 2020-04-30
JP7324577B2 JP7324577B2 (ja) 2023-08-10

Family

ID=70390423

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018200325A Active JP7324577B2 (ja) 2018-10-24 2018-10-24 テキスト処理方法及び、テキスト処理装置

Country Status (1)

Country Link
JP (1) JP7324577B2 (ja)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000163437A (ja) * 1998-11-27 2000-06-16 Seiko Epson Corp 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
US20040225667A1 (en) * 2003-03-12 2004-11-11 Canon Kabushiki Kaisha Apparatus for and method of summarising text
JP2009294723A (ja) * 2008-06-02 2009-12-17 Sharp Corp 検索結果表示方法、検索装置及びコンピュータプログラム
US20110060983A1 (en) * 2009-09-08 2011-03-10 Wei Jia Cai Producing a visual summarization of text documents
JP2012221316A (ja) * 2011-04-11 2012-11-12 Nippon Telegr & Teleph Corp <Ntt> 文書トピック抽出装置及び方法及びプログラム
JP2015152983A (ja) * 2014-02-12 2015-08-24 日本電信電話株式会社 トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム
JP2015179385A (ja) * 2014-03-19 2015-10-08 大日本印刷株式会社 資料検索装置、資料検索システム、資料検索方法、及び、プログラム
JP2017058978A (ja) * 2015-09-16 2017-03-23 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2017134787A (ja) * 2016-01-29 2017-08-03 Kddi株式会社 複数地域でのトピックの評価を分析する装置、プログラム及び方法
US20170300563A1 (en) * 2016-04-14 2017-10-19 Linkedin Corporation Generating text snippets using supervised machine learning algorithm
US20180121539A1 (en) * 2016-11-01 2018-05-03 Quid, Inc. Topic predictions based on natural language processing of large corpora

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000163437A (ja) * 1998-11-27 2000-06-16 Seiko Epson Corp 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
US20040225667A1 (en) * 2003-03-12 2004-11-11 Canon Kabushiki Kaisha Apparatus for and method of summarising text
JP2009294723A (ja) * 2008-06-02 2009-12-17 Sharp Corp 検索結果表示方法、検索装置及びコンピュータプログラム
US20110060983A1 (en) * 2009-09-08 2011-03-10 Wei Jia Cai Producing a visual summarization of text documents
JP2012221316A (ja) * 2011-04-11 2012-11-12 Nippon Telegr & Teleph Corp <Ntt> 文書トピック抽出装置及び方法及びプログラム
JP2015152983A (ja) * 2014-02-12 2015-08-24 日本電信電話株式会社 トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム
JP2015179385A (ja) * 2014-03-19 2015-10-08 大日本印刷株式会社 資料検索装置、資料検索システム、資料検索方法、及び、プログラム
JP2017058978A (ja) * 2015-09-16 2017-03-23 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2017134787A (ja) * 2016-01-29 2017-08-03 Kddi株式会社 複数地域でのトピックの評価を分析する装置、プログラム及び方法
US20170300563A1 (en) * 2016-04-14 2017-10-19 Linkedin Corporation Generating text snippets using supervised machine learning algorithm
US20180121539A1 (en) * 2016-11-01 2018-05-03 Quid, Inc. Topic predictions based on natural language processing of large corpora

Also Published As

Publication number Publication date
JP7324577B2 (ja) 2023-08-10

Similar Documents

Publication Publication Date Title
US7680778B2 (en) Support for reverse and stemmed hit-highlighting
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
EP2019361A1 (en) A method and apparatus for extraction of textual content from hypertext web documents
JP2008515049A (ja) 文書構造に基づいた検索結果の表示
Piperski et al. Big and diverse is beautiful: A large corpus of Russian to study linguistic variation
JP2012073804A (ja) キーワード提示装置、方法及びプログラム
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
EP1843257A1 (en) Methods and systems of indexing and retrieving documents
JP3820878B2 (ja) 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
Kisilevich et al. “Beautiful picture of an ugly place”. Exploring photo collections using opinion and sentiment analysis of user comments
JP4959603B2 (ja) ドキュメントを解析するためのプログラム,装置および方法
US9875298B2 (en) Automatic generation of a search query
Zhang et al. Sentiment bias detection in support of news credibility judgment
JP2010198142A (ja) 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム
Bartík Text-based web page classification with use of visual information
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP7324577B2 (ja) テキスト処理方法及び、テキスト処理装置
JP7403216B2 (ja) テキスト表示方法及び、テキスト表示装置
JPH08166965A (ja) 日本語テキスト自動分類方法
JP6173990B2 (ja) 検索支援装置、方法およびプログラム
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
Sariki et al. A book recommendation system based on named entities
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
Lamba et al. Exploring OCR Errors in Full-Text Large Documents: A Study of LIS Theses and Dissertations

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20181116

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210922

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220906

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230731

R150 Certificate of patent or registration of utility model

Ref document number: 7324577

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150