JP2020067831A

JP2020067831A - テキスト処理方法及び、テキスト処理装置

Info

Publication number: JP2020067831A
Application number: JP2018200325A
Authority: JP
Inventors: 裕司皆川; Yuji Minakawa; 亮地主; Akira Jinushi; 雅紀木村; Masaki Kimura
Original assignee: Solize; Solize Corp
Current assignee: Solize; Solize Corp
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2020-04-30
Anticipated expiration: 2038-10-24
Also published as: JP7324577B2

Abstract

【課題】着目するトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価する技術の提供。【解決手段】テキスト処理装置１において、入力手段が、複数の第２のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第２のテキストデータ群におけるトピックについて記載された関連文字列情報を学習用データとして入力し、特徴語抽出手段が、関連文字列情報から特徴語を抽出し、アスペクトデータ作成手段が、トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶する。各ステップを有する学習工程の後、入力手段が、第１のテキストデータを入力し、特徴語検索手段が、アスペクトデータを参照し、少なくとも１つのトピックについて、第１のテキストデータに含まれる特徴語を検索し、出力手段が、トピック毎に区別して特徴語の検索結果に基づく値を関連度として出力する。【選択図】図１

Description

本発明は、コンピュータによるテキスト処理方法及び装置に関し、特に、入力されたテキストデータから、着目するトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価する技術に係る。

電子化された大量の文書の中から、必要となる所望の文書を検索する技術が多数提案されている。最も簡単なものは検索する単語を入力し、その単語が含まれた文書を抽出して表示する技術である。インターネットにおける検索も、検索ロボットが自動的に収集した膨大なデータから、検索語が含まれるウェブデータなどを抽出して提示することで行われている。

極めて大量の文書から、検索語が含まれる文書を短時間で抽出することはコンピュータのテキスト処理方法の大きな効果の１つであるが、抽出された文書の量やその文書の容量によっては、単に検索語が含まれているかだけでなく、どの程度の関連性を有しているかを評価する手法が求められる。

例えば、特許文献１では、利用者の興味・関心に合った書籍・資料を書込み入りドキュメント画像を元に検索する資料検索装置等が提案されている。該装置では、書込みを含むドキュメント画像に文字認識処理を施しテキストデータを抽出するテキスト抽出手段と、書込みの種類と位置を抽出する書込み抽出手段と、検索対象資料の第１の特徴語とその重要度を含む検索用インデックスを記憶する記憶手段と、テキストデータから第２の特徴語を抽出する特徴語抽出手段と、書込みの種類と位置とを用いて第２の特徴語の重要度を算出し、テキストデータの前記特徴語データを作成する特徴データ作成手段と、検索用インデックスと特徴語データとの関連度を計算する関連度計算手段とを具備する構成が開示されている。

特許文献２では、ある特定の話題に対するテキスト集合から代表的な意見を抽出する方法が開示されている。すなわち、複数のコメントを含むテキスト集合から、代表的なコメントを抽出する代表コメント抽出方法において、テキスト集合から、テキスト集合の特徴を示す重要語を抽出する重要語抽出ステップと、複数のコメントを、重要語をもとにクラスタリングするクラスタリングステップと、クラスタリングで分割した各クラスタから、代表コメントを抽出する代表コメント抽出ステップにより、代表コメントを抽出することが開示されている。

また、関連する技術として特許文献３には、商品カテゴリに対応した特徴語を自動的に学習する方法が提案されている。商品カテゴリそれぞれに対応した特徴語を自動的に学習するシステムであって、カテゴリ名をクエリとして検索エンジンによって最大１０００件のＷｅｂテキストを取得する手段と、カテゴリ名をクエリとして得られた最大１０００件のＷｅｂテキストから、特徴語候補を抽出する手段と、抽出された特徴語候補とカテゴリとの関連度を算出する手段と、各カテゴリについて、前記の関連度が所定の閾値よりも高い特徴語候補を、当該カテゴリに対応した特徴語として関連付けて記憶する特徴語デーベースと、を備えることが開示されている。

特開２０１５−１７９３８５号公報特開２０１３−１５９７１号公報特開２０１０−９３０７号公報

上記従来技術では、テキストデータにおける利用者の興味や代表的な意見について関連性の特徴語、重要語を表示することができるが、当該語句は全て抽出されてしまうため、文書内のどの部分が特に重要であるかなどは把握することができない。

本発明は上記従来技術の有する問題点に鑑みて創出されたものであり、着目するトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価する技術を提供することを目的とする。

本発明は上記課題を解決するため、本発明は次のようなテキスト処理方法及び装置を提供する。
まず、第１の実施態様によれば、入力された第１のテキストデータから、着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価するコンピュータによるテキスト処理方法を提供する。該方法において、
（Ｓ１）入力手段が、複数の第２のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第２のテキストデータ群におけるトピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力ステップ、
（Ｓ２）特徴語抽出手段が、関連文字列情報から特徴語を抽出する特徴語抽出ステップ、
（Ｓ３）アスペクトデータ作成手段が、トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成ステップの各ステップを有する学習工程の後、
（Ｓ４）入力手段が、第１のテキストデータを入力するテキストデータ入力ステップ、
（Ｓ５）特徴語検索手段が、アスペクトデータを参照し、少なくとも１つのトピックについて、第１のテキストデータに含まれる特徴語を検索する特徴語検索ステップ、
（Ｓ６）出力手段が、トピック毎に区別して特徴語の検索結果に基づく値を関連度として出力する出力ステップの各ステップを有する関連度評価工程を行う、ことを特徴とする。

第２の実施態様によれば、上記のテキスト処理方法の特徴語抽出ステップにおいて、特徴語抽出手段が、関連文字列情報から特徴語を抽出する際に、特徴語に定義された重み情報に基づいて所定の演算式により重み値を設定し、アスペクトデータにはトピックごとに抽出された特徴語について重み値を格納し、特徴語検索ステップにおいて、重み値に基づいて検索条件を決定する。

第３の実施態様によれば、特徴語に定義された重み値が、特徴語抽出手段が特徴語を抽出する際に算出された出現頻度または共起頻度の少なくともいずれかに係る値としてもよい。

第４の実施態様によれば、上記の出力ステップにおいて、トピック毎に検索結果である複数の特徴語の数又はその重み値の合計に係る計算値を上記の関連度として出力することもできる。

第５の実施態様によれば、アスペクトデータにはトピックごとに抽出された特徴語と、当該特徴語が出現する前後少なくともいずれかの距離に係る距離値を格納し、上記の特徴語検索ステップにおいて、少なくとも距離値に基づいて第１のテキストデータに含まれる同じ種類又は異なる種類の特徴語の検索条件を決定することができる。

第６の実施態様によれば、上記の特徴語検索ステップにおいて特徴語検索手段がアスペクトデータに基づいて特徴語を検索すると共に、抽出された各特徴語の距離値を読み出し、距離値の範囲内にある特徴語の重み値から所定の演算による計算値を上記の関連度として出力することができる。

第７の実施態様によれば、上記のアスペクトデータ作成ステップにおいて、アスペクトデータ作成手段が、トピックごとに抽出された特徴語の各々について階層情報を定義すると共に、階層情報には、重み値と距離値の組み合わせのパターンを定義し、特徴語検索ステップにおいて、パターンに従った特徴語の検索条件を決定することができる。

第８の実施態様によれば、トピックが、テキストデータに含まれる内容を読者が理解しやすいように上位概念から下位概念の２段階以上の概念情報に分類される構成において、上記のアスペクトデータ作成ステップにおいて、アスペクトデータ作成手段が、階層情報を、概念情報に応じて自動的に定義すると共に、トピック毎の特徴語のそれぞれを概念情報と対応付けることができる。

第９の実施態様によれば、上記の出力ステップにおいて、出力手段が、抽出された特徴語と共に、その関連度を所定のグラフによって表示する構成でもよい。

第１０の実施態様によれば、上記の出力ステップにおいて、出力手段が、第１のテキストデータを表示する構成において、抽出された特徴語の行の位置に合わせて所定のグラフを表示することもできる。

第１１の実施態様によれば、上記の出力ステップにおいて、出力手段が、第１のテキストデータを表示する構成において、特徴語が含まれる文章全体、又は特徴語近傍の所定範囲の文章、又は特徴語の距離値の範囲内の表示態様を変化させることができる。

第１２の実施態様によれば、上記の出力ステップにおいて、出力手段が、概念情報に属する特徴語ごとに、当該特徴語が含まれる文章全体、又は当該特徴語近傍の所定範囲の文章、又は特徴語の距離値の範囲内の表示態様を変化させ、上位概念から下位概念のそれぞれの概念を含む文章ごとに区別できるように表示する構成でもよい。

第１３の実施態様によれば、テキスト処理装置を提供することもできる。
すなわち、入力された第１のテキストデータから着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価するコンピュータを用いたテキスト処理装置であって、複数の第２のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第２のテキストデータ群におけるトピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力手段と、関連文字列情報から特徴語を抽出する特徴語抽出手段と、トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成手段と、第１のテキストデータを入力するテキストデータ入力手段と、アスペクトデータを参照し、少なくとも１つのトピックについて、第１のテキストデータに含まれる特徴語を検索する特徴語検索手段と、トピックごとに区別して、特徴語の検索結果に基づく値を関連度として出力する出力手段とを備えたことを特徴とする。

本発明によれば、着目するトピックについて、テキストデータ中に記載された関連箇所とトピックとの関連度を評価する技術を提供することができる。

本発明におけるテキスト処理装置（１）の全体図である。本発明に係るテキスト処理方法のフローチャートである。本発明に係る関連度の計算方法の説明図である。本発明に係る関連度の計算方法の説明図である。本発明の第１の画面表示例である。本発明の第２の画面表示例である。本発明の第３の画面表示例である。本発明の第４の画面表示例である。

以下、本発明の実施形態を図面を用いて説明する。本発明は以下の実施例に限定されず請求項記載の範囲で適宜実施することができる。
図１は、本発明におけるテキスト処理装置（１）の全体図である。本装置（１）は公知のパーソナルコンピュータにより実施することができるほか、ウェブサーバ装置などのサーバ装置に実装することもできる。これらの機器の詳細については公知であるから説明を省略する。
図２は本発明に係るテキスト処理方法のフローチャートである。

本発明のテキスト処理方法は大きく２つの工程に分けられる。事前に機械学習を行う学習工程と、学習工程によって作成されたアスペクトデータを用いて入力されるテキスト中の関連箇所について関連度を評価する関連度評価工程である。本実施例では学習工程と関連度評価工程を連続したものとして説明しているが、アスペクトデータを作成して記憶させておけば、関連度評価工程だけを実装して実施することができる。

学習工程では、まず入力手段であるＣＰＵ（１０）における入力処理部（１０１）が、ハードディスクなどの記憶部（２０）に格納された学習用データ（２０１）を入力する。（学習用データ入力ステップ：Ｓ１）
学習用データ（２０１）は、複数の第２のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第２のテキストデータ群におけるトピックについて記載された関連文字列情報との組み合わせから構成されている。

トピックは、着目する話題を分類する項目であり、例えば技術文書であれば大項目から小項目に段階的に分類された見出しに対応させることもできるし、あるいは技術文書に含まれる一般的な要点を手作業で抽出したものでもよい。ニュースサイトや新聞、雑誌などの情報であれば、「国際」「経済」「社会」などのように分野別に分類されたもの、さらに「国際」という上位概念から「米国」「欧州」「中国」などのように下位概念に分類されたもの、などでもよい。あるいは「格差問題」「住宅問題」などのようにテーマ毎に分類されたものでもよい。

さらに本発明の特徴として、トピックはテキストデータに含まれる内容を読者が理解しやすいように上位概念から下位概念の２段階以上の概念情報に分類されたものとした上で、この概念情報を後述する特徴語の検索における検索条件に反映させることもできる。

入力する第２のテキストデータとは、学習に用いるためのテキストデータであって、少なくとも上記のトピックが含まれる文書に係るものであるが、トピックと何ら関係のないテキストデータを同時に入力してもよい。

関連文字列情報は、第２のテキストデータ群におけるトピックについて記載された関連文字列を予め定義したものであり、原則としては人手によって関連性を判断されて定義される。
例えば、過去の大量のニュースに関するテキストデータを第２のテキストデータ群として入力するとして、トピック「国際」の下に「米国」「欧州」「中国」があるとき、人手によって「米国」に関する記事部分を抽出したものが関連文字列情報である。この場合の関連文字列情報は、当該記事全体となる。

入力された学習用データ（２０１）を用いて特徴語抽出部（１０２）が関連文字列情報から特徴語を抽出する。（特徴語抽出ステップ：Ｓ２）
特徴語は、テキストデータ中でトピックが記載されていることを特徴づける語句であり、前述の「米国」がトピックであれば、例えば「米国」「ニューヨーク」「トランプ大統領」など他のトピックの記事と区別されるような語句が考えられる。

特徴語の抽出方法は、言語処理分野において公知であるが、特徴語の抽出で良く用いられる手法としてTF-IDFが挙げられる。TFは単語の出現頻度、IDFとは逆文書頻度であり、出現頻度の多い語句は重要という前提の上で、逆文書頻度を考慮することで特徴語が全記事においてどれくらいの記事で出現するかを表す尺度を導入する。IDFは、全記事数のうちからある語句が出現する記事数で割った値の対数に1を加えた値とするので、ある語句が出現する記事が少ないと大きくなり、どの記事にも出現する場合小さくなる。このIDFにTFを掛けたものがその語句の重み値とする。

特徴語の抽出方法としては、他にＳＶＭ（平尾努，磯崎秀樹，前田英作，松本祐治：ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅを用いた重要文抽出法，情報処理学会論文誌．Ｖｏｌ．４４，Ｎｏ．８，ｐｐ．２２３０−２２４３（２００３））、ＫｅｙＧｒａｐｈ（インターネットＵＲＬ：ｈｔｔｐ：／／ｉｉｔ．ｋｋｅ．ｃｏ．ｊｐ／ｋｅｙｇｒａｐｈ／２０１８年９月１０日検索）など様々な方法が知られており、本発明では公知の方法を適宜使用することができる。
また、特徴語の抽出のためにテキストデータを形態素解析して所定の形態素に分けることも周知技術である。

特徴語抽出ステップ（Ｓ２）によれば、関連文字列情報と第２テキストデータ群中の特徴語の対応付けができるので、関連文字列情報と対応するトピックデータと特徴語とも対応付けられる。本発明ではこの対応付けた情報をアスペクトデータ（２０２）と呼び、アスペクトデータ作成部（１０３）によって記憶部（２０）に格納される。（アスペクトデータ作成ステップ：Ｓ３）

アスペクトデータ（２０２）として最も単純なデータはトピック毎に特徴語が定義されることであり、従来技術と異なり、様々なトピックに対してアスペクトデータを対応づけていることに本発明の特徴がある。従って、最小限の構成としてはアスペクトデータに特徴語だけが定義されていてもよい。
本実施例では、アスペクトデータにはトピック毎の特徴語に加え、特徴語には重み値を合わせて格納する。

重み値としては、上述したTF-IDFにおける重み値など、特徴語抽出手段が特徴語を抽出する際に算出された出現頻度または共起頻度の少なくともいずれかに係る値を用いることができる。
あるいは、特徴語に定義された重み情報に基づいて所定の演算式により重み値を設定し、アスペクトデータにはトピックごとに抽出された特徴語について重み値を格納することもできる。

さらに、アスペクトデータにはトピックごとに抽出された特徴語と、当該特徴語が出現する前後少なくともいずれかの距離に係る距離値（マージンと呼ぶ）を格納することもできる。ここでマージンは、当該特徴語と他の特徴語とが同時に出現したと判断するかどうかの距離を指しており、本発明の関連度を算出する上で重要なパラメータである。距離値を含むアスペクトデータの例を表１に示す。

上記表の意味は、関連度を評価するテキストと、トピック「米国」に係る特徴語の重みについて、「アメリカ」であれば重み値が１で小さい反面、他の特徴語、すなわち「米国」「ニューヨーク」「トランプ大統領」と共起したかどうか判断するマージンが前に2500文字、後ろに2500字と広く設定されていることになる。一方、「トランプ大統領」が含まれる場合、それは米国に関連する確からしさがより高いと考えられて重み値が１０となっている。この場合、範囲をより特定するためにマージンは前後それぞれ２５０と狭く設定されている。

距離値の定義は、重み値が１の時は２５００，５の時は１０００，というように重み値に対応づけて機械的に定義してもよいし、手作業で特徴語を考慮しながら定義してもよい。

以上の処理により学習工程を終え、結果としてアスペクトデータ（２０２）が生成される。
関連度評価工程では、入力処理部（１０１）から評価を行う対象の第１テキストデータ（２０３）を入力し、記憶部（２０）に記録する。（テキストデータ入力ステップ：Ｓ４）

次いで特徴語検索部（１０４）が、アスペクトデータ（２０２）を参照し、少なくとも１つのトピックについて、第１テキストデータ（２０３）に含まれる特徴語を検索する。（特徴語検索ステップ：Ｓ５）
具体的には、トピック毎にアスペクトデータ（２０２）に格納される特徴語を検索し、例えば特徴語の数に応じて関連度を評価する。テキストデータ中の特徴語が頻出する箇所が関連度の高い箇所として抽出すれば良いので、簡単な方法としては、特徴語がある閾値よりも狭い範囲で繰り返し出現する部分を関連箇所として出力することもできる。

本実施例ではより複雑な処理を行っており、トピック毎の特徴語に重み値が設定されているので、その重み値に係る計算値を関連度とする。図３は本発明に係る関連度の計算方法の説明図である。
本図は第１テキストデータ（２０３）の先頭から末尾までを横軸に取り、左が先頭、右が末尾の文字位置を示している。各特徴語の縦は重み値を示している。

例えば、１段目の特徴語「アメリカ」は３０００文字目にあって、マージンの前後２５００文字として５００文字から５５００文字の範囲に重み１のグラフが描かれている。同じように８０００文字目にあって５５００文字から１０５００文字の範囲、１４０００文字目にあって１１５００文字から１６５００文字の範囲にもグラフが描かれる。
本実施例では同じルールに基づく検索結果はＯＲ演算を行う。つまり、２段目の特徴語「米国」は４５００文字目と８０００文字目に出現するが、この場合図示のように特徴語を検索したときに重複した部分が生じても、重みを合計するのではなくＯＲをとることで２０００文字から１０５００文字までが重み１のグラフとなる。

特徴語「ニューヨーク」は４０００文字目と１４０００文字目に出現して前後幅２０００文字で重み３、「トランプ大統領」は４７５０文字目に出現して前後幅５００文字で重み５と表される。
その上で、これらの重み値のＡＮＤ演算を行うと、下段に示した関連度のようなグラフとなる。このグラフは、テキストデータ中の関連箇所を視覚的に示すものであり、ａの場所はトピック「米国」に関連がないことを示し、ｂやｃは関連が高いことを示している。

本発明では関連度を算出するために、重み値と共にマージンの概念を創出して、マージンを用いた演算を行ったことで、全く新しい関連度の算出方法を提供している。演算方法としては、上述したように同じルール（同じ特徴語）ではＯＲ演算、異なるルール同士ではＡＮＤ演算を行うことが好ましいが、同じ特徴語でＡＮＤ演算を行ってもよいし、その他任意の計算値を用いることもできる。

アスペクトデータ（２０２）の例として、１つの単語又は形態素からなる特徴語について重み値及び距離値を定義した例を示しているが、特徴語は複数の単語列でもよい。例えば「アメリカ合衆国ニューヨーク市」の単語列を特徴語としてもよい。

また、２つの単語が所定の範囲内に共起する場合を１つのルールとしてもよい。例えば、単語Ａと単語Ｂ又は単語Ｃが５０文字以内に共起するというルール１をＡ（ＢＣ）＜５０と表す。５０文字以内は例えばＡがｆｉｓｈ、Ｂがｂｉｒｄであれば、ｆｉｓｈのｈと、ｂｉｒｄのｂの間が５０字以内とする。このルール１の特徴度を１とすると図４（ａ）のようにｆｉｓｈのｆから、ｂｉｒｄのｄまで、重み１のグラフが描かれる。

上記実施例と異なり、本実施例の図４（ｂ）では前後のマージンの範囲内において重み値が変化する例を示している。このように重み値は一定でなく、特徴語から離れるに応じて小さくなるように変化させてもよい。

そして、図４（ｃ）のように、ルール１に定義されたＡとＢの共起によるグラフと、ＡとＣの共起によるグラフの場合は、同じルール同士であるからＯＲを取る。
一方、図４（ｄ）のように、ルール２にはＸ（ＹＺ）＜１００を定義し、ＸとＹの共起によるグラフがある場合には、ＡとＢの共起によるグラフと、ＸとＹの共起によるグラフのＡＮＤを取る。
以上のように本発明の特徴語については、複数の単語列や、所定の範囲内に共起する単語の組み合わせを含むことができる。

表示処理部（１０５）はモニタ（３０）からトピック毎に区別して特徴語の検索結果に基づく値を関連度として表示する。表示方法は、図３のようにグラフ化して表示することが好ましい。
図５には、第１の画面表示例を示す。画面の左側にはトピック欄（４０）が配置され、ユーザーはキーボード（３１）やマウスなどを用いて表示するトピックを選択する。図では大項目である「生産戦略と拠点戦略」及び小項目である「国内回帰の動き」が選択されており、その右のスコア欄（４１）には重み値の計算値が線グラフで表示されている。スコア欄（４１）は上端がテキストの先頭、下端が末尾である。

スコア欄（４１）を見ると横軸のスコアが高い位置が関連度の高い関連箇所を示しており、文章全体の中でトピックに関連する記述がどの位置にあるかを容易に把握することができる。スコア欄の線グラフをマウスなどで指定することで、当該記載部分を閲覧できるようにしてもよい。

スコア欄（４１）において閾値を超えた箇所は、その右欄の文書一覧表示（４２）においてマーカー表示されている。ユーザーはトピック欄（４０）からトピックを選ぶことで、そのトピックに関連する記載がどこにどのくらいの量記載されているのかを一目で理解することができる。
マーカー表示する範囲は、重み値の計算結果が所定の閾値を超えた語句が含まれる一文全体、又はその語句近傍の所定範囲の文章としてもよい。

図６には、第２の画面表示例を示す。本実施例では、左側のトピック欄（４０）からトピックを選択すると、右側の関連箇所表示欄（４３）において複数の文書の関連箇所を表示できるようになっている。例えば、白書のように毎年発行される文書を複数年度分指定してトピックを選択すると、各年度の白書において１つのトピックに関連する箇所が抽出される。所定の重み値の計算結果を超える部分だけを図のように配列すれば、複数の文書における同じトピックに係る記載を比較対照することが容易に行える。

図７ではウェブブラウザにおいてウェブサイトの記事を表示すると共に、その横に関連度を示す棒グラフを表示する例を示している。棒グラフは記事の行の位置と一致しており、例えば検索窓に入力してユーザーが指定したトピックについて、記事のどの位置に関連する情報が記載されているか容易に分かるように構成されている。
このような表示方法は、ウェブブラウザのサイド部分のわずかな領域で、視覚的に分かりやすく表示することができ、例えば検索サービスの画面に適用しても好適である。

以上、本発明に係る表示例を示したが、関連度出力ステップ（Ｓ６）では、必ずしも結果を表示する必要はなく、あるトピックについて、テキストデータ（２０３）の中の関連箇所について関連度を出力する構成でもよい。関連度としては、上述したような重み値を計算した値のほか、関連の有り、無しだけの情報でもよい。
出力の態様も関連度の情報を図示しないメモリなどに一次的に格納したり、通信部（３２）を介してネットワークを通じて別のコンピュータに送信する構成でもよい。

本発明の別実施例として、アスペクトデータ作成ステップ（Ｓ３）において、アスペクトデータ作成部（１０３）が、トピックごとに抽出された特徴語の各々について階層情報を定義することができる。
例えば、表２のようにトピックを「トランプ大統領」としたとき、「国」→「地域」→トピックと上位の概念から下位の概念の概念情報に分類され、国が階層１、地域が階層２、トピックが階層３となる。

特徴語をこのように読者が理解しやすい概念情報で分類することで新聞記事から「アメリカ」について記載される広範囲な部分から、地域を特定し、さらに所望のトピックの部分までを段階に分けて把握することができるようになる。

このような分類を行った場合、図８に示すように所望のトピック（５０）を選択すると、階層１（国名）の部分は薄いマーカー表示（５１）、階層２（地域）が一致する部分は中濃度のマーカー表示（５２）、選択されたトピック（５０）の部分は濃いマーカー表示（５３）で表示することができる。
マーカーの表示範囲としては、概念情報に属する特徴語ごとに、当該特徴語が含まれる文章全体、又は当該特徴語近傍の所定範囲の文章、又は特徴語のマージン範囲内の表示態様を変化させることができる。上位概念から下位概念のそれぞれの概念を含む文章ごとに区別できるように表示することで、読者は記事中の関連の程度を視覚的に理解しやすくなる。

上記階層情報をさらに、アスペクトデータ作成ステップ（Ｓ３）における重み値と距離値の定義に用いることができる。
すなわち、階層ごとに重み値とマージンの初期値を定める。表２の例では、階層１は重み値が１、前後のマージンが２５００字、階層２は重み値が５、前後のマージンが１０００字、階層３は重み値が１０、前後のマージンが２５０字である。

このように定めておくと、特徴語が抽出された後、それを読者の理解しやすい概念情報に分類すると同時に階層が決まるので、重み値とマージンが適切に設定される。すなわち、階層情報に、重み値と距離値の組み合わせのパターンを定義し、特徴語検索ステップ（Ｓ５）において、パターンに従った特徴語の検索条件を決定することができる。

概念情報としては、国や地域、トピックについて辞書データやシソーラスなどのデータベースを参照し、上位概念から下位概念を自動的に分類することもできる。特徴語が抽出された後にこれらのデータベースと照合することで、例えば「アメリカ」「ニューヨーク」「トランプ大統領」であれば、国、地域、固有名詞であることから、上位概念、中位概念、下位概念の分類され、それに対応する階層情報、さらに重み値及び距離値の定義まで行うことができる。

本発明は、以上のように読者の理解しやすい概念情報と、コンピュータが関連度を算出するときの値のセットをパターン化することができるので、関連度算出の高精度化に寄与すると同時に、ユーザーにも違和感のない結果を得ることができる。

１テキスト処理装置
１０ＣＰＵ
１０１入力処理部
１０２特徴語抽出部
１０３アスペクトデータ作成部
１０４特徴語検索部
１０５表示処理部
２０記憶部
２０１学習用データ
２０２アスペクトデータ
２０３テキストデータ
３０モニタ
３１キーボード
３２通信部

Claims

入力された第１のテキストデータから、
着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所と該トピックとの関連度を評価するコンピュータによるテキスト処理方法であって、
入力手段が、複数の第２のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた該第２のテキストデータ群における該トピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力ステップ、
特徴語抽出手段が、該関連文字列情報から特徴語を抽出する特徴語抽出ステップ、
アスペクトデータ作成手段が、該トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成ステップ
の各ステップを有する学習工程の後、
入力手段が、第１のテキストデータを入力するテキストデータ入力ステップ、
特徴語検索手段が、該アスペクトデータを参照し、少なくとも１つのトピックについて、該第１のテキストデータに含まれる特徴語を検索する特徴語検索ステップ、
出力手段が、トピック毎に区別して特徴語の検索結果に基づく値を該関連度として出力する出力ステップ
の各ステップを有する関連度評価工程を行う、
ことを特徴とする、テキスト処理方法。
前記テキスト処理方法において、
前記特徴語抽出ステップにおいて、前記特徴語抽出手段が、該関連文字列情報から特徴語を抽出する際に、該特徴語に定義された重み情報に基づいて所定の演算式により重み値を設定し、
前記アスペクトデータには前記トピックごとに抽出された特徴語について該重み値を格納し、
前記特徴語検索ステップにおいて、該重み値に基づいて検索条件を決定する
請求項１に記載のテキスト処理方法。
前記特徴語に定義された重み値が、前記特徴語抽出手段が特徴語を抽出する際に算出された出現頻度または共起頻度の少なくともいずれかに係る値である、
請求項２に記載のテキスト処理方法。
前記出力ステップにおいて、トピック毎に検索結果である複数の特徴語の数又はその重み値の合計に係る計算値を前記関連度として出力する
請求項２又は３に記載のテキスト処理方法。
前記アスペクトデータには前記トピックごとに抽出された特徴語と、当該特徴語が出現する前後少なくともいずれかの距離に係る距離値を格納し、
前記特徴語検索ステップにおいて、少なくとも該距離値に基づいて該第１のテキストデータに含まれる同じ種類又は異なる種類の特徴語の検索条件を決定する、
請求項１ないし４のいずれかに記載のテキスト処理方法。
前記特徴語検索ステップにおいて、前記特徴語検索手段が前記アスペクトデータに基づいて特徴語を検索すると共に、抽出された各特徴語の前記距離値を読み出し、該距離値の範囲内にある特徴語の前記重み値から所定の演算による計算値を前記関連度として出力する
請求項５に記載のテキスト処理方法。
前記アスペクトデータ作成ステップにおいて、前記アスペクトデータ作成手段が、
前記トピックごとに抽出された特徴語の各々について階層情報を定義すると共に、
該階層情報には、前記重み値と前記距離値の組み合わせのパターンを定義し、
前記特徴語検索ステップにおいて、該パターンに従った特徴語の検索条件を決定する
請求項５又は６に記載のテキスト処理方法。
前記トピックが、前記テキストデータに含まれる内容を読者が理解しやすいように上位概念から下位概念の２段階以上の概念情報に分類される構成において、
前記アスペクトデータ作成ステップにおいて、前記アスペクトデータ作成手段が、
前記階層情報を、該概念情報に応じて自動的に定義すると共に、
該トピック毎の特徴語のそれぞれを該概念情報と対応付ける
請求項１ないし７のいずれかに記載のテキスト処理方法。
前記出力ステップにおいて、前記出力手段が、
抽出された特徴語と共に、その関連度を所定のグラフによって表示する
請求項１ないし８のいずれかに記載のテキスト処理方法。
前記出力ステップにおいて、前記出力手段が、
前記第１のテキストデータを表示する構成において、抽出された特徴語の行の位置に合わせて所定のグラフを表示する
請求項１ないし９のいずれかに記載のテキスト処理方法。
前記出力ステップにおいて、前記出力手段が、
前記第１のテキストデータを表示する構成において、前記特徴語が含まれる文章全体、又は前記特徴語近傍の所定範囲の文章、又は前記特徴語の前記距離値の範囲内の表示態様を変化させる
請求項１ないし９のいずれかに記載のテキスト処理方法。
前記出力ステップにおいて、前記出力手段が、
前記概念情報に属する特徴語ごとに、当該特徴語が含まれる文章全体、又は当該特徴語近傍の所定範囲の文章、又は前記特徴語の前記距離値の範囲内の表示態様を変化させ、上位概念から下位概念のそれぞれの概念を含む文章ごとに区別できるように表示する
請求項８及び１１に記載のテキスト処理方法。
入力された第１のテキストデータから着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所と該トピックとの関連度を評価するコンピュータを用いたテキスト処理装置であって、
複数の第２のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた該第２のテキストデータ群における該トピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力手段と、
該関連文字列情報から特徴語を抽出する特徴語抽出手段と、
該トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成手段と、
第１のテキストデータを入力するテキストデータ入力手段と、
該アスペクトデータを参照し、少なくとも１つのトピックについて、該第１のテキストデータに含まれる特徴語を検索する特徴語検索手段と、
トピックごとに区別して、特徴語の検索結果に基づく値を該関連度として出力する出力手段と
を備えたことを特徴とする、テキスト処理装置。