JP6125414B2 - Sentence analysis apparatus, sentence analysis method, program - Google Patents

Sentence analysis apparatus, sentence analysis method, program Download PDF

Info

Publication number
JP6125414B2
JP6125414B2 JP2013242047A JP2013242047A JP6125414B2 JP 6125414 B2 JP6125414 B2 JP 6125414B2 JP 2013242047 A JP2013242047 A JP 2013242047A JP 2013242047 A JP2013242047 A JP 2013242047A JP 6125414 B2 JP6125414 B2 JP 6125414B2
Authority
JP
Japan
Prior art keywords
character string
text data
search
related term
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013242047A
Other languages
Japanese (ja)
Other versions
JP2015102958A (en
Inventor
富士本 淳
淳 富士本
野中 誠之
誠之 野中
勝倉 裕
裕 勝倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universal Entertainment Corp
Original Assignee
Universal Entertainment Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universal Entertainment Corp filed Critical Universal Entertainment Corp
Priority to JP2013242047A priority Critical patent/JP6125414B2/en
Publication of JP2015102958A publication Critical patent/JP2015102958A/en
Application granted granted Critical
Publication of JP6125414B2 publication Critical patent/JP6125414B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、テキストデータに含まれる文を解析し、そのテキストデータから重要な文字列を抽出する文解析装置に関する。   The present invention relates to a sentence analyzing apparatus that analyzes a sentence included in text data and extracts an important character string from the text data.

従来より、コンピュータシステムに入力される文や、インターネット上に公開されているホームページ等のコンテンツから、話題性のあるワードを抽出するためのシステムが開示されている。   2. Description of the Related Art Conventionally, a system for extracting a topical word from contents such as a sentence input to a computer system or a homepage published on the Internet has been disclosed.

例えば、特許文献1及び特許文献2に開示されている情報取得装置では、利用者から入力された入力情報等から、最も話題性のある情報を探し出すために、形態素データベースに記憶された形態素群と入力情報を照合し、入力情報から形態素に対応する文字列を抽出する。形態素は、入力情報等に含まれる文を構成する、「語」のような最小単位に対応するものであり、この最小単位には、例えば、名詞、形容詞、動詞などの品詞が含まれる。上記の形態素データベースには、一般的な文に用いられる名詞、形容詞、動詞などを含む形態素群が予め登録されている。   For example, in the information acquisition devices disclosed in Patent Document 1 and Patent Document 2, in order to find the most topical information from input information input from a user, the morpheme group stored in the morpheme database The input information is collated, and a character string corresponding to the morpheme is extracted from the input information. A morpheme corresponds to a minimum unit such as “word” that constitutes a sentence included in input information or the like, and this minimum unit includes parts of speech such as nouns, adjectives, and verbs. In the morpheme database, morpheme groups including nouns, adjectives, verbs and the like used for general sentences are registered in advance.

特許第4253487号公報Japanese Patent No. 4253487 特許第4402868号公報Japanese Patent No. 4402868

しかしながら、上述した、特許文献1や特許文献2に開示されている情報取得装置では、入力情報等から最も話題性のある情報(語)を探し出すために、照合対象となる形態素データベースを予め作成しなければならず、その労力は極めて多大なものである。形態素データベースには、日常的な文に用いられる名詞、形容詞、動詞等を、概ね網羅するように登録しておかなければ、入力情報等の有効な解析を実現することができない。   However, in the information acquisition devices disclosed in Patent Document 1 and Patent Document 2 described above, a morpheme database to be collated is created in advance in order to find the most topical information (word) from input information or the like. It must be very labor intensive. If nouns, adjectives, verbs, and the like used in everyday sentences are registered in the morpheme database so that they are generally covered, effective analysis of input information or the like cannot be realized.

さらに、この情報取得装置では、話題性のある情報を、例えば、「語」といった、形態素の単位でしか把握することができない。   Furthermore, in this information acquisition apparatus, topical information can be grasped only in units of morphemes such as “words”.

また、上記情報取得装置では、入力情報等から最も話題性のある情報を探し出すために、入力情報等に含まれる語ごとに形態素データベースとの照合処理を行う必要があるが、この処理は、データベースのアクセスや比較処理等に多くの時間を必要とするため、応答時間が長くなり、その結果、入力情報等の解析をリアルタイムに行うことが困難である。   Further, in the information acquisition device, in order to find the most topical information from the input information or the like, it is necessary to perform a matching process with the morpheme database for each word included in the input information or the like. Since a lot of time is required for access, comparison processing, and the like, the response time becomes long. As a result, it is difficult to analyze input information and the like in real time.

さらに、日本語以外の他の言語について、同様の処理、すなわち、入力情報等から最も話題性のある情報を探し出すためには、形態素データベースを新たに用意し、さらに、各言語の文法に合わせて、解析ロジック等を再構築しなければならない。   Furthermore, for other languages other than Japanese, in order to find the most topical information from the same processing, that is, input information, etc., a new morpheme database is prepared, and further, according to the grammar of each language. Analytical logic etc. must be reconstructed.

従って、本発明の目的は、上述した課題をことごとく解決する文解析装置、文解析方法、及びプログラムを提供することである。   Accordingly, an object of the present invention is to provide a sentence analysis apparatus, a sentence analysis method, and a program that can solve all the above-described problems.

本発明は、以下のような文解析装置を提供する。   The present invention provides the following sentence analysis apparatus.

本発明の第1の実施態様は、
テキストデータ(例えば、収集されたWEBページから取得されるテキストデータ200)から同じ文字列を検索する文字列検索手段(例えば、図10に示す文字列検索処理部422)と、
前記同じ文字列について、前の隣接文字の異なり度合い(例えば、検索された「同じ文字列」の直前に出現する文字が、どの程度異なっているか(バリエーションがあるか)を示す指標であり、前の隣接文字として現れる文字のパターン数に基づくもの)、及び後の隣接文字の異なり度合い(例えば、検索された「同じ文字列」の直後に出現する文字が、どの程度異なっているか(バリエーションがあるか)を示す指標であり、後の隣接文字として現れる文字のパターン数に基づくもの)を判定する異なり度合い判定手段(例えば、図10に示す異なり度合い判定処理部423)と、
前記前の隣接文字の異なり度合い、前記後の隣接文字の異なり度合い、及び前記テキストデータにおける前記同じ文字列の出現頻度に基づいて前記同じ文字列の重要度を判定し、前記同じ文字列が特定文字列であるか否かを決定する特定文字列決定手段(例えば、図10に示す特定文字列決定処理部424)とを備えるように構成される文解析装置(例えば、図10に示す文解析装置400)であり、
前記特定文字列決定手段は、
複数の異なるテキストデータを含むグループにおいて、複数の特定文字列が含まれる場合に、それぞれの特定文字列に関する前記重要度に基づいて、前記グループ内における特定文字列のランク付けを行い、前記複数の特定文字列を、前記グループに関連付けて記憶する(例えば、図8には、ひとまとまりのテキストデータに関し、重要度に基づいて特定文字列をランク付けした特定文字列データ135−1、WEBページのサイトごとにA、B、Cの3つのグループにグループ化し、重要度に基づいて特定文字列をランク付けした特定文字列データ135−3が示されている)。
The first embodiment of the present invention comprises:
Character string search means (for example, a character string search processing unit 422 shown in FIG. 10) for searching for the same character string from text data (for example, text data 200 acquired from a collected WEB page);
For the same character string, it is an index indicating the degree of difference of the previous adjacent character (for example, how much the character appearing immediately before the searched “same character string” is different (there is a variation), Based on the number of patterns of characters appearing as adjacent characters of) and the degree of difference of the subsequent adjacent characters (for example, how much the character appearing immediately after the searched “same character string” is different (variation exists) A different degree determination means (for example, a different degree determination processing unit 423 shown in FIG. 10) for determining an index indicating the number of character patterns appearing as subsequent adjacent characters),
The degree of importance of the same character string is determined based on the degree of difference between the preceding adjacent characters, the degree of difference between the subsequent adjacent characters, and the appearance frequency of the same character string in the text data, and the same character string is identified. A sentence analysis device (for example, the sentence analysis shown in FIG. 10) configured to include a specific character string determination means (for example, the specific character string determination processing unit 424 shown in FIG. 10) for determining whether or not the character string. Device 400),
The specific character string determining means includes
In group including a plurality of different text data, if included is a plurality of specific character strings, based on the importance for each specific character string, performs the ranking of a specific character string in the previous Kigu the loop, the a plurality of specific character string, in association previously Kigu loop (e.g., in Figure 8 relates to text data batches and specific character string data were ranked specific character string based on the importance 135-1 , The specific character string data 135-3 is shown in which each site of the WEB page is grouped into three groups of A, B, and C, and the specific character strings are ranked based on importance.

こうした本発明の実施態様によって、例えば、インターネット上に公開されている外部の情報をネットワークを通じてテキストデータとして収集し、その取得したテキストデータから前記文字列検索手段が同じ文字列を検索し、当該同じ文字列についての前後の隣接文字の異なり度合いを前記異なり度合い判定手段で判定した後、当該異なり度合い判定手段で判定された前記前後の隣接文字の異なり度合いと、当該同じ文字列の出現頻度に基づいて当該同じ文字列の重要度を判定し、前記同じ文字列が特定文字列か否かを特定文字列決定手段で特定できるので、辞書を用いることなく、テキストデータのなかから、話題を識別するために重要な特定文字列を抽出することができる。また、このように構成すれば、前記特定文字列決定手段が、複数の異なるテキストデータを含むグループにおいて、複数の特定文字列が含まれる場合に、それぞれの特定文字列に関する前記重要度に基づいて、前記グループ内における特定文字列のランク付けが行われるので、それぞれのグループにおいて特定文字列が差別化され、分析自由度の向上が期待できる。 According to such an embodiment of the present invention, for example, external information published on the Internet is collected as text data through a network, the character string search means searches for the same character string from the acquired text data, and the same After the degree of difference between the adjacent characters before and after the character string is determined by the difference degree determination unit, the difference between the adjacent characters before and after the determination by the difference degree determination unit and the appearance frequency of the same character string Thus, it is possible to determine the importance of the same character string, and to identify whether the same character string is a specific character string or not by using a specific character string determination unit, so that a topic is identified from text data without using a dictionary. Therefore, an important specific character string can be extracted. Further, according to this configuration, when the specific character string determination unit includes a plurality of specific character strings in a group including a plurality of different text data , the specific character string determination unit is based on the importance regarding each specific character string. Since the specific character strings are ranked in the group, the specific character strings are differentiated in each group, and improvement in the degree of freedom in analysis can be expected.

本発明の第2の実施態様は、上記第1の実施態様において、  According to a second embodiment of the present invention, in the first embodiment,
前記特定文字列決定手段がさらに、  The specific character string determining means further includes
前記同じ文字列の文字長に基づいて前記同じ文字列の重要度を判定し、前記同じ文字列が特定文字列であるか否かを決定するように構成される。  The importance of the same character string is determined based on the character length of the same character string, and it is configured to determine whether or not the same character string is a specific character string.

このように構成すれば、前記特定文字列決定手段において、テキストデータから検索された同じ文字列が特定文字列か否かを、前記異なり度合い判定手段で判定された前記前後の隣接文字の異なり度合いと、当該同じ文字列の出現頻度に加え、前記同じ文字列の文字長に基づいて判定するように構成することができる。  If comprised in this way, in the said specific character string determination means, whether the same character string searched from text data is a specific character string, the difference degree of the adjacent character before and behind determined by the said difference degree determination means In addition to the appearance frequency of the same character string, the determination can be made based on the character length of the same character string.

本発明の第3の実施態様は、
テキストデータから同じ文字列を検索する文字列検索ステップと、
前記同じ文字列について、前の隣接文字の異なり度合い、及び後の隣接文字の異なり度合いを判定する異なり度合い判定ステップと、
前記前の隣接文字の異なり度合い、前記後の隣接文字の異なり度合い、及び前記テキストデータにおける前記同じ文字列の出現頻度に基づいて前記同じ文字列の重要度を判定し、前記同じ文字列が特定文字列であるか否かを決定する特定文字列決定ステップとを含む文解析方法であり、
前記特定文字列決定ステップは、
複数の異なるテキストデータを含むグループにおいて、複数の特定文字列が含まれる場合に、それぞれの特定文字列に関する前記重要度に基づいて、前記グループ内における特定文字列のランク付けを行い、前記複数の特定文字列を、前記グループに関連付けて記憶する。
このように構成すれば、上記第1の実施態様と同様の作用効果を奏する方法を提供できる。
The third embodiment of the present invention is:
A string search step for searching for the same string from text data;
For the same character string, a different degree determination step for determining a difference degree of a preceding adjacent character and a difference degree of a subsequent adjacent character;
The degree of importance of the same character string is determined based on the degree of difference between the preceding adjacent characters, the degree of difference between the subsequent adjacent characters, and the appearance frequency of the same character string in the text data, and the same character string is identified. A sentence analysis method including a specific string determination step for determining whether or not the string is a character string,
The specific character string determining step includes:
In group including a plurality of different text data, if included is a plurality of specific character strings, based on the importance for each specific character string, performs the ranking of a specific character string in the previous Kigu the loop, the a plurality of the specific character string, in association previously Kigu loop.
If comprised in this way, the method of having the effect similar to the said 1st embodiment can be provided.

こうした本発明の実施態様によって、辞書を用いることなく、テキストデータのなかから、話題を識別するために重要な特定文字列を抽出することができる。   According to the embodiment of the present invention, it is possible to extract a specific character string important for identifying a topic from text data without using a dictionary.

本発明の第4の実施態様は、
コンピュータに、
テキストデータから同じ文字列を検索する文字列検索手段、
前記同じ文字列について、前の隣接文字の異なり度合い、及び後の隣接文字の異なり度合いを判定する異なり度合い判定手段、及び、
前記前の隣接文字の異なり度合い、前記後の隣接文字の異なり度合い、及び前記テキストデータにおける前記同じ文字列の出現頻度に基づいて前記同じ文字列の重要度を判定し、前記同じ文字列が特定文字列であるか否かを決定する特定文字列決定手段として機能させるプログラムであって、
前記特定文字列決定手段は、
複数の異なるテキストデータを含むグループにおいて、複数の特定文字列が含まれる場合に、それぞれの特定文字列に関する前記重要度に基づいて、前記グループ内における特定文字列のランク付けを行い、前記複数の特定文字列を、前記グループに関連付けて記憶する。
The fourth embodiment of the present invention is:
On the computer,
String search means for searching for the same string from text data,
For the same character string, a different degree determination means for determining a difference degree of a preceding adjacent character and a difference degree of a subsequent adjacent character, and
The degree of importance of the same character string is determined based on the degree of difference between the preceding adjacent characters, the degree of difference between the subsequent adjacent characters, and the appearance frequency of the same character string in the text data, and the same character string is identified. A program that functions as a specific character string determining means for determining whether or not a character string,
The specific character string determining means includes
In group including a plurality of different text data, if included is a plurality of specific character strings, based on the importance for each specific character string, performs the ranking of a specific character string in the previous Kigu the loop, the a plurality of the specific character string, in association previously Kigu loop.

こうした本発明の実施態様によって、辞書を用いることなく、テキストデータのなかから、話題を識別するために重要な特定文字列を抽出することができる。   According to the embodiment of the present invention, it is possible to extract a specific character string important for identifying a topic from text data without using a dictionary.

本発明に係る文解析装置によって、テキストデータと照合するデータベースを用いることなく、当該テキストデータから重要な文字列を抽出することができ、これによって、形態素データベースのようなデータベースを予め作成したり、維持・管理したりする必要がなくなる。また、形態素に基づいた文字列の把握を行わないため、重要な文字列を、例えば、語といった単位以外にも、いくつかの語を含んだ句、節、それ以外の文の一部といった柔軟な態様で把握することができる。   By using the sentence analysis apparatus according to the present invention, it is possible to extract an important character string from the text data without using a database that is matched with the text data, thereby creating a database such as a morpheme database in advance, No need to maintain and manage. In addition, since character strings based on morphemes are not grasped, important character strings can be flexibly composed of phrases, clauses, and parts of other sentences that contain some words in addition to units such as words. Can be grasped in various ways.

また、本発明に係る文解析装置によって、テキストデータから同じ文字列が検索され、その文字列の前後の隣接文字の異なり度合いが判定され、当該異なり度合いにより、文字列の重要性が判断されるため、データベースへのアクセスやデータベースに記憶された形態素群との比較処理が行われず、テキストデータから重要な文字列が高速に抽出される。   The sentence analysis apparatus according to the present invention searches for the same character string from text data, determines the degree of difference between adjacent characters before and after the character string, and determines the importance of the character string based on the degree of difference. Therefore, access to the database and comparison processing with a morpheme group stored in the database are not performed, and an important character string is extracted from text data at high speed.

さらに、本発明に係る文解析装置によって、上述のような、文字列の前後の隣接文字の異なり度合いにより、文字列の重要性が判断されるため、解析ロジック等の再構築を行うことなく、日本語以外の言語にも容易に対応できる。   Furthermore, the sentence analysis apparatus according to the present invention determines the importance of the character string according to the degree of difference between adjacent characters before and after the character string as described above, without reconstructing the analysis logic or the like. Can easily handle languages other than Japanese.

本発明の一実施形態に係る文解析装置の処理概要を示す図である。It is a figure which shows the process outline | summary of the sentence analysis apparatus which concerns on one Embodiment of this invention. テキストデータの原データとなりうるHTMLデータに基づいて表示されたWEBページを示す正面図である。It is a front view which shows the WEB page displayed based on the HTML data which can become the original data of text data. 本発明の一実施形態に係る文字列検索処理の処理手順を表すフローチャートである。It is a flowchart showing the process sequence of the character string search process which concerns on one Embodiment of this invention. サフィックスアレイと二分探索を用いた文字列検索の仕組みを示す図である。It is a figure which shows the mechanism of the character string search using a suffix array and binary search. サフィックスアレイと二分探索を用いた文字列検索の仕組みを示す図である。It is a figure which shows the mechanism of the character string search using a suffix array and binary search. 本発明の一実施形態に係る異なり度合い判定処理の処理手順を表すフローチャートである。It is a flowchart showing the process sequence of the different degree determination process which concerns on one Embodiment of this invention. 前後の隣接文字の異なり度合いを判定するための仕組みを示す図である。It is a figure which shows the mechanism for determining the difference degree of the adjacent character before and behind. 本発明の一実施形態に係るランク付け処理の概念を示す図である。It is a figure which shows the concept of the ranking process which concerns on one Embodiment of this invention. 本発明の一実施形態に係る文解析装置の適用例を示す図である。It is a figure which shows the example of application of the sentence analysis apparatus which concerns on one Embodiment of this invention. 本発明の一実施形態に係る文解析装置の各機能部を示す機能ブロック図である。It is a functional block diagram which shows each function part of the sentence analysis apparatus which concerns on one Embodiment of this invention. 本発明の一実施形態に係る文解析装置を構成するコンピュータのハードウェア構成の例を示す図である。It is a figure which shows the example of the hardware constitutions of the computer which comprises the sentence analysis apparatus which concerns on one Embodiment of this invention. 本発明の一実施形態に係る情報更新装置の処理概要を示す図である。It is a figure which shows the process outline | summary of the information update apparatus which concerns on one Embodiment of this invention. 本発明の一実施形態に係る情報更新装置の文字列抽出処理の処理手順を表すフローチャートである。It is a flowchart showing the process sequence of the character string extraction process of the information update apparatus which concerns on one Embodiment of this invention. 本発明の一実施形態に係る情報更新装置の辞書比較処理の処理手順を表すフローチャートである。It is a flowchart showing the process sequence of the dictionary comparison process of the information update apparatus which concerns on one Embodiment of this invention. 本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理を示す図である。It is a figure which shows the character string extraction process and dictionary comparison process of the information update apparatus which concerns on one Embodiment of this invention. 本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理を示す図である。It is a figure which shows the character string extraction process and dictionary comparison process of the information update apparatus which concerns on one Embodiment of this invention. 本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理を示す図である。It is a figure which shows the character string extraction process and dictionary comparison process of the information update apparatus which concerns on one Embodiment of this invention. 本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理を関連詞辞書の内容とともに示す図である。It is a figure which shows the character string extraction process and dictionary comparison process of the information update apparatus which concerns on one Embodiment of this invention with the content of a related term dictionary. 本発明の一実施形態に係る情報更新装置の辞書比較処理により記憶される比較結果データの内容を示す図である。It is a figure which shows the content of the comparison result data memorize | stored by the dictionary comparison process of the information update apparatus which concerns on one Embodiment of this invention. 本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理を関連詞辞書の内容とともに示す図である。It is a figure which shows the character string extraction process and dictionary comparison process of the information update apparatus which concerns on one Embodiment of this invention with the content of a related term dictionary. 本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理を関連詞辞書の内容とともに示す図である。It is a figure which shows the character string extraction process and dictionary comparison process of the information update apparatus which concerns on one Embodiment of this invention with the content of a related term dictionary. 本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理を関連詞辞書の内容とともに示す図である。It is a figure which shows the character string extraction process and dictionary comparison process of the information update apparatus which concerns on one Embodiment of this invention with the content of a related term dictionary. 本発明の一実施形態に係る情報更新装置を含む情報更新システムの概要を示す図である。It is a figure which shows the outline | summary of the information update system containing the information update apparatus which concerns on one Embodiment of this invention. 本発明の一実施形態に係る情報更新装置の各機能部を示す機能ブロック図である。It is a functional block diagram which shows each function part of the information update apparatus which concerns on one Embodiment of this invention. 本発明の一実施形態に係る情報更新装置を構成するコンピュータのハードウェア構成の例を示す図である。It is a figure which shows the example of the hardware constitutions of the computer which comprises the information update apparatus which concerns on one Embodiment of this invention.

<<<本発明の文解析装置における技術的思想の概要>>>
本発明の文解析装置は、テキストデータから同じ文字列を検索し、当該検索された同じ文字列についてそれぞれ、前の隣接文字の異なり度合いと後の隣接文字の異なり度合いを判定し、その判定された異なり度合いに基づいて、その検索された「同じ文字列」が、話題に関して重要性が高く、テキストデータを意味識別可能な特定文字列であるか否かを決定する。前の隣接文字の異なり度合いとは、検索された「同じ文字列」の直前に出現する文字が、どの程度異なっているかを示す指標である。同様に、後の隣接文字の異なり度合いとは、検索された「同じ文字列」の直後に出現する文字が、どの程度異なっているかを示す指標である。
<<< Outline of Technical Idea in Sentence Analysis Device of the Present Invention >>>
The sentence analysis apparatus of the present invention searches for the same character string from text data, and determines the degree of difference between the previous adjacent character and the degree of difference between the subsequent adjacent character for each of the searched character strings. Based on the degree of difference, it is determined whether or not the retrieved “same character string” is a specific character string that is highly important with respect to the topic and is capable of semantically identifying text data. The degree of difference between the previous adjacent characters is an index indicating how much the character appearing immediately before the searched “same character string” is different. Similarly, the degree of difference between subsequent adjacent characters is an index indicating how much the character appearing immediately after the searched “same character string” is different.

ここで、例えば、検索された「同じ文字列」のうち、前の隣接文字の異なり度合いと後の隣接文字の異なり度合いが大きい文字列が、特定文字列として決定される。このようにして決定された1つまたは複数の文字列は、必要に応じて、所定の記憶手段に記憶される。   Here, for example, among the searched “same character string”, a character string having a large difference between the preceding adjacent characters and a large difference between the subsequent adjacent characters is determined as the specific character string. One or more character strings determined in this way are stored in a predetermined storage unit as necessary.

このような文字列の抽出は、テキストデータに含まれる複数の同じ文字列に注目したときに、それぞれの文字列の直前に位置する文字として多くのバリエーションの文字が出現するとともに、それぞれの文字列の直後に位置する文字として多くのバリエーションの文字が出現するという出現特性が認められる場合、その文字列が、独立した、よく用いられる用語である、との考えに基づくものである。このように、本発明の文解析装置では、文字列の運動学(kinematics)を基礎におく考えに基づいて文字列が抽出される。   This kind of character string extraction is based on the fact that when you focus on multiple identical character strings included in text data, many variations of characters appear as characters that are located immediately before each character string. When the appearance characteristic that many variations of characters appear as the character positioned immediately after is recognized, the character string is based on the idea that the character string is an independent and frequently used term. Thus, in the sentence analysis apparatus of the present invention, a character string is extracted based on the idea based on kinematics of the character string.

ここで、「いろは」という文字列が100回出現する日本語テキストデータを仮定すると、この文字列「いろは」を100個検索し、それぞれの文字列「いろは」について、直前の文字が何かを調べる。その結果、「あ」や「い」を含む30通りの文字が出現するという事実が得られるものとする。このことは、例えば、「・・・あいろは・・・」や「・・・いいろは・・・」といった表現が、上記の日本語テキストデータに存在するということを示している。一方、それぞれの文字列「いろは」について、直後の文字が何かを調べる。その結果、「わ」や「ん」を含む20通りの文字が出現するという事実が得られるものとする。このことは、例えば、「・・・いろはわ・・・」や「・・・いろはん・・・」といった表現が、上記の日本語テキストデータに存在するということを示している。   Here, assuming Japanese text data in which the character string “Iroha” appears 100 times, 100 character strings “Iroha” are searched, and for each character string “Iroha”, what is the immediately preceding character? Investigate. As a result, the fact that 30 characters including “A” and “I” appear appears. This indicates that, for example, expressions such as “... Airoha ...” and “... Airoha ...” exist in the above Japanese text data. On the other hand, for each character string “Iroha”, the character immediately after it is examined. As a result, the fact that 20 characters including “wa” and “n” appear can be obtained. This indicates that, for example, expressions such as “... Irohawa ...” and “... Irohan ...” exist in the Japanese text data.

この場合、前の隣接文字の異なり度合いは、例えば、「あ」や「い」を含む30通りというバリエーションの数に基づいて判定され、後の隣接文字の異なり度合いは、例えば、「わ」や「ん」を含む20通りというバリエーションの数に基づいて判定される。ここで、前の隣接文字の異なり度合いと後の隣接文字の異なり度合いが大きいと判定された場合は、「いろは」という文字列の前後の文字が大きな多様性をもって変化しており、これによって文字列「いろは」が、独立した用語であって重要性の高い語である可能性が高いと判断され、特定文字列として決定され、必要に応じて記憶手段に記憶される。前の隣接文字の異なり度合いと後の隣接文字の異なり度合いが大きいか否かは、共通の、または個別の判断基準により判断される。   In this case, the degree of difference between the preceding adjacent characters is determined based on, for example, the number of variations of 30 types including “A” and “I”. Judgment is made based on the number of 20 variations including “n”. Here, when it is determined that the difference between the preceding adjacent character and the difference between the subsequent adjacent characters is large, the characters before and after the character string “Iroha” have changed with great diversity. It is determined that the column “Iroha” is an independent term and is highly likely to be a highly important word, is determined as a specific character string, and is stored in the storage unit as necessary. Whether the difference between the preceding adjacent characters and the difference between the subsequent adjacent characters is large is determined based on a common or individual determination criterion.

入力データであるテキストデータは、どのような内容のデータであってもよい。代表的な例としては、個人によって生成された、インターネット上に公開されているWEBページ(ホームページ)やブログのテキストデータ、及びTWITTER(登録商標)のツイート情報がある。また、個人のほか、任意の機関によって事前に生成・編集されたデータやデータベース内のテキスト情報であってもよい。さらに、音声ファイル・動画ファイルから音声認識処理を経て取得されるテキストデータ等、様々なデータを用いることができる。   The text data that is the input data may be any content data. Typical examples include WEB pages (homepages) and blog text data that have been created by individuals and published on the Internet, and TWITTER (registered trademark) tweet information. Further, in addition to an individual, it may be data generated and edited in advance by an arbitrary organization or text information in a database. Furthermore, various data such as text data acquired from a voice file / moving image file through voice recognition processing can be used.

また、テキストデータは、収集条件によって収集されたデータである。例えば、キーワード検索の検索結果として示されたWEBページ(ホームページ)に記載されているテキストデータや、ある属性を有するユーザのブログに記載された文や、TWITTERにおけるツイート情報などであってもよい。なお、1つのテキストデータは、複数のテキストファイルを含むもの(例えば、1つのWEBサイトに含まれる複数のWEBページ(HTMLファイル)を含むもの)であってもよいし、1つのテキストファイルを分割した一部(例えば、1ファイルに含まれるテキストを1万ラインごとに分割したうちの1つ)であってもよい。   Text data is data collected according to collection conditions. For example, it may be text data described on a WEB page (homepage) shown as a search result of a keyword search, a sentence described on a user's blog having a certain attribute, tweet information in TWITTER, or the like. One text data may include a plurality of text files (for example, a plurality of WEB pages (HTML files) included in one WEB site), or one text file may be divided. (For example, one of the texts included in one file divided every 10,000 lines).

<<<本発明の一実施形態に係る文解析装置の処理概要の説明>>>
図1を参照して、本発明の一実施形態に係る文解析装置の処理概要について説明する。最初に、文解析装置は、テキストデータ200を取得する(テキストデータ取得処理100)。テキストデータ200は、前述のように、様々なデータソースから受信することができる。また、受信したネットワークアドレスにアクセスすることによりテキストデータ200を取得するようにもできる。またさらに、取得したテキストデータ200、またはテキストデータ200を取得する際に、特定のテキストデータだけを取得するようフィルタ処理を行ったり、特定の分類によりグルーピングをしたりすることもできる。
<<< Description of processing outline of sentence analysis apparatus according to one embodiment of the present invention >>>
With reference to FIG. 1, an outline of processing of the sentence analysis apparatus according to an embodiment of the present invention will be described. First, the sentence analysis apparatus acquires text data 200 (text data acquisition process 100). Text data 200 can be received from various data sources as described above. Further, the text data 200 can be acquired by accessing the received network address. Furthermore, when the acquired text data 200 or the text data 200 is acquired, a filtering process may be performed so as to acquire only specific text data, or grouping may be performed according to a specific classification.

次に、文解析装置は、テキストデータ取得処理100により取得されたテキストデータ200から、同じ(共通の)文字列を検索する(文字列検索処理110)。この処理は、例えば、上述したように、取得したテキストデータ200の中の「いろは」という同じ文字列を検索し、取り出す処理である。上記の例では、1つのテキストデータに100個の文字列「いろは」が存在するが、そのすべてが取り出される。また、テキストデータの中には、「いろは」以外にも同じ文字列が複数存在する可能性があるが、その場合は、それらの文字列も同様に検索して取り出す。例えば、文字列「いろは」の他に、文字列「にほへと」が複数含まれていれば、その文字列も同様に取り出される。なお、文字列「いろはに」などのように、同じ文字列としてすでに取り出されている「いろは」をそのまま含む文字列が複数ある場合も、文字列「いろは」とは別に、同じ文字列として検索される。   Next, the sentence analysis apparatus searches for the same (common) character string from the text data 200 acquired by the text data acquisition process 100 (character string search process 110). This process is, for example, a process of searching for and retrieving the same character string “Iroha” in the acquired text data 200 as described above. In the above example, there are 100 character strings “Iroha” in one text data, all of which are extracted. In text data, there may be a plurality of the same character strings other than “Iroha”. In this case, these character strings are similarly searched and extracted. For example, in addition to the character string “Iroha”, if a plurality of character strings “Nihoheto” are included, the character string is similarly extracted. In addition, even if there are multiple character strings that contain “Iroha” that has already been extracted as the same character string, such as the character string “Iroha ni”, the same character string is searched separately from the character string “Iroha”. Is done.

文字列検索処理110はさらに、同じ文字列として検索された文字列を、それぞれ、その文字列の前の隣接文字と後の隣接文字とともに、検索結果データ115に記憶する。検索結果データ115は、例えば、RAM等の主記憶装置に記憶される。記憶されるデータは、例えば、上記の例の文字列「いろは」については、100個のそれぞれの「いろは」について、文字列「いろは」、「いろは」の前の隣接文字、及び「いろは」の後の隣接文字を含むデータである。上述した例の場合、文字列「にほへと」や文字列「いろはに」についても同様に、それらの文字列と、前の隣接文字、及び後の隣接文字が検索結果データ115に記憶される。   The character string search processing 110 further stores the character strings searched as the same character string in the search result data 115 together with the adjacent character before and after the character string. The search result data 115 is stored in a main storage device such as a RAM, for example. The stored data is, for example, the character string “Iroha” in the above example, the character string “Iroha”, the adjacent character before “Iroha”, and “Iroha” It is data including the next adjacent character. In the case of the above-described example, the character string “Ihohani” and the character string “Irohani” are also stored in the search result data 115 in the same manner as those character strings, the previous adjacent character, and the subsequent adjacent character.

このように、文字列検索処理110において、同じ文字列が検索された場合に、その文字列と、前後の隣接文字を記憶するのは、最終的に、重要な意味を持つ特定文字列を決定するためであるが、テキストデータ200のなかに同じ文字列が複数存在する場合であっても、その出現頻度が所定の頻度に達しない場合は、この時点で、特定文字列として決定される可能性がないとの判断を行い、その文字列に関するデータを検索結果データ115に記憶しないようにすることができる。多くの文字からなるテキストデータ200において、わずかな回数しか出現しない語(文字列)は、そもそも重要性が高くないと判断できるからである。   As described above, when the same character string is searched in the character string search processing 110, the character string and the adjacent characters before and after the character string are stored. Finally, a specific character string having an important meaning is determined. For this reason, even if there are a plurality of the same character strings in the text data 200, if the appearance frequency does not reach a predetermined frequency, it can be determined as a specific character string at this point. It is possible to determine that there is no character and not to store data related to the character string in the search result data 115. This is because a word (character string) that appears only a few times in the text data 200 made up of many characters can be determined to be less important in the first place.

また、文字列検索処理110において、テキストデータ200から同じ文字列を検索し記憶するために、本実施形態では、サフィックスアレイ(Suffix Array:接尾辞配列)という検索用データ構造を用い、これを二分探索(Binary Search)により検索することで、同じ文字列を高速に検索している。なお、本実施形態では、上記のような方法により、文字列検索処理110を行っているが、他の様々な方法を採用して、同様の検索処理を行うことができる。サフィックスアレイと二分探索を用いた文字列検索処理110の処理については、後で詳細に説明する。   In the character string search processing 110, in order to search and store the same character string from the text data 200, in the present embodiment, a search data structure called a suffix array is used. By searching by search (Binary Search), the same character string is searched at high speed. In the present embodiment, the character string search processing 110 is performed by the above method, but the same search processing can be performed by employing various other methods. The character string search processing 110 using the suffix array and binary search will be described in detail later.

次に、文解析装置は、文字列検索処理110によって検索結果データ115に記憶された文字列とその前後の隣接文字の内容から、前の隣接文字の異なり度合いと後の隣接文字の異なり度合いを判定する(異なり度合い判定処理120)。   Next, the sentence analysis apparatus determines the degree of difference between the previous adjacent character and the degree of difference between the adjacent character from the character string stored in the search result data 115 by the character string search processing 110 and the content of the adjacent character before and after the character string. Determination (difference degree determination processing 120).

ここで、1つの文字をs(i)と表し、
s(i)〜s(j)より構成される文字列m(i,j)を、
m(i,j)=(s(i),s(i+1),s(i+2),・・・s(j−2),s(j−1),s(j))と表し、
s(i)〜s(j−1)より構成される文字列m(i,j−1)を、
m(i,j−1)=(s(i),s(i+1),s(i+2),・・・s(j−2),s(j−1))と表し、
s(i+1)〜s(j)より構成される文字列m(i+1,j)を、
m(i+1,j)=(s(i+1),s(i+2),・・・s(j−2),s(j−1),s(j))と表す。
Here, one character is represented as s (i),
A character string m (i, j) composed of s (i) to s (j)
m (i, j) = (s (i), s (i + 1), s (i + 2),... s (j−2), s (j−1), s (j))
A character string m (i, j-1) composed of s (i) to s (j-1)
m (i, j−1) = (s (i), s (i + 1), s (i + 2),... s (j−2), s (j−1))
A character string m (i + 1, j) composed of s (i + 1) to s (j) is
m (i + 1, j) = (s (i + 1), s (i + 2),... s (j−2), s (j−1), s (j)).

この場合、前の隣接文字に関する境界条件は、
T(i−1)={S(i−1)|m(i,j)}
T(i)={S(i)|m(i+1,j)}
で定義され、
後の隣接文字に関する境界条件は、
B(j)={S(j)|m(i,j−1)}
B(j+1)={S(j+1)|m(i,j)}
で定義される。
In this case, the boundary condition for the previous adjacent character is
T (i-1) = {S (i-1) | m (i, j)}
T (i) = {S (i) | m (i + 1, j)}
Defined in
The boundary condition for the next adjacent character is
B (j) = {S (j) | m (i, j-1)}
B (j + 1) = {S (j + 1) | m (i, j)}
Defined by

ここで、例えば、{S(i−1)|m(i,j)}は、文字列m(i,j)を共通とし、その直前に出現する文字の集合を意味する。なお、ここで、s(i)∈T(i)、及びs(j)∈B(j)が成立する。   Here, for example, {S (i−1) | m (i, j)} means a set of characters appearing immediately before the character string m (i, j) in common. Here, s (i) εT (i) and s (j) εB (j) hold.

例えば、T(i−1)の要素数が多く、T(i)の要素数が1の場合、s(i)が特定文字列の先頭になる可能性が高く、一方、B(j)の要素数が1で、B(j+1)の要素数が多い場合、s(j)が特定文字列の末尾になる可能性が高く、結果的に、文字列m(i,j)は、特定文字列の候補として判断される。   For example, when the number of elements of T (i-1) is large and the number of elements of T (i) is 1, s (i) is likely to be the head of a specific character string, while B (j) When the number of elements is 1 and the number of elements of B (j + 1) is large, s (j) is likely to be the end of the specific character string. As a result, the character string m (i, j) Judged as a candidate column.

このように、同じ文字列について、それらの前(または後)の隣接文字の出現態様、すなわち、隣接文字がどれくらいのバリエーションで出現するかに基づいて、同じ文字列についての隣接文字に関する異なり度合いを判定する。前後の隣接文字に関する異なり度合いが判定されると、判定された異なり度合いは、対応する文字列とともに、特定文字列候補データ125として、例えば、RAM等の主記憶装置に記憶される。なお、異なり度合い判定処理120の処理は、後で詳細に説明する。   In this way, the degree of difference regarding the adjacent character for the same character string is determined based on the appearance mode of the adjacent character before (or after) the same character string, that is, how many variations the adjacent character appears. judge. When the degree of difference regarding the adjacent characters before and after is determined, the determined degree of difference is stored as specific character string candidate data 125 together with the corresponding character string, for example, in a main storage device such as a RAM. The process of the difference degree determination process 120 will be described in detail later.

次に、文解析装置は、異なり度合い判定処理120により判定された、同じ文字列の前後の隣接文字に関する異なり度合いに基づいて、その同じ文字列が特定文字列であるか否かを決定し、特定文字列であると決定された場合、その文字列を特定文字列データ135に記憶する(特定文字列決定処理130)。特定文字列データ135は、例えば、RAM等の主記憶装置や、ハードディスクや半導体メモリのような外部記憶装置に記憶される。また、特定文字列データ135は、様々なデータフォーマット、データ記憶形式をとることができ、例えば、データベースとして構成することもできる。   Next, the sentence analysis device determines whether or not the same character string is a specific character string based on the degree of difference regarding the adjacent characters before and after the same character string determined by the difference degree determination process 120. When it is determined that the character string is a specific character string, the character string is stored in the specific character string data 135 (specific character string determination processing 130). The specific character string data 135 is stored in, for example, a main storage device such as a RAM or an external storage device such as a hard disk or a semiconductor memory. Further, the specific character string data 135 can take various data formats and data storage formats, and can be configured as, for example, a database.

上述のように、同じ文字列について、それらの前後の隣接文字にどのようなバリエーションがあるかを見ると、隣接文字の出現要素数が小さい場合、その隣接文字と「同じ文字列」は一体となって、よく使われる別の文字列を形成していると考えることができ、他方、隣接文字の出現要素数が大きい場合は、隣接文字と「同じ文字列」が区切られ、その「同じ文字列」が独立した用語であって重要性の高い語である可能性が高いと考えられる。また、その「同じ文字列」が特定文字列であるか否かは、前の隣接文字の異なり度合いと後の隣接文字の異なり度合いのほかに、さらなる要素を考慮して決定することができる。こうした、特定文字列決定処理130については、後で詳細に説明する。   As described above, regarding the same character string, if there are variations in the adjacent characters before and after them, if the number of appearance elements of the adjacent character is small, the adjacent character and the “same character string” are combined. Can be considered to form another character string that is often used. On the other hand, if the number of appearance elements of the adjacent character is large, the adjacent character and the “same character string” are separated. The "column" is an independent term and is likely to be a highly important word. Further, whether or not the “same character string” is a specific character string can be determined in consideration of other factors in addition to the degree of difference between the preceding adjacent characters and the degree of difference between the subsequent adjacent characters. The specific character string determination process 130 will be described later in detail.

さらに、特定文字列決定処理130では、特定文字列が複数決定された場合に、特定文字列として決定された文字列の間でランク付けを行うようにすることができる。こうしたランク付けは、例えば、文字列の重要度に関するランク付けであり、その文字列に関する、前後の隣接文字の異なり度合いのほかに、さらなる要素を考慮して決定することができる。例えば、文字列の文字長、出現頻度等に基づいてランク付けがされうる。また、順位を示すだけでなく、相対的な程度の差を表すことができるように、数値によってランク付けを行うこともできる。   Furthermore, in the specific character string determination process 130, when a plurality of specific character strings are determined, ranking can be performed among character strings determined as specific character strings. Such ranking is, for example, ranking related to the importance of a character string, and can be determined in consideration of other factors in addition to the degree of difference between adjacent characters in the character string. For example, ranking can be performed based on the character length, appearance frequency, etc. of the character string. In addition to ranking, ranking can also be performed numerically so that a relative degree of difference can be represented.

<<本発明の一実施形態に係る文解析装置の文字列検索処理の説明>>
最初に、上述のテキストデータ取得処理100により、どのようなテキストデータ200が文字列検索処理110の入力として提供されるかを、図2を参照して説明する。図2には、WEBブラウザのウインドウ150に表示されたWEBページが示されている。WEBページには、イメージ表示部160、テキスト表示部170、及びイメージ表示部180が示されている。WEBブラウザは、取得したHTMLデータを解釈して、上述した各表示部に、それぞれイメージ及びテキストを表示させる。テキストデータ取得処理100では、このようなHTMLデータから、タグを参照して、テキスト表示部170に示されているようなテキスト部分だけをテキストデータ200として取り出し、文字列検索処理110に提供する。
<< Description of Character String Search Processing of Sentence Analysis Device According to One Embodiment of the Present Invention >>
First, what kind of text data 200 is provided as an input of the character string search processing 110 by the text data acquisition processing 100 described above will be described with reference to FIG. FIG. 2 shows a WEB page displayed in the window 150 of the WEB browser. On the WEB page, an image display unit 160, a text display unit 170, and an image display unit 180 are shown. The WEB browser interprets the acquired HTML data and displays an image and text on each display unit described above. In the text data acquisition process 100, referring to the tag from such HTML data, only the text portion as shown in the text display unit 170 is extracted as the text data 200 and provided to the character string search process 110.

なお、ここでは、テキストデータ200を、1つのWEBページ(HTMLデータ)に含まれるデータから取得するようにしたが、上述のように、様々な方法でテキストデータ200を収集し、取得することができる。また、図2には、説明の便宜上WEBページを表示したが、テキストデータ200は、タグを参照してHTMLデータから直接取得することができるため、文解析装置やその他の装置のディスプレイに図2のようなウインドウ150を表示させる必要はない。   Here, the text data 200 is acquired from data included in one WEB page (HTML data). However, as described above, the text data 200 can be collected and acquired by various methods. it can. In FIG. 2, the WEB page is displayed for convenience of explanation, but the text data 200 can be directly acquired from the HTML data with reference to the tag, so that FIG. 2 is displayed on the display of the sentence analysis device or other devices. It is not necessary to display the window 150 as shown in FIG.

次に、図3ないし図5を参照して、文字列検索処理110を説明する。図3は、文字列検索処理110の処理手順を表すフローチャートである。図4、図5は、サフィックスアレイと二分探索を用いた文字列検索の仕組みを示す図であり、検索対象の文字列として、図2のテキスト表示部170に表示されたテキストの一部である「このコードがコードリストにある」との文字列171が設定される。WEBページからテキストデータを取得する場合、通常は、1つまたは複数のWEBページのテキスト部分すべてが検索対象となるが、ここでは、例示のため、テキスト部分の一部としている。   Next, the character string search processing 110 will be described with reference to FIGS. FIG. 3 is a flowchart showing the processing procedure of the character string search processing 110. 4 and 5 are diagrams showing a mechanism for character string search using a suffix array and binary search, and a part of text displayed on the text display unit 170 of FIG. 2 as a character string to be searched. A character string 171 “This code is in the code list” is set. When obtaining text data from a WEB page, all text parts of one or more WEB pages are usually searched, but here they are part of the text part for illustration purposes.

最初に、文字列「このコードがコードリストにある」のなかから同じ文字列を検索するために、サフィックスアレイを作成する。図3のステップS10において、テキストデータの最初の文字から最終の文字まで、サフィックスを展開する。ここで、図4を参照すると、図4(A)に示された、検索対象のテキストデータ200−1(「このコードがコードリストにある」)から、図4(B)に示すように、1〜15までのインデックスが付されたサフィックスが展開されている。それぞれのサフィックスは、検索対象のテキストデータ200−1において、インデックスの位置(開始文字位置)から末尾までの文字列であり、例えば、インデックス「1」については、検索対象のテキストデータ200−1の1文字目から末尾(15文字目)までの文字列「このコードがコードリストにある」が示されている。また、インデックス「10」については、検索対象のテキストデータ200−1の10文字目から末尾(15文字目)までの文字列「リストにある」が示されている。最後のインデックス「15」については、末尾である15文字目の文字「る」が示されている。   First, a suffix array is created in order to search for the same character string from the character string “this code is in the code list”. In step S10 of FIG. 3, the suffix is expanded from the first character to the last character of the text data. Here, referring to FIG. 4, from the text data 200-1 to be searched (“this code is in the code list”) shown in FIG. 4A, as shown in FIG. Suffixes with indexes from 1 to 15 are expanded. Each suffix is a character string from the index position (start character position) to the end in the text data 200-1 to be searched. For example, for the index “1”, the text data 200-1 to be searched A character string “This code is in the code list” from the first character to the end (15th character) is shown. For the index “10”, the character string “in the list” from the 10th character to the end (15th character) of the text data 200-1 to be searched is shown. For the last index “15”, the last character “RU” is shown.

次に、図3のステップS11において、展開されたサフィックスを所定順序でソートし、サフィックスアレイを作成する。ここで、図4を参照すると、図4(B)に示されたサフィックスがソートされ、ソート後のサフィックスアレイが図4(C)に示されている。ソートは、例えば、各文字に対応する文字コード(この例ではJISコード)によって行われ、1レコード目から4レコード目にかけて、1文字目が、「ー」(JISコード=213C)、「あ」(JISコード=2422)、「が」(JISコード=242C)のように、当該文字コード順にソートされていることが分かる。1レコード目と2レコード目は、1文字目と2文字目が同じであるが、3文字目が「が」と「リ」で異なり(「が」(JISコード=242C)、「リ」(JISコード=256A))、それによって、1レコード目が最初に配置されている。なお、インデックスは、図4(B)のインデックスが、対応するレコードに付随してそのまま付与されている。   Next, in step S11 of FIG. 3, the expanded suffixes are sorted in a predetermined order to create a suffix array. Here, referring to FIG. 4, the suffixes shown in FIG. 4B are sorted, and the suffix array after sorting is shown in FIG. 4C. Sorting is performed by, for example, a character code corresponding to each character (in this example, JIS code). From the first record to the fourth record, the first character is “-” (JIS code = 213C), “A”. It can be seen that the characters are sorted in the order of the character codes such as (JIS code = 2422) and “ga” (JIS code = 242C). The first and second records have the same first and second characters, but the third character differs between “GA” and “RE” (“GA” (JIS code = 242C), “RI” ( JIS code = 256A)), the first record is arranged first. Note that the index shown in FIG. 4B is attached as it is to the corresponding record.

次に、図3のステップS12において、順次、テキストデータ内から検索文字列を1つずつ決定する。これは、テキストデータ内に同じ文字列があるかどうかを検索するのであるから、テキストデータ内のすべての部分文字列を検索文字列として、テキストデータと照合する。例えば、図4の検索対象のテキストデータ200−1に関しては、1文字の検索文字列「こ」〜「る」、2文字の検索文字列「この」、「のコ」、・・・、「にあ」、「ある」、3文字の検索文字列「このコ」、「のコー」、・・・、「トにあ」、「にある」等が順に決定され、以下同様に、15文字の「このコードがコードリストにある」までが検索文字列となる。ただしこの場合、1文字や15文字の検索文字列については、検索対象のテキストデータ200−1と照合する意味がないので、省略することができる。また、それ以外にも、検索文字列の文字長を所定の範囲に限定することができる。   Next, in step S12 of FIG. 3, one search character string is sequentially determined from the text data. In this case, whether or not the same character string exists in the text data is searched, and all partial character strings in the text data are collated with the text data as search character strings. For example, regarding the text data 200-1 to be searched in FIG. 4, a search character string “ko” to “ru” of one character, a search character string “this”, “noko”,. ‘N’, ‘Yes’, 3 character search strings ‘Kon’, ‘No’, ・ ・ ・, ‘To’, ‘In’, etc. The search character string up to “This code is in the code list”. However, in this case, the search character string of 1 character or 15 characters can be omitted because it has no meaning to collate with the text data 200-1 to be searched. In addition, the character length of the search character string can be limited to a predetermined range.

次に、図3のステップS13において、検索を行う検索文字列がすべて終了したか否かが判定される。ここで、すべて終了した場合は、文字列検索処理が終了する。まだすべてが終了していない場合は、ステップS14において、検索文字列を検索キーとして、サフィックスアレイを検索する。ここで、図5を参照すると、図5(A)及び図5(B)に示すように、検索文字列として、検索対象のテキストデータ200−1内から3文字の文字列「コード」が決定された場合の検索処理が示されている。このとき、図5(C)のサフィックスアレイに対して二分探索が行われる。図5(C)のサフィックスアレイは、図4(C)に示すサフィックスアレイと同じものであり、図5(C)では、二分探索による検索の過程が示されている。   Next, in step S13 of FIG. 3, it is determined whether or not all the search character strings to be searched are completed. Here, when all the processes are completed, the character string search process ends. If all of them have not been completed, the suffix array is searched using the search character string as a search key in step S14. Here, referring to FIG. 5, as shown in FIGS. 5A and 5B, a character string “code” of three characters is determined from the text data 200-1 to be searched as a search character string. The search process in the case of being performed is shown. At this time, a binary search is performed on the suffix array of FIG. The suffix array in FIG. 5C is the same as the suffix array shown in FIG. 4C, and FIG. 5C shows a search process by binary search.

図5(C)を参照すると、まず、サフィックスアレイの中央のレコード(1)(インデックス=15、文字列「る」)と検索文字列「コード」を比較する。このとき、「る」のJISコードは246B、「コ」のJISコードは2533で、「コ」の方が大きいので、レコード(1)より下でサフィックスアレイの下半分の中心に位置するレコード(2)(インデックス=12、文字列「トにある」)と検索文字列「コード」を比較する。このとき、「ト」のJISコードは2548、「コ」のJISコードは2533で、「コ」の方が小さいので、レコード(1)とレコード(2)の中心に位置するレコード(3)(インデックス=7、文字列「コードリストにある」)と検索文字列「コード」を比較する。   Referring to FIG. 5C, the record (1) (index = 15, character string “RU”) in the center of the suffix array is compared with the search character string “code”. At this time, the JIS code of “ru” is 246B, the JIS code of “ko” is 2533, and “co” is larger, so the record (1) below the record array (1) located in the center of the lower half of the suffix array ( 2) Compare the search character string “code” with (index = 12, character string “is in”). At this time, the JIS code for “G” is 2548, the JIS code for “G” is 2533, and “C” is smaller, so the record (3) ( Index = 7, character string “is in code list”) and search character string “code” are compared.

そうすると、レコード(3)の最初の3文字と検索文字列「コード」が一致するため、検索文字列と同じ文字列が検索対象のテキストデータ200−1に見つかったことになる。さらにその後、レコード(3)の上下のレコードと比較すると、レコード(4)の最初の3文字と検索文字列「コード」が一致するため、検索文字列と同じ文字列が検索対象のテキストデータ200−1が見つかったことになる。このような二分探索により、検索対象のテキストデータ200−1のなかに、「コード」という文字列が2つあることがわかる(そのうちの1つは、検索対象のテキストデータ200−1から抽出された検索文字列「コード」それ自体である)。   Then, since the first three characters of the record (3) match the search character string “code”, the same character string as the search character string is found in the search target text data 200-1. Thereafter, when compared with the upper and lower records of the record (3), the first three characters of the record (4) and the search character string “code” match, so the same character string as the search character string is the text data 200 to be searched. -1 is found. Such a binary search reveals that there are two character strings “code” in the text data 200-1 to be searched (one of which is extracted from the text data 200-1 to be searched). Search string "code" itself).

次に、図3のステップS15において、検索文字列が所定数ヒットしたか否かが判定される。検索文字列が所定数ヒットしないと判定された場合、その文字列を特定文字列の候補とすることなく、次の検索文字列による検索を行うため、ステップS12に進む。ここで、所定数は、検索対象のテキストデータ200−1の文字数や、検索文字列の文字数など、様々な要素に基づいて決定されうる。所定数ヒットしないということは、検索対象のテキストデータ200−1において、その検索文字列の出現頻度が小さく、重要な語ではないということを表している。なお、この段階では、出現頻度を評価することなく、特定文字列の候補として記憶しておき、後続の特定文字列決定処理等において最終的に判断するように構成することもできる。   Next, in step S15 of FIG. 3, it is determined whether or not a predetermined number of search character strings have been hit. If it is determined that the search character string does not hit the predetermined number, the process proceeds to step S12 in order to perform a search using the next search character string without setting the character string as a candidate for the specific character string. Here, the predetermined number can be determined based on various factors such as the number of characters in the search target text data 200-1 and the number of characters in the search character string. The fact that the predetermined number of hits does not occur indicates that the frequency of appearance of the search character string is low in the text data 200-1 to be searched and is not an important word. Note that at this stage, the appearance frequency may be stored as a specific character string candidate without being evaluated, and finally determined in a subsequent specific character string determination process or the like.

ステップS15において、検索文字列が所定数ヒットしたと判定された場合、ステップS16に進み、そこで、検索キー(検索文字列)に一致した文字列を特定文字列の候補とし、それぞれ、前後の隣接文字とともに、1レコードとして主記憶装置等に記憶する。ここで、図5(C)を参照すると、検索結果として、検索文字列「コード」と一致する文字列が先頭に見つかったレコード(3)とレコード(4)について、それぞれ、検索文字列と同じ文字列「コード」と、前後の隣接文字が、1レコードとして記憶される。例えば、レコード(3)については、「が」、「コード」、「リ」が1レコードとして記憶される。前の隣接文字が「が」であり、後の隣接文字が「リ」である。また、レコード(4)については、「の」、「コード」、「が」が1レコードとして記憶される。前の隣接文字が「の」であり、後の隣接文字が「が」である。   If it is determined in step S15 that the search character string has been hit by a predetermined number, the process proceeds to step S16, where the character string that matches the search key (search character string) is set as a specific character string candidate, Along with characters, it is stored as one record in the main memory or the like. Here, referring to FIG. 5C, as a search result, the record (3) and the record (4) in which the character string matching the search character string “code” is found at the head are the same as the search character string, respectively. The character string “code” and adjacent characters before and after are stored as one record. For example, for record (3), “GA”, “CODE”, and “RE” are stored as one record. The preceding adjacent character is “GA”, and the subsequent adjacent character is “RE”. For record (4), “no”, “code”, and “ga” are stored as one record. The preceding adjacent character is “no” and the subsequent adjacent character is “ga”.

このように、本実施形態の文解析装置では、上述のように、サフィックスアレイと二分探索を用いて、高速にテキストデータ内で同じ文字列を見つけ出すように構成されているが、本発明は当該処理方法に限定されるものではない。上述した以外の方法で、テキストデータ内の同じ文字列を見つけ出すようにすることができる。   As described above, the sentence analysis apparatus according to the present embodiment is configured to find the same character string in the text data at high speed using the suffix array and the binary search as described above. It is not limited to the processing method. It is possible to find the same character string in the text data by a method other than that described above.

<<本発明の一実施形態に係る文解析装置の異なり度合い判定処理の説明>>
次に、図6及び図7を参照して、本発明の実施形態に係る文解析装置の異なり度合い判定処理について、より詳細に説明する。
<< Description of Difference Degree Determination Process of Sentence Analysis Device According to One Embodiment of Present Invention >>
Next, with reference to FIG. 6 and FIG. 7, the difference degree determination processing of the sentence analysis apparatus according to the embodiment of the present invention will be described in more detail.

図6は、異なり度合い判定処理120の処理手順を表すフローチャートである。図7は、前後の隣接文字の異なり度合いを判定するための仕組みを示す図であり、図5に示すような、検索文字列「コード」での文字列検索処理を、多くの文字を含む検索対象文字列に対して行った結果、検索結果として検索文字列「コード」が26個得られ、それに対応する26件のレコードを処理する状況を示している。   FIG. 6 is a flowchart showing the processing procedure of the difference degree determination processing 120. FIG. 7 is a diagram showing a mechanism for determining the degree of difference between adjacent characters before and after. A character string search process using a search character string “code” as shown in FIG. As a result of performing the search on the target character string, 26 search character strings “codes” are obtained as search results, and the corresponding 26 records are processed.

最初に、図6のステップS20において、文字列検索処理110で、検索結果データ115に記憶された文字列のレコード(前後の隣接文字を含む)から、1つの文字列に関するレコードを取り出す。ここで、図7(A)を参照すると、検索結果データ115に記憶された文字列「コード」についてのレコード(全26レコード)が取り出され、メモリに展開された様子が示されている。   First, in step S20 of FIG. 6, a character string search process 110 extracts a record related to one character string from the character string records (including adjacent characters before and after) stored in the search result data 115. Here, referring to FIG. 7A, a record (26 records in total) for the character string “code” stored in the search result data 115 is extracted and expanded in the memory.

次に、図6のステップS21において、検索結果データ115に記憶された文字列のレコードをすべて取得し、異なり度合い判定処理を行うべきデータがなくなったと判定された場合、図6の異なり度合い判定処理は終了する。ステップS21において、すべての処理が終了しておらず、検索結果データ115に記憶された文字列の1つについてすべてのレコードが取得できている場合は、ステップS22に進む。   Next, when all the character string records stored in the search result data 115 are acquired in step S21 in FIG. 6 and it is determined that there is no data to be subjected to the different degree determination process, the different degree determination process in FIG. Ends. If all the processes have not been completed in step S21 and all the records have been acquired for one of the character strings stored in the search result data 115, the process proceeds to step S22.

次に、図6のステップS22において、検索結果データ115に記憶された文字列の1つについて取得したすべてのレコードについて、前の隣接文字でソートし、前の隣接文字に関する出現文字のパターン数を求める。ここで、図7(A)を参照すると、検索結果データ115に記憶された文字列「コード」について取得したレコード(全26件)について、前の隣接文字211でソートした結果が示されている。このソートは、上述した文字列検索処理におけるサフィックスアレイの作成のときと同様、文字コード(例えば、JISコード)を用いて行うことができる。このようなソートを行った後、レコード間で前の隣接文字211の値が変化した(ブレークした)回数をカウントすることによって、前の隣接文字211の出現文字のパターン数が分かる。図7(A)の場合、前の隣接文字211は、「 」、「(」、「、」、「「」、「が」、「た」、「で」、「ど」、「の」、「は」、「べ」、「も」、「り」の13パターンである。   Next, in step S22 of FIG. 6, all records acquired for one of the character strings stored in the search result data 115 are sorted by the previous adjacent character, and the number of appearance character patterns related to the previous adjacent character is determined. Ask. Here, referring to FIG. 7A, the result of sorting the records (26 in total) acquired for the character string “code” stored in the search result data 115 by the previous adjacent character 211 is shown. . This sorting can be performed using a character code (for example, JIS code) as in the case of creating a suffix array in the character string search process described above. After performing such sorting, the number of appearance character patterns of the previous adjacent character 211 can be determined by counting the number of times the value of the previous adjacent character 211 has changed (breaked) between records. In the case of FIG. 7A, the preceding adjacent character 211 is “”, “(”, “,”, ““ ”,“ ga ”,“ ta ”,“ de ”,“ do ”,“ no ”, There are 13 patterns of “ha”, “be”, “mo”, and “ri”.

このように、本実施形態の文解析装置では、前の隣接文字211をソートし、その値が各レコード間で変化したかどうかで、前の隣接文字に関する出現文字のパターン数を求めているが、本発明は当該処理方法に限定されるものではない。出現文字のパターン数は、他の様々な方法で求めることができる。また、所定の文字や文字パターンに関する扱いを、仕様に応じて柔軟に設定することができる。例えば、改行・改ページなどの制御文字等を考慮しないようにすることができる。また、句点や読点などを考慮することもできるし、無視することもできる。さらに、英字の大文字と小文字を同じ文字として扱うこともできるし、別の文字として扱うこともできる。また、ソートについては、半角英数などの1バイトコード文字については、対応する1バイトをソートし、漢字などの2バイトコード文字については、対応する2バイトをソートする。また、前の隣接文字211をソートする場合、本実施形態では、1文字の隣接文字をソートすることとしているが、2文字以上の文字をソートして、その異なり度合いを判定するようにもできる。   As described above, in the sentence analysis apparatus according to the present embodiment, the previous adjacent character 211 is sorted, and the number of appearance character patterns related to the previous adjacent character is obtained based on whether or not the value has changed between records. The present invention is not limited to the processing method. The number of appearance character patterns can be obtained by various other methods. In addition, it is possible to flexibly set the handling of predetermined characters and character patterns according to specifications. For example, it is possible not to consider control characters such as line feeds and page breaks. You can also consider punctuation marks and punctuation marks, or ignore them. Furthermore, uppercase and lowercase letters can be treated as the same character, or they can be treated as different characters. As for sorting, for 1 byte code characters such as single-byte alphanumeric characters, the corresponding 1 byte is sorted, and for 2 byte code characters such as Kanji, the corresponding 2 bytes are sorted. Also, when sorting the previous adjacent character 211, in this embodiment, one adjacent character is sorted, but it is possible to sort two or more characters and determine the degree of difference between them. .

次に、図6のステップS23において、前の隣接文字211に関する異なり度合いを判定する。この場合、異なり度合いは、隣接文字211が(図7(A)の26件のレコードの間で)、どの程度異なっているかを示す指標であり、従って、上述した前の隣接文字に関する出現文字のパターン数に基づいて判定される。異なり度合いは、パターン数そのものであってもよいが、例えば、文字列の出現頻度(図7(A)の場合は、「コード」の出現頻度が26)等を考慮して判定することもできる。また、異なり度合いを所定の閾値により複数の段階(例えば、3段階)で評価することもできる。またさらに、隣接文字211が特定の文字である場合に、その文字のカウントや異なり度合いの判定に関し、任意の重み付けを行うようにすることもできる。   Next, in step S23 of FIG. 6, the degree of difference with respect to the previous adjacent character 211 is determined. In this case, the degree of difference is an index indicating how much the adjacent character 211 is different (between the 26 records in FIG. 7A), and thus the appearance character related to the previous adjacent character described above. It is determined based on the number of patterns. The degree of difference may be the number of patterns itself, but can be determined in consideration of, for example, the appearance frequency of a character string (in the case of FIG. 7A, the appearance frequency of “code” is 26). . Also, the degree of difference can be evaluated in a plurality of stages (for example, three stages) using a predetermined threshold. Furthermore, when the adjacent character 211 is a specific character, it is possible to perform arbitrary weighting regarding the count of the character and the determination of the degree of difference.

次に、図6のステップS24において、検索結果データ115に記憶された文字列の1つについて取得したすべてのレコードについて、後の隣接文字でソートし、後の隣接文字に関する出現文字のパターン数を求める。ここで、図7(B)を参照すると、検索結果データ115に記憶された文字列「コード」について取得したレコード(全26件)について、後の隣接文字213でソートした結果が示されている。このようなソートにより、図7(A)に示したレコード215、レコード216は、それぞれ点線矢印に示す位置に配置される。   Next, in step S24 of FIG. 6, all records acquired for one of the character strings stored in the search result data 115 are sorted by the subsequent adjacent characters, and the number of appearance character patterns related to the subsequent adjacent characters is determined. Ask. Here, referring to FIG. 7B, the result of sorting the records (26 in total) acquired for the character string “code” stored in the search result data 115 by the subsequent adjacent characters 213 is shown. . By such sorting, the records 215 and 216 shown in FIG. 7A are arranged at positions indicated by dotted arrows.

このソートは、上述した文字列検索処理におけるサフィックスアレイの作成のときと同様、文字コード(例えば、JISコード)を用いて行うことができる。このようなソートを行った後、レコード間で後の隣接文字213の値が変化した(ブレークした)回数をカウントすることによって、後の隣接文字213の出現文字のパターン数が分かる。図7(B)の場合、後の隣接文字213は、「、」、「「」、「」」、「が」、「で」、「と」、「に」、「の」、「は」、「を」、「リ」、「支」の12パターンである。   This sorting can be performed using a character code (for example, JIS code) as in the case of creating a suffix array in the character string search process described above. After performing such sorting, the number of characters appearing in the subsequent adjacent character 213 can be determined by counting the number of times the value of the subsequent adjacent character 213 has changed (breaked) between records. In the case of FIG. 7B, the subsequent adjacent characters 213 are “,”, ““ ”,“ ””, “GA”, “DE”, “TO”, “NI”, “NO”, “HA”. , “O”, “Li”, and “Branch”.

このように、本実施形態の文解析装置では、後の隣接文字213をソートし、その値が各レコード間で変化したかどうかで、後の隣接文字に関する出現文字のパターン数を求めているが、本発明は当該処理方法に限定されるものではない。出現文字のパターン数は、他の様々な方法で求めることができる。また、所定の文字については、当該パターン数のカウントに含めないようにすることができる。また、ソートについては、半角英数などの1バイトコード文字については、対応する1バイトをソートし、漢字などの2バイトコード文字については、対応する2バイトをソートする。また、後の隣接文字213をソートする場合、本実施形態では、1文字の隣接文字をソートすることとしているが、2文字以上の文字をソートして、その異なり度合いを判定するようにもできる。   As described above, in the sentence analysis apparatus according to the present embodiment, the subsequent adjacent characters 213 are sorted, and the number of appearance character patterns related to the subsequent adjacent characters is obtained based on whether or not the value has changed between the records. The present invention is not limited to the processing method. The number of appearance character patterns can be obtained by various other methods. Further, the predetermined character can be excluded from the count of the number of patterns. As for sorting, for 1 byte code characters such as single-byte alphanumeric characters, the corresponding 1 byte is sorted, and for 2 byte code characters such as Kanji, the corresponding 2 bytes are sorted. Further, when sorting the adjacent characters 213 later, in this embodiment, one adjacent character is sorted. However, two or more characters can be sorted and the degree of difference can be determined. .

次に、図5のステップS25において、後の隣接文字213に関する異なり度合いを判定する。この場合、異なり度合いは、隣接文字213が(図7(B)の26件のレコードの間で)、どの程度異なっているかを示す指標であり、従って、上述した後の隣接文字に関する出現文字のパターン数に基づいて判定される。異なり度合いは、パターン数そのものであってもよいが、例えば、文字列の出現頻度(図7(B)の場合は、「コード」の出現頻度が26)等を考慮して判定することもできる。また、異なり度合いを所定の閾値により複数の段階(例えば、3段階)で評価することもできる。またさらに、隣接文字213が特定の文字である場合に、その文字のカウントや異なり度合いの判定に関し、任意の重み付けを行うようにすることもできる。   Next, in step S25 of FIG. 5, the degree of difference regarding the subsequent adjacent character 213 is determined. In this case, the degree of difference is an index indicating how much the adjacent character 213 is different (between the 26 records in FIG. 7B). It is determined based on the number of patterns. The degree of difference may be the number of patterns itself, but can be determined in consideration of, for example, the appearance frequency of a character string (in the case of FIG. 7B, the appearance frequency of “code” is 26). . Also, the degree of difference can be evaluated in a plurality of stages (for example, three stages) using a predetermined threshold. Furthermore, when the adjacent character 213 is a specific character, arbitrary weighting can be performed with respect to the count of the character and determination of the degree of difference.

次に、図6のステップS26において、判定対象の文字列、及び、その文字列に関して判定された、前の隣接文字に関する異なり度合いと後の隣接文字に関する異なり度合いが、特定文字列候補データ125に記憶される。   Next, in step S <b> 26 of FIG. 6, the character string to be determined, and the degree of difference related to the previous adjacent character and the degree of difference related to the subsequent adjacent character determined for the character string are stored in the specific character string candidate data 125. Remembered.

図6のステップS26の処理が終了すると、ステップS20に進み、次の「同じ文字列」に関する処理が行われる。   When the process of step S26 in FIG. 6 ends, the process proceeds to step S20, and the next process related to “same character string” is performed.

<<本発明の一実施形態に係る文解析装置の特定文字列決定処理の説明>>
特定文字列決定処理においては、異なり度合い判定処理により特定文字列候補データ125に記憶されたデータを順次読み出し、判定された前後の隣接文字の異なり度合いに基づいて、対応する文字列が特定文字列か否かを決定し、決定された特定文字列を特定文字列データ135に記憶する。より具体的には、前後の隣接文字の異なり度合いの大小に応じて、対応する文字列が特定文字列であるか否かを決定する。
<< Description of Specific Character String Determination Processing of Sentence Analysis Device According to One Embodiment of the Present Invention >>
In the specific character string determination process, the data stored in the specific character string candidate data 125 is sequentially read out by the different degree determination process, and the corresponding character string is determined based on the determined difference degree between adjacent characters. The determined specific character string is stored in the specific character string data 135. More specifically, it is determined whether or not the corresponding character string is a specific character string according to the degree of difference between the adjacent character characters.

前後の隣接文字の異なり度合いの大小については、共通の、または前後で異なる判断基準により判断されうる。前後の隣接文字の異なり度合いが、所定の大きさであると判断された場合に、対応する文字列は、独立した用語であって、話題を識別する重要な語である特定文字列として決定される。すなわち、前後の隣接文字の異なり度合いによりスコアが計算され、そのスコアに基づいて、その対応する文字列が特定文字列であるか否かを決定するようにしてもよい。   The degree of difference between the adjacent characters before and after can be determined based on a common or different determination criterion. When the degree of difference between the adjacent characters before and after is determined to be a predetermined size, the corresponding character string is an independent term and is determined as a specific character string that is an important word that identifies the topic. The That is, a score may be calculated based on the degree of difference between the adjacent characters before and after, and based on the score, it may be determined whether or not the corresponding character string is a specific character string.

また、特定文字列決定処理では、前後の隣接文字の異なり度合いに加えて、対応する文字列の文字長、対応する文字列の出現頻度、特定の文字が前の隣接文字として出現する確率・頻度、特定の文字が後の隣接文字として出現する確率・頻度、特定の文字の組合せが前後の隣接文字として出現する確率・頻度等を考慮してスコアを計算し、計算されたスコアに基づいて、その対応する文字列が特定文字列であるか否かを決定するようにしてもよい。   In addition, in the specific character string determination process, in addition to the degree of difference between the adjacent character before and after, the character length of the corresponding character string, the appearance frequency of the corresponding character string, the probability / frequency of appearance of the specific character as the previous adjacent character , Calculate the score in consideration of the probability and frequency that a specific character appears as a subsequent adjacent character, the probability and frequency that a specific character combination appears as the adjacent character before and after, and based on the calculated score, You may make it determine whether the corresponding character string is a specific character string.

さらに、1つのテキストデータ(検索対象の文字列)において、複数の特定文字列の候補がある場合に、その候補の数や、それぞれについて計算されたスコアの分布に応じて、特定文字列として決定するための決定条件を変化させることもできる。   Furthermore, if there is a plurality of specific character string candidates in one text data (character string to be searched), it is determined as a specific character string according to the number of candidates and the score distribution calculated for each candidate. It is also possible to change the determination conditions for doing so.

またさらに、特定文字列決定処理では、1つのテキストデータ(検索対象の文字列)について決定された特定文字列が複数ある場合に、特定文字列として決定された文字列の間でランク付けを行うようにすることができる。こうしたランク付けは、例えば、話題に関する文字列の重要度に関するランク付けであり、上述した、前後の隣接文字の異なり度合いにより計算されたスコアや、前後の隣接文字の異なり度合いに加え、他の様々な要素を加味して計算されたスコア等に基づいて決定される。また、このようなランク付けは、特定文字列として決定された文字列の重要度を順序付けるだけでなく、特定文字列間の相対的な重要度を示すことができるように、例えば、上述のスコアの値を用いる等して、具体的な数値によりランク付けを行うことができる。   Furthermore, in the specific character string determination process, when there are a plurality of specific character strings determined for one text data (character string to be searched), ranking is performed among the character strings determined as the specific character strings. Can be. Such ranking is, for example, ranking related to the importance of a character string related to a topic. In addition to the above-described score calculated based on the degree of difference between adjacent characters and the degree of difference between adjacent characters before and after, It is determined on the basis of a score calculated taking into account various factors. Also, such ranking is not only for ordering the importance of character strings determined as specific character strings, but also for indicating the relative importance between specific character strings. Ranking can be performed by specific numerical values by using a score value or the like.

また、このようなランク付けは、特定文字列が複数決定された場合に行われるが、1つのテキストデータに関して決定された複数の特定文字列について行うこともできるし、所定の条件によりグルーピングされた複数のテキストデータに関して決定された複数の特定文字列について行うこともできる。   Such ranking is performed when a plurality of specific character strings are determined. However, the ranking can be performed for a plurality of specific character strings determined with respect to one text data, or grouped according to a predetermined condition. It can also be performed for a plurality of specific character strings determined for a plurality of text data.

例えば、所定の条件によりグルーピングされた複数のテキストデータとして、入力された検索キーワードにヒットしたWEBページ群のテキストデータや、所定の属性に該当するユーザのTWITTERの内容などが考えられる。   For example, as a plurality of text data grouped according to a predetermined condition, text data of a WEB page group hit with an input search keyword, contents of a user's TWITTER corresponding to a predetermined attribute, and the like can be considered.

<<<テキストデータの把握単位と特定文字列データ>>>
ここで、図8を参照して、文解析の対象となるテキストデータが、どのような単位で把握され、それに応じて、話題を識別するための特定文字列がどのように決定され、ランク付けられるかについて、実施例を説明する。
<<< Unit for grasping text data and specific character string data >>>
Here, referring to FIG. 8, the text data to be analyzed is understood in what unit, and the specific character string for identifying the topic is determined and ranked accordingly. An example will be described.

図8の例では、テキストデータ200には、テキストデータ200a、テキストデータ200b−1、テキストデータ200b−2、テキストデータ200b−3、テキストデータ200cが含まれるものとし、これらは、キーワード「ネットワークの設定」を用いたWEBページの検索でヒットした5つのWEBページからそれぞれ得られたテキストデータであるとする。また、テキストデータ200aはサイトAのWEBページから得られたテキストデータであり、テキストデータ200b−1、テキストデータ200b−2、及びテキストデータ200b−3はサイトBのWEBページから得られたテキストデータであり、テキストデータ200cはサイトCのWEBページから得られたテキストデータであるとする。   In the example of FIG. 8, the text data 200 includes text data 200a, text data 200b-1, text data 200b-2, text data 200b-3, and text data 200c. It is assumed that the text data is obtained from each of the five WEB pages hit in the search of the WEB page using “setting”. The text data 200a is text data obtained from the WEB page of the site A, and the text data 200b-1, text data 200b-2, and text data 200b-3 are the text data obtained from the WEB page of the site B. It is assumed that the text data 200c is text data obtained from the WEB page of site C.

文解析装置400は、これらのテキストデータ200を取得して、このなかから特定文字列を決定する。第1の実施例では、文解析装置400が、特定文字列データ135−1に示すように、特定文字列を記憶する。この例で、文解析装置400は、テキストデータ200a、テキストデータ200b−1、テキストデータ200b−2、テキストデータ200b−3、及びテキストデータ200cをひとまとまりのテキストデータとして把握し、そこで、4つの特定文字列(ネットワーク、トラブル、設定、MAC)を決定し、この順にランク付けした。これは、「ネットワークの設定」というキーワードにより、1つの文解析の対象となるテキストデータが引き出されたものである。   The sentence analysis apparatus 400 acquires the text data 200 and determines a specific character string from these. In the first embodiment, the sentence analysis device 400 stores a specific character string as indicated by the specific character string data 135-1. In this example, the sentence analysis apparatus 400 grasps the text data 200a, the text data 200b-1, the text data 200b-2, the text data 200b-3, and the text data 200c as a group of text data, and there are four types of text data. Specific character strings (network, trouble, setting, MAC) were determined and ranked in this order. This is one in which text data to be analyzed for one sentence is extracted by the keyword “network setting”.

第2の実施例では、文解析装置400が、特定文字列データ135−2に示すように、特定文字列を記憶する。この例で、文解析装置400は、テキストデータ200a、テキストデータ200b−1、テキストデータ200b−2、テキストデータ200b−3、及びテキストデータ200cをそれぞれ別個のテキストデータとして把握し、これらのテキストデータごと(テキストデータの原データであるWEBページのアドレスごと)に、特定文字列(例えば、テキストデータ200aに関しては、ネットワーク、設定、トラブル、アドレス)を決定し、それぞれランク付けした。これは、「ネットワークの設定」というキーワードにより得られたテキストデータを、原データのWEBページごとに文解析の対象としたものである。   In the second embodiment, the sentence analysis apparatus 400 stores a specific character string as indicated by the specific character string data 135-2. In this example, the sentence analysis apparatus 400 grasps the text data 200a, the text data 200b-1, the text data 200b-2, the text data 200b-3, and the text data 200c as separate text data, and these text data. A specific character string (for example, network, setting, trouble, address for the text data 200a) is determined and ranked for each (each address of the WEB page that is the original data of the text data). In this case, text data obtained with the keyword “network setting” is subjected to sentence analysis for each WEB page of the original data.

第3の実施例では、文解析装置400が、特定文字列データ135−3に示すように、特定文字列を記憶する。この例で、文解析装置400は、WEBページのサイトごとにテキストデータを把握し、テキストデータ200aをグループA、テキストデータ200b−1、テキストデータ200b−2、及びテキストデータ200b−3をグループB、テキストデータ200cをグループCとし、このような3つのグループに分類してそれぞれのグループごとに、特定文字列(例えば、グループAに関しては、ネットワーク、設定、トラブル、説明書)を決定し、それぞれランク付けした。これは、「ネットワークの設定」というキーワードにより得られたテキストデータを、原データのWEBページのサイトごとに文解析の対象としたものである。   In the third embodiment, the sentence analysis apparatus 400 stores a specific character string as indicated by the specific character string data 135-3. In this example, the sentence analysis apparatus 400 grasps the text data for each site of the WEB page, the text data 200a is group A, the text data 200b-1, the text data 200b-2, and the text data 200b-3 is group B. The text data 200c is group C, and is classified into such three groups. For each group, a specific character string (for example, network, setting, trouble, manual for group A) is determined, Ranked. In this case, text data obtained with the keyword “network setting” is subjected to sentence analysis for each site of the WEB page of the original data.

<<<本発明の一実施形態に係る文解析装置における適用例の説明>>>
次に、図9を参照して、本発明の一実施形態に係る文解析装置400において、WEBページの検索結果からテキストデータ200を取得し、そのテキストデータ200の文解析によって決定した特定文字列を表示する適用例について説明する。
<<< Explanation of application example in sentence analysis apparatus according to one embodiment of the present invention >>>
Next, with reference to FIG. 9, in the sentence analysis apparatus 400 according to the embodiment of the present invention, the text data 200 is acquired from the search result of the WEB page, and the specific character string determined by the sentence analysis of the text data 200 is obtained. An application example for displaying is described.

最初に、ユーザが検索端末600で動作する一般的なWEBブラウザを操作して、WEBページの検索を行う。この検索は、例えば、一般的に利用可能なインターネット検索である。ユーザがWEBブラウザにより、検索キーワードを入力し、検索ボタンを押すと、検索リクエストが検索サーバ610に送信され、そこで検索サーバ610は受信した検索キーワードに基づいて、その検索キーワードに関連するWEBページを検索し、得られた検索結果620を検索端末600に返信する。検索結果には、検索キーワードに関連するWEBページのアドレス(例えば、URL等のインターネットアドレス識別情報)が含まれている。   First, the user operates a general WEB browser operating on the search terminal 600 to search for a WEB page. This search is, for example, a generally available Internet search. When a user inputs a search keyword using the WEB browser and presses the search button, a search request is transmitted to the search server 610, where the search server 610 displays a WEB page related to the search keyword based on the received search keyword. The search is performed, and the obtained search result 620 is returned to the search terminal 600. The search result includes the address of the WEB page related to the search keyword (for example, Internet address identification information such as URL).

検索端末600に検索結果620が送信されると、検索端末600で動作するアプリケーション(アプリケーションプログラム)601が、検索結果620を、(例えば、API送信により)文解析装置400に送信する。文解析装置400は、検索結果620を受信すると、検索結果620に含まれるWEBページのアドレスにアクセスして、それぞれのWEBページからテキストデータ200を取得する。   When the search result 620 is transmitted to the search terminal 600, the application (application program) 601 operating on the search terminal 600 transmits the search result 620 to the sentence analysis apparatus 400 (for example, by API transmission). When the sentence analysis apparatus 400 receives the search result 620, the sentence analysis apparatus 400 accesses the address of the WEB page included in the search result 620, and acquires the text data 200 from each WEB page.

その後、文解析装置400は、取得したテキストデータ200に対して、上述した文字列検索処理110、異なり度合い判定処理120、特定文字列決定処理130を行い、話題を識別する重要な特定文字列を決定し、特定文字列データ135に記憶する。また、複数の特定文字列が決定された場合はランク付けを行う。   Thereafter, the sentence analysis apparatus 400 performs the above-described character string search processing 110, the degree-of-difference determination processing 120, and the specific character string determination processing 130 on the acquired text data 200 to obtain an important specific character string for identifying the topic. It is determined and stored in the specific character string data 135. If a plurality of specific character strings are determined, ranking is performed.

文解析装置400は、特定文字列を決定した後、特定文字列の表示を行うために編集・生成された特定文字列表示データ300を検索端末600に送信し、検索端末600のWEBブラウザは、受信した特定文字列表示データ300に基づいて、特定文字列を検索端末600のディスプレイ602に表示する。テキストデータ200が所定の条件によりグルーピングされている場合は、そのグループごとに、ランク付けされた特定文字列が表示される。   After determining the specific character string, the sentence analysis apparatus 400 transmits the specific character string display data 300 edited and generated to display the specific character string to the search terminal 600, and the WEB browser of the search terminal 600 Based on the received specific character string display data 300, the specific character string is displayed on the display 602 of the search terminal 600. When the text data 200 is grouped according to a predetermined condition, a ranked specific character string is displayed for each group.

このような文解析装置400等の処理により、ユーザが検索端末600で検索キーワードを入力しWEBページの検索を指示してからディスプレイ602に特定文字列が表示されるまでが瞬時に行われる。なお、この例では、決定された特定文字列は特定文字列データ135に記憶され、特定文字列データ135は、その後の利用を考慮してハードディスクや半導体メモリのような外部記憶装置に記憶されるが、決定された特定文字列を瞬時に検索端末600のディスプレイ602に表示するだけであれば、特定文字列データ135をRAMやVRAM等に一時的に記憶するだけでよい。   By such processing of the sentence analysis apparatus 400 and the like, the process from the time when the user inputs a search keyword at the search terminal 600 and instructs the search of the WEB page to the time when the specific character string is displayed on the display 602 is performed instantaneously. In this example, the determined specific character string is stored in the specific character string data 135, and the specific character string data 135 is stored in an external storage device such as a hard disk or a semiconductor memory in consideration of subsequent use. However, if the determined specific character string is merely displayed on the display 602 of the search terminal 600 instantaneously, the specific character string data 135 need only be temporarily stored in RAM, VRAM, or the like.

なお、この例では、検索端末600において、WEBブラウザが、WEBページの検索や特定文字列表示データ300の表示を行うように構成しているが、アプリケーション601がこれらの機能を備えるように構成することもできる。また、アプリケーション601または文解析装置400は、必要に応じて、検索結果620に含まれるWEBページの一部(例えば、検索キーワードとの関連が低い(ランクの低い)WEBページ)のアドレスを削除するようにできる。これは、関連の低い特定文字列が抽出されることを防止するためである。   In this example, in the search terminal 600, the WEB browser is configured to search the WEB page and display the specific character string display data 300, but the application 601 is configured to have these functions. You can also In addition, the application 601 or the sentence analysis apparatus 400 deletes the address of a part of the WEB page included in the search result 620 (for example, a WEB page having a low association with the search keyword (low rank)) as necessary. You can This is to prevent the extraction of a specific character string having a low relation.

また、この例では、検索端末600が、検索結果620として検索キーワードに関連するWEBページのアドレスを文解析装置400に送信するが、検索端末600において、これらのWEBページにアクセスし、その結果得られたテキストデータを検索結果620として文解析装置400に送信するようにもできる。   In this example, the search terminal 600 transmits the address of the WEB page related to the search keyword to the sentence analysis apparatus 400 as the search result 620. The search terminal 600 accesses these WEB pages and obtains the result. The received text data can be transmitted to the sentence analysis apparatus 400 as the search result 620.

また、上述のように、テキストデータ200が所定の条件によりグルーピングされている場合は、そのグループごとに特定文字列が表示されるが、このことは、特定文字列の集合(1つのグループに複数の特定文字列が存在する)の集合(グループごとに特定文字列の集合が存在する)が管理されていることを示している。このような、特定文字列の集合をさらに集合として管理することにより(例えば、異なる特定文字列の集合において、共通の特定文字列が発見されることにより)、複数の特定文字列の集合のなかでの特定文字列の繋がりを見い出すことができる。   In addition, as described above, when the text data 200 is grouped according to a predetermined condition, a specific character string is displayed for each group. This is because a set of specific character strings (a plurality of characters are included in one group). It is shown that a set of specific character strings (a set of specific character strings exists for each group) is managed. By managing such a set of specific character strings as a set (for example, by finding a common specific character string in a set of different specific character strings), a set of a plurality of specific character strings You can find the connection of a specific character string in.

<<<本発明の一実施形態に係る文解析装置の構成の説明>>>
次に、図10を参照して、本発明の一実施形態に係る文解析装置400の構成を説明する。文解析装置400は、テキストデータ取得処理部421、文字列検索処理部422、異なり度合い判定処理部423、特定文字列決定処理部424、及びネットワークインタフェース(I/F)部425を備える。さらに、特定文字列決定処理部424には、特定文字列決定部424a、及びランク付け管理部424bが含まれる。また、文解析装置400は、RAM等の主記憶装置またはハードディスクや半導体メモリのような外部記憶装置に、特定文字列データ135を記憶する。
<<< Description of Configuration of Sentence Analysis Device According to One Embodiment of the Present Invention >>>
Next, with reference to FIG. 10, the structure of the sentence analysis apparatus 400 which concerns on one Embodiment of this invention is demonstrated. The sentence analysis apparatus 400 includes a text data acquisition processing unit 421, a character string search processing unit 422, a different degree determination processing unit 423, a specific character string determination processing unit 424, and a network interface (I / F) unit 425. Furthermore, the specific character string determination processing unit 424 includes a specific character string determination unit 424a and a ranking management unit 424b. In addition, the sentence analysis apparatus 400 stores the specific character string data 135 in a main storage device such as a RAM or an external storage device such as a hard disk or a semiconductor memory.

テキストデータ取得処理部421は、テキストデータ200を取得し、これを文字列検索処理部422に提供する(図1に示すテキストデータ取得処理100)。文字列検索処理部422は、図1に示す文字列検索処理110を行う。異なり度合い判定処理部423は、図1に示す異なり度合い判定処理120を行う。また、特定文字列決定処理部424は、特定文字列を決定し、必要に応じて、決定された特定文字列を特定文字列データ135に記憶する(図1に示す特定文字列決定処理130)。ネットワークインタフェース(I/F)部425は、インターネット等のネットワークを介した、図9に示す検索端末600を含む他のコンピュータとのアクセスと、これらのコンピュータとのデータ送受信を制御する。   The text data acquisition processing unit 421 acquires the text data 200 and provides it to the character string search processing unit 422 (text data acquisition processing 100 shown in FIG. 1). The character string search processing unit 422 performs the character string search processing 110 shown in FIG. The difference degree determination processing unit 423 performs a difference degree determination process 120 shown in FIG. Further, the specific character string determination processing unit 424 determines a specific character string, and stores the determined specific character string in the specific character string data 135 as necessary (specific character string determination processing 130 shown in FIG. 1). . A network interface (I / F) unit 425 controls access to other computers including the search terminal 600 shown in FIG. 9 and data transmission / reception with these computers via a network such as the Internet.

また、特定文字列決定部424aは、テキストデータ200に含まれる同じ文字列に関する前後の隣接文字の異なり度合い等から、当該同じ文字が特定文字列であるか否かを決定する。ランク付け管理部424bは、1つのテキストデータ200において、複数の特定文字列が決定される場合に、その特定文字列についてランク付けを行う。   Further, the specific character string determination unit 424a determines whether or not the same character is the specific character string from the degree of difference between the adjacent characters before and after the same character string included in the text data 200. When a plurality of specific character strings are determined in one text data 200, the ranking management unit 424b ranks the specific character strings.

<<<本発明の一実施形態に係る文解析装置のハードウェア構成の説明>>>
次に、図11を参照して、本発明の一実施形態に係る文解析装置400として用いられるコンピュータのハードウェア構成の例について説明する。ただし、図10に示す文解析装置400は、その代表的な構成を例示したにすぎない。
<<< Description of Hardware Configuration of Sentence Analysis Device According to One Embodiment of the Present Invention >>>
Next, an example of a hardware configuration of a computer used as the sentence analysis apparatus 400 according to an embodiment of the present invention will be described with reference to FIG. However, the sentence analysis apparatus 400 illustrated in FIG. 10 only exemplifies a typical configuration.

文解析装置400は、CPU(Central Processing Unit)401、RAM(Random Access Memory)402、ROM(Read Only Memory)403、ネットワークインタフェース404、オーディオ制御部405、マイクロフォン406、スピーカ407、ディスプレイコントローラ408、ディスプレイ409、入力機器インタフェース410、キーボード411、マウス412、外部記憶装置413、外部記録媒体インタフェース414、及びこれらの構成要素を互いに接続するバス415を含んでいる。   The sentence analysis apparatus 400 includes a CPU (Central Processing Unit) 401, a RAM (Random Access Memory) 402, a ROM (Read Only Memory) 403, a network interface 404, an audio control unit 405, a microphone 406, a speaker 407, a display controller 408, a display. 409, an input device interface 410, a keyboard 411, a mouse 412, an external storage device 413, an external recording medium interface 414, and a bus 415 for connecting these components to each other.

CPU401は、文解析装置400の各構成要素の動作を制御し、OSの制御下で、本発明に係るテキストデータ取得処理100、文字列検索処理110、異なり度合い判定処理120、及び特定文字列決定処理130の実行を制御する。   The CPU 401 controls the operation of each component of the sentence analysis apparatus 400, and under the control of the OS, the text data acquisition process 100, the character string search process 110, the difference degree determination process 120, and the specific character string determination according to the present invention. The execution of the process 130 is controlled.

RAM402には、CPU401で実行される特定文字列決定処理130等を実行するためのプログラムや、それらのプログラムが実行中に使用するデータが一時的に格納される。図1に示す検索結果データ115、特定文字列候補データ125、特定文字列データ135も、このようなRAM402に一時的に記憶されうる。ROM403には、文解析装置400の起動時に実行されるプログラム等が格納される。   The RAM 402 temporarily stores programs for executing the specific character string determination process 130 and the like executed by the CPU 401 and data used during the execution of these programs. The search result data 115, the specific character string candidate data 125, and the specific character string data 135 shown in FIG. 1 can also be temporarily stored in the RAM 402. The ROM 403 stores a program that is executed when the sentence analysis apparatus 400 is activated.

ネットワークインタフェース404は、ネットワーク500に接続するためのインタフェースである。ネットワーク500は、例えば、図9に示す検索端末600と文解析装置400との間のネットワークや、インターネットのようなネットワークである。   The network interface 404 is an interface for connecting to the network 500. The network 500 is, for example, a network between the search terminal 600 and the sentence analysis apparatus 400 illustrated in FIG. 9 or a network such as the Internet.

オーディオ制御部405は、マイクロフォン406とスピーカ407を制御して音声の入出力を制御する。ディスプレイコントローラ408は、CPU401が発行する描画命令を実際に処理するための専用コントローラである。ディスプレイ409は、例えば、LCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)で構成される表示装置である。   The audio control unit 405 controls the microphone 406 and the speaker 407 to control audio input / output. The display controller 408 is a dedicated controller for actually processing a drawing command issued by the CPU 401. The display 409 is a display device configured by, for example, an LCD (Liquid Crystal Display) or a CRT (Cathode Ray Tube).

入力機器インタフェース410は、キーボード411やマウス412から入力された信号を受信して、その信号パターンに応じて所定の指令をCPU401に送信する。   The input device interface 410 receives signals input from the keyboard 411 and the mouse 412 and transmits a predetermined command to the CPU 401 according to the signal pattern.

外部記憶装置413は、例えば、ハードディスクや半導体メモリのような記憶装置であり、この装置内には上述したプログラムやデータが記録され、実行時に、必要に応じてそこからRAM402にロードされる。例えば、図1に示す特定文字列データ135も、このような記憶装置に記憶されうる。   The external storage device 413 is a storage device such as a hard disk or a semiconductor memory, for example. The above-described program and data are recorded in this device, and are loaded from the RAM 402 into the RAM 402 when necessary. For example, the specific character string data 135 shown in FIG. 1 can also be stored in such a storage device.

外部記録媒体インタフェース414は、外部記録媒体510にアクセスして、そこに記録されているデータを読み取る。外部記録媒体510は、例えば、可搬型のフラッシュメモリ、CD(Compact Disc)、DVD(Digital Versatile Disc)などである。CPU401で実行され、本発明の各機能を実現するためのプログラムは、この外部記録媒体インタフェース414を介して外部記録媒体510から提供されうる。また、本発明の各機能を実現するためのプログラムの他の流通形態としては、ネットワーク上の所定のサーバから、ネットワーク500及びネットワークインタフェース404を介して外部記憶装置413やRAM402に格納されるというルート等も考えられる。   The external recording medium interface 414 accesses the external recording medium 510 and reads data recorded therein. The external recording medium 510 is, for example, a portable flash memory, a CD (Compact Disc), a DVD (Digital Versatile Disc), or the like. A program executed by the CPU 401 and realizing each function of the present invention can be provided from the external recording medium 510 via the external recording medium interface 414. Further, as another distribution form of the program for realizing each function of the present invention, a route that is stored in the external storage device 413 or the RAM 402 via a network 500 and a network interface 404 from a predetermined server on the network. Etc. are also conceivable.

ここまで、本発明の一実施形態に係る文解析装置のハードウェア構成について、一例を説明してきたが、図9に示す検索端末600のハードウェア構成も基本的に、図11に示す構成と同様である。ただし、ここで、文解析装置400に関しては、オーディオ制御部405、マイクロフォン406、スピーカ407、ディスプレイコントローラ408、ディスプレイ409、入力機器インタフェース410、キーボード411、及びマウス412は必須の構成要素ではない。また、検索端末600に関しては、ディスプレイ602はディスプレイ409に相当するものであり、オーディオ制御部405、マイクロフォン406、及びスピーカ407は必須の構成要素ではない。   Up to this point, an example of the hardware configuration of the sentence analysis apparatus according to the embodiment of the present invention has been described. However, the hardware configuration of the search terminal 600 illustrated in FIG. 9 is basically the same as the configuration illustrated in FIG. It is. However, regarding the sentence analysis apparatus 400, the audio control unit 405, the microphone 406, the speaker 407, the display controller 408, the display 409, the input device interface 410, the keyboard 411, and the mouse 412 are not essential components. Regarding the search terminal 600, the display 602 corresponds to the display 409, and the audio control unit 405, the microphone 406, and the speaker 407 are not essential components.

これまで、本発明の一実施形態に係る文解析装置について、本発明を実施することができるいくつかの実施例を示しながら説明してきたが、これらの実施例は本発明を説明するための一例に過ぎず、本発明の権利範囲はこれらの実施例に限定されることはない。これらの実施例以外の様々な方法や構成によって、本発明の技術的思想を実現することができる。   So far, the sentence analysis apparatus according to an embodiment of the present invention has been described with reference to some examples that can implement the present invention. However, these examples are examples for explaining the present invention. However, the scope of rights of the present invention is not limited to these examples. The technical idea of the present invention can be realized by various methods and configurations other than these embodiments.

<<<本発明の情報更新装置における技術的思想の概要>>>
本発明の情報更新装置は、異なる収集条件によって収集されたテキストデータから、意味識別可能な文字列を抽出し、抽出された文字列を、テキストデータに対応する辞書に記憶し、これらの辞書について比較処理を行うことによって得られた比較結果を更新する。比較処理は、辞書の更新がされた場合に自動的に行われる。
<<< Outline of Technical Idea in Information Updating Device of the Present Invention >>>
The information update device of the present invention extracts character strings that can be distinguished from text data collected under different collection conditions, stores the extracted character strings in a dictionary corresponding to the text data, and about these dictionaries The comparison result obtained by performing the comparison process is updated. The comparison process is automatically performed when the dictionary is updated.

本明細書では、テキストデータから抽出される、意味識別可能な文字列を「関連詞」と称する。関連詞は、検索に用いるキーワードとは異なる概念の文字列である。また、関連詞を用いて、話題の近さや繋がり方を判定することができる。このような構成によって、本発明の情報更新装置について、より多様な応答システム等への適用が可能となる。   In the present specification, a character string that is extracted from text data and that can be identified is referred to as a “related term”. A related term is a character string having a concept different from that of a keyword used for search. Moreover, it is possible to determine the closeness of topics and how to connect them using related words. With such a configuration, the information updating apparatus of the present invention can be applied to more various response systems.

異なる辞書に対応付けられたテキストデータは、異なる収集条件によって収集されたテキストデータであり、これらのテキストデータは、例えば、同様の対象やデータソースについて異なるタイミングで収集される複数のテキストデータであったり、同様のタイミングにおいて、異なる主題や検索条件によって収集される複数のテキストデータであったりする。   Text data associated with different dictionaries is text data collected under different collection conditions. These text data are, for example, a plurality of text data collected at different timings for the same target or data source. Or a plurality of text data collected according to different subjects and search conditions at the same timing.

上記の比較処理は、複数の辞書を比較して、新たに出現した関連詞のほか、消滅した関連詞、共通して出現する関連詞、(3つ以上の時系列テキストデータに対応する辞書において)再度出現した関連詞など、関連詞の出現状況を判定し、関連詞がこのような出現状況のうちいずれかである場合に、その関連詞を比較結果として記憶する。   The above comparison process compares a plurality of dictionaries, and in addition to newly appearing related terms, disappeared related terms, commonly appearing related terms, (in a dictionary corresponding to three or more time-series text data) ) Determine the appearance status of a related term such as a related term that appears again, and store the related term as a comparison result when the related term is one of such appearance statuses.

また、1つのテキストデータから複数の関連詞が抽出された場合に、それらの関連詞を1つの集合として(共起関連詞として)関連付け、対応する辞書に記憶することができる。このように構成することにより、比較処理において、複数の辞書で共通する関連詞があると判定された場合に、その関連詞の共起関連詞を比較し、さらなる判定を行うことができる。   Further, when a plurality of related terms are extracted from one text data, these related terms can be associated as one set (as a co-occurrence related term) and stored in a corresponding dictionary. With this configuration, when it is determined in the comparison process that there is a related term common to a plurality of dictionaries, the co-occurrence related terms of the related terms can be compared and further determination can be performed.

このように、関連詞の出現に関する履歴等をとらえることにより、関連詞の意味を炙りだせるようになる。すなわち、このような処理を繰り返すことにより、関連詞が所属する話題名が明確となるほか、いつもの関連詞と(新たに出現した)新着関連詞とを区別して扱うことができたり、辞書の比較処理によって、話題の類似性や相違性についての判断をしたりすることができる。こうした機能を、関連詞学習機能と称することとする。関連詞学習機能により、エンドユーザの入力識別手段が多様化することが期待できる。   In this way, by capturing the history of the appearance of related terms, the meaning of the related terms can be found out. In other words, by repeating such processing, the topic name to which the related term belongs becomes clear, and the usual related term can be distinguished from the new arrival related term (newly appeared). By the comparison process, it is possible to determine the similarity or difference between topics. Such a function is referred to as a related term learning function. It can be expected that end-user input identification means will be diversified by the related term learning function.

また、収集され、関連詞が抽出されるテキストデータは、どのような内容のデータであってもよい。代表的な例としては、個人によって生成された、インターネット上に公開されているホームページやブログのテキストデータ、及びTWITTER(登録商標)のツイート情報がある。また、個人のほか、任意の機関によって事前に生成・編集されたデータやデータベース内のテキスト情報であってもよい。さらに、音声ファイル・動画ファイルから音声認識処理を経て取得されるテキストデータ等、様々なデータを用いることができる。   Further, the text data collected and the related terms extracted from may be any content data. Typical examples include text data of homepages and blogs created on the Internet and published on the Internet, and tweet information of TWITTER (registered trademark). Further, in addition to an individual, it may be data generated and edited in advance by an arbitrary organization or text information in a database. Furthermore, various data such as text data acquired from a voice file / moving image file through voice recognition processing can be used.

また、テキストデータは、所定条件によって、原データから選択されたデータであってもよい。例えば、キーワード検索の検索結果として示されたWEBページ(ホームページ)に記載されているテキストデータや、ある属性を有するユーザのブログに記載された文や、TWITTERにおけるツイート情報などであってもよい。なお、1つのテキストデータは、複数のテキストファイルを含むもの(例えば、1つのWEBサイトに含まれる複数のWEBページ(HTMLファイル)を含むもの)であってもよいし、1つのテキストファイルを分割した一部(例えば、1ファイルに含まれるテキストを1万ラインごとに分割したうちの1つ)であってもよい。   The text data may be data selected from the original data according to a predetermined condition. For example, it may be text data described on a WEB page (homepage) shown as a search result of a keyword search, a sentence described on a user's blog having a certain attribute, tweet information in TWITTER, or the like. One text data may include a plurality of text files (for example, a plurality of WEB pages (HTML files) included in one WEB site), or one text file may be divided. (For example, one of the texts included in one file divided every 10,000 lines).

<<<本発明の一実施形態に係る情報更新装置の処理概要の説明>>>
図12を参照して、本発明の一実施形態に係る情報更新装置の処理概要について説明する。最初に、情報更新装置は、テキストデータ1200を取得する(テキストデータ取得処理1100)。テキストデータ1200は、前述のように、様々なデータソースから受信することができる。また、受信したネットワークアドレスにアクセスすることによりテキストデータ1200を取得するようにもできる。またさらに、取得したテキストデータ1200、またはテキストデータ1200を取得する際に、特定のテキストデータだけを取得するようフィルタ処理を行ったり、特定の分類によりグルーピングをしたりすることもできる。
<<< Description of processing outline of information updating apparatus according to one embodiment of the present invention >>>
With reference to FIG. 12, an outline of processing of the information updating apparatus according to the embodiment of the present invention will be described. First, the information updating apparatus acquires text data 1200 (text data acquisition process 1100). Text data 1200 can be received from various data sources, as described above. Further, the text data 1200 can be acquired by accessing the received network address. Furthermore, when the acquired text data 1200 or the text data 1200 is acquired, a filtering process may be performed so as to acquire only specific text data, or grouping may be performed according to a specific classification.

次に、情報更新装置は、テキストデータ取得処理1100により取得されたテキストデータ1200から、意味識別可能な文字列を抽出し、抽出された文字列を関連詞辞書1115に記憶する(文字列抽出処理1110)。このように抽出された文字列は、上述の関連詞に相当するものであり、これらの関連詞は、その関連詞が抽出されたテキストデータ1200に対応する関連詞辞書1〜3等に、それぞれ記憶される。   Next, the information updating apparatus extracts a character string that can be distinguished from the text data 1200 acquired by the text data acquisition process 1100, and stores the extracted character string in the related term dictionary 1115 (character string extraction process). 1110). The character strings extracted in this way correspond to the above-mentioned related terms, and these related terms are respectively stored in the related terms dictionary 1 to 3 corresponding to the text data 1200 from which the related terms are extracted. Remembered.

テキストデータ1200から関連詞を抽出する方法として様々な方法が考えられる。例えば、テキストデータ1200から同じ文字列を検索し、その文字列の前後の隣接文字の異なり度合い(同じ文字列に関するそれぞれの前の隣接文字、後の隣接文字のパターン数)に応じて、その文字列が関連詞か否かを決定する方法がある。また、従来から多く利用されている、形態素データを用いた形態素解析等を用いることもできる。   Various methods are conceivable as a method for extracting related terms from the text data 1200. For example, the same character string is searched from the text data 1200, and the character according to the degree of difference between adjacent characters before and after the character string (the number of patterns of the preceding adjacent character and the subsequent adjacent character related to the same character string). There is a way to determine if a sequence is a related term. In addition, morpheme analysis using morpheme data, which has been widely used, can be used.

文字列抽出処理1110では、複数のテキストデータ1200から関連詞が抽出され、それぞれ対応する関連詞辞書1115に記憶される。例えば、複数のテキストデータ1200は、同様の対象やデータソースについて異なるタイミングで収集されたテキストデータであったり、同様のタイミングにおいて、異なる主題や検索条件によって収集される複数のテキストデータであったりする。文字列抽出処理1110の詳細な処理については、後で説明する。   In the character string extraction process 1110, related terms are extracted from the plurality of text data 1200 and stored in the corresponding related term dictionary 1115, respectively. For example, the plurality of text data 1200 may be text data collected at different timings for the same target or data source, or may be a plurality of text data collected by different subjects or search conditions at the same timing. . Detailed processing of the character string extraction processing 1110 will be described later.

次に、情報更新装置は、文字列抽出処理1110により、それぞれ関連詞が記憶された複数の関連詞辞書1115を比較し、関連詞の出現状況に応じて、比較結果を比較結果データ1125に記憶する(辞書比較処理1120)。   Next, the information updating apparatus compares a plurality of related terminology dictionaries 1115 each storing a related term by character string extraction processing 1110 and stores the comparison result in the comparison result data 1125 according to the appearance status of the related term. (Dictionary comparison process 1120).

例えば、異なるタイミングで収集された2つの関連詞辞書(関連詞辞書1、関連詞辞書2)を比較する場合、関連詞辞書1に存在せず、関連詞辞書2に存在する関連詞があれば、これを、新たに出現した新着の関連詞として、比較結果データ1125に記憶し、逆に、関連詞辞書1に存在し、関連詞辞書2に存在しない関連詞があれば、これを、消滅した関連詞として、比較結果データ1125に記憶する。   For example, when comparing two related terminology dictionaries (related term dictionary 1 and related term dictionary 2) collected at different timings, if there is a related term that does not exist in the related term dictionary 1 but exists in the related term dictionary 2 This is stored in the comparison result data 1125 as a newly-arrived new related term, and conversely, if there is a related term that exists in the related term dictionary 1 but does not exist in the related term dictionary 2, this is deleted. And stored in the comparison result data 1125 as a related term.

また、例えば、異なる主題について同様のタイミングで収集された3つの関連詞辞書(関連詞1〜3)を比較する場合、すべての関連詞辞書1〜3に存在する関連詞があれば、これを、共通した関連詞として比較結果データ1125に記憶する。   Also, for example, when comparing three related terminology dictionaries (related terms 1 to 3) collected at the same timing for different subjects, if there are related terms existing in all the related terminators dictionaries 1 to 3, And stored in the comparison result data 1125 as a common related term.

なお、複数の関連詞辞書において、関連詞がどのような出現状況のときに比較結果データ1125に記憶するかは、本発明の情報更新装置が適用される応答システム等に応じて、柔軟に規定することができる。辞書比較処理1120の詳細な処理については、後で詳細に説明する。   It should be noted that, in a plurality of related terminology dictionaries, the appearance status of the related term is stored in the comparison result data 1125 in a flexible manner according to the response system to which the information updating apparatus of the present invention is applied. can do. Detailed processing of the dictionary comparison processing 1120 will be described in detail later.

<<本発明の一実施形態に係る情報更新装置の文字列抽出処理の説明>>
図13を参照して、文字列抽出処理1110について説明する。図13は、文字列抽出処理1110の処理手順を表すフローチャートである。最初に、ステップS110において、関連詞を抽出する対象となるテキストデータを読み込む。テキストデータは、上述のように、テキストデータが取得できる限り、どのようなデータであってもよい。
<< Description of Character String Extraction Processing of Information Updating Device According to One Embodiment of the Present Invention >>
The character string extraction process 1110 will be described with reference to FIG. FIG. 13 is a flowchart showing the processing procedure of the character string extraction processing 1110. First, in step S110, text data that is a target for extracting related terms is read. As described above, the text data may be any data as long as the text data can be acquired.

次に、ステップS111において、ステップS110で読み込んだテキストデータから、意味識別可能な文字列である関連詞を抽出する。テキストデータから関連詞を抽出する方法は、上述のように、前後の隣接文字の異なり度合いに基づく方法や、形態素解析を用いた方法などを含む様々な方法がある。   Next, in step S111, a related term which is a character string whose meaning can be identified is extracted from the text data read in step S110. As described above, there are various methods for extracting a related term from text data, including a method based on the degree of difference between adjacent characters and a method using morphological analysis.

次に、ステップS112において、ステップS111で1つのテキストデータ1200に対して複数の関連詞が抽出された場合に、所定の判断基準により、その複数の関連詞にランク付けを行う。例えば、テキストデータ1200における関連詞の重要度に応じてランク付けを行うことができ、関連詞の文字長や出現頻度に応じてランク付けが行われうる。また、関連詞を、前後の隣接文字の異なり度合いに基づく方法により抽出する場合は、前後の隣接文字の異なり度合いに応じてランク付けが行われる。なお、ランク付けは、このような基準のほか様々な要素、及びこれらの組合せによって行うことができる。このような「ランク」は、話題との関連性を示すものである。また、関連詞が複数抽出された場合であっても、このようなランク付けを行わないようにすることもできる。   Next, in step S112, when a plurality of related terms are extracted for one text data 1200 in step S111, the plurality of related terms are ranked according to a predetermined criterion. For example, ranking can be performed according to the importance of the related term in the text data 1200, and ranking can be performed according to the character length and appearance frequency of the related term. In the case where the related terms are extracted by a method based on the degree of difference between the adjacent characters before and after, ranking is performed according to the degree of difference between the adjacent characters before and after. The ranking can be performed by various factors in addition to such criteria and combinations thereof. Such “rank” indicates relevance to a topic. Further, even when a plurality of related terms are extracted, it is possible not to perform such ranking.

次に、ステップS113において、ステップS112でランク付けされた関連詞を、テキストデータ1200に対応する関連詞辞書に記憶する。例えば、1つのテキストデータ1200から抽出された関連詞は、1つのレコードにまとめて記憶され、各関連詞は、ランク付けに応じた記憶位置(配列エントリー)に記憶される。関連詞は、このように記憶されることにより、複数の関連詞が、1つのテキストデータ1200(それらの関連詞が抽出されたテキストデータ)に関連付けられた集合として定義される。ランク付けは、その集合のなかで関連詞を順位付けるものである。   Next, in step S113, the related terms ranked in step S112 are stored in the related term dictionary corresponding to the text data 1200. For example, related terms extracted from one text data 1200 are collectively stored in one record, and each related term is stored in a storage position (array entry) according to ranking. By storing the related terms in this way, a plurality of related terms are defined as a set associated with one text data 1200 (text data from which the related terms are extracted). Ranking is to rank related terms in the set.

文字列抽出処理は、処理対象のテキストデータ1200が複数ある場合は、上述したステップS110からステップS113までの処理を、テキストデータ1200ごとに繰り返す。   In the character string extraction process, when there are a plurality of text data 1200 to be processed, the processes from step S110 to step S113 described above are repeated for each text data 1200.

<<本発明の一実施形態に係る情報更新装置の辞書比較処理の説明>>
図14を参照して、辞書比較処理1120について説明する。図14は、辞書比較処理1120の処理手順を表すフローチャートである。この実施例では、時系列データとして収集された2つのテキストデータ(テキストデータ1、テキストデータ2)から関連詞が抽出され、それぞれ対応する関連詞辞書(i−1)、関連詞辞書(i)、に記憶されている状況で比較処理が行われるものとする。
<< Description of Dictionary Comparison Processing of Information Updating Device According to One Embodiment of the Present Invention >>
The dictionary comparison process 1120 will be described with reference to FIG. FIG. 14 is a flowchart showing the processing procedure of dictionary comparison processing 1120. In this embodiment, related terms are extracted from two text data (text data 1, text data 2) collected as time series data, and the corresponding related terms dictionary (i-1) and related terms dictionary (i) are extracted. It is assumed that the comparison process is performed in the situation stored in.

最初に、ステップS120において、関連詞辞書(i−1)、関連詞辞書(i)に記憶されている関連詞を読み出す。次に、ステップS121において、関連詞辞書(i−1)と関連詞辞書(i)の関連詞を比較し、そのなかから関連詞辞書(i−1)に存在せず、関連詞辞書(i)に存在する関連詞を、新たに出現した関連詞(新着関連詞)として比較結果データ1125に記憶する。それぞれの関連詞辞書は、例えば、話題名に対応付けられており、辞書比較処理1120は、この話題名を用いて比較を行うことができる。新着関連詞は、対応する関連詞辞書を表すことができる話題名、出現状況(この場合は、新たに出現したことを表す「新着」の文字やこれに対応するコード等)とともに比較結果データ1125に記憶される。   First, in step S120, the related terms stored in the related term dictionary (i-1) and the related term dictionary (i) are read. Next, in step S121, the related terms in the related term dictionary (i-1) and the related term dictionary (i) are compared. Among them, the related term dictionary (i-1) does not exist and the related term dictionary (i-1) is not present. ) Are stored in the comparison result data 1125 as newly appearing related terms (new arrival related terms). Each related term dictionary is associated with, for example, a topic name, and the dictionary comparison process 1120 can perform comparison using the topic name. The new arrival related terminology includes the topic name that can represent the corresponding related terminology dictionary, the appearance status (in this case, “new arrival” character indicating that it has newly appeared, a code corresponding thereto, and the like) and comparison result data 1125. Is remembered.

次に、ステップS122において、関連詞辞書(i−1)と関連詞辞書(i)の関連詞を比較し、そのなかから関連詞辞書(i−1)に存在し、関連詞辞書(i)に存在しない関連詞を、消滅した関連詞(消滅関連詞)として比較結果データ1125に記憶する。それぞれの関連詞辞書は、例えば、話題名に対応付けられており、消滅関連詞は、この話題名、出現状況(この場合は、新たに出現したことを表す「消滅」の文字やこれに対応するコード等)とともに比較結果データ1125に記憶される。   Next, in step S122, the related terms in the related term dictionary (i-1) and the related term dictionary (i) are compared with each other. Is stored in the comparison result data 1125 as an extinct related term (an extinct related term). Each related terminology dictionary is associated with, for example, a topic name, and an extinction related terminology corresponds to the topic name, appearance status (in this case, “disappearance” indicating new appearance and this) Are stored in the comparison result data 1125.

その後、ステップS123において、関連詞辞書(i−1)の内容を関連詞辞書(i)にコピーする。これは、次のタイミングにおいて、文字列抽出処理1110が関連詞を記憶するための関連詞辞書(i−1)を用意するためであり、その後、この新たな関連詞辞書(i−1)と、関連詞辞書(i−1)の内容がコピーされた関連詞辞書(i)が、辞書比較処理1120によって比較される。   Thereafter, in step S123, the contents of the related term dictionary (i-1) are copied to the related term dictionary (i). This is because, at the next timing, the character string extraction process 1110 prepares a related term dictionary (i-1) for storing related terms, and thereafter, this new related term dictionary (i-1) and The related term dictionary (i) to which the content of the related term dictionary (i-1) is copied is compared by the dictionary comparison processing 1120.

このように、文字列抽出処理1110と辞書比較処理1120は、所定のタイミングで繰り返し実行されるが、詳細な説明については後述する。また、辞書比較処理1120が繰り返し処理されることによって、比較結果データ1125に、その処理タイミングにおいてそれぞれ比較結果が記憶されることになるが、比較結果を記憶する際に、それ以前に記憶されていた比較結果を消去するか、累積的に記憶するかは、適用される応答システム等の仕様に応じて決定される。また、比較結果データ1125を、辞書比較処理1120ごとに別個に用意するようにしてもよい。   As described above, the character string extraction processing 1110 and the dictionary comparison processing 1120 are repeatedly executed at a predetermined timing, and detailed description thereof will be described later. In addition, by repeatedly performing the dictionary comparison process 1120, the comparison result data 1125 stores the comparison results at the processing timing. When the comparison results are stored, the comparison results are stored before that. Whether the comparison result is erased or stored cumulatively is determined according to the specifications of the applied response system or the like. Further, the comparison result data 1125 may be prepared separately for each dictionary comparison process 1120.

また、この例では省略したが、関連詞辞書(i−1)と関連詞辞書(i)を比較して、共通する関連詞(共通関連詞)を比較結果データ1125に記憶することもできる。この場合、例えば、関連詞辞書(i−1)において共通関連詞とともに記憶されている他の関連詞(共起関連詞)と、関連詞辞書(i)において共通関連詞とともに記憶されている他の関連詞(共起関連詞)との間に共通性があるか否かをさらに比較して、当該共通性に関する情報を比較結果データ1125に記憶することができる。   Although omitted in this example, the related term dictionary (i-1) and the related term dictionary (i) can be compared, and a common related term (common related term) can be stored in the comparison result data 1125. In this case, for example, other related terms (co-occurrence related terms) stored together with the common related term in the related term dictionary (i-1) and others stored together with the common related term in the related term dictionary (i) It is possible to further compare whether or not there is commonality with other related terms (co-occurrence related terms), and to store information regarding the commonality in the comparison result data 1125.

さらに、上記のような共起関連詞を比較する場合に、それらの共起関連詞に関連付けられたランクを考慮して共通性に関する情報を判定してもよい。例えば、ランクの高い(それらの関連詞で示される話題にとって重要性が高い)共起関連詞が、関連詞辞書(i−1)と関連詞辞書(i)において共通する場合、共通関連詞の共通性はより高く評価されうる。   Further, when comparing the co-occurrence related terms as described above, information on the commonality may be determined in consideration of the ranks associated with the co-occurrence related terms. For example, when co-occurrence related terms having high rank (high importance for the topic indicated by those related terms) are common in the related term dictionary (i-1) and the related term dictionary (i), Commonality can be appreciated more.

<<<本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理の説明>>>
図15は、同じWEBページから時系列に収集された5つのテキストデータ(テキストデータ1〜5)から、文字列抽出処理1110によって、それぞれ異なるタイミングで関連詞が抽出され、抽出された関連詞が、それぞれ対応する関連詞辞書(i−1)または関連詞辞書(i)に記憶され、その後、関連詞辞書(i)が更新された場合に、関連詞辞書(i−1)と関連詞辞書(i)とを対象として辞書比較処理1120が行われ、これらの処理が、時間(T=t1)から(T=t5)まで周期的に行われている例を示している(時間(T=t6以降は省略した)。
<<< Description of Character String Extraction Processing and Dictionary Comparison Processing of Information Updating Device According to One Embodiment of the Present Invention >>>
FIG. 15 shows that the related terms are extracted at different timings by the character string extraction processing 1110 from the five text data (text data 1 to 5) collected in time series from the same WEB page. Are stored in the corresponding related term dictionary (i-1) or the related term dictionary (i), and then the related term dictionary (i-1) and the related term dictionary when the related term dictionary (i) is updated. A dictionary comparison process 1120 is performed for (i), and these processes are periodically performed from time (T = t1) to (T = t5) (time (T = T = It was omitted after t6).

最初に、時間(T=t1)において、この時点で所定のWEBページから収集されたテキストデータ1から、文字列抽出処理1110aによって関連詞が抽出され、抽出された関連詞が関連詞辞書(i−1)に記憶される。この文字列抽出処理1110aは、図13を参照して説明した文字列抽出処理1110に対応する。   First, at time (T = t1), a related term is extracted by the character string extraction processing 1110a from the text data 1 collected from a predetermined WEB page at this time, and the extracted related term is related to the related term dictionary (i -1). This character string extraction process 1110a corresponds to the character string extraction process 1110 described with reference to FIG.

次の、時間(T=t2)において、T=t1の場合と同様に、同じWEBページから収集されたテキストデータ2から、文字列抽出処理1110bによって関連詞が抽出され、抽出された関連詞が関連詞辞書(i)に記憶される。ここで、対象のWEBページにおいて話題や記載内容の変化があれば、抽出される関連詞もそれに応じて変化することになる。関連詞辞書(i)に関連詞が記憶されると(更新されると)、辞書比較処理1120aによって関連詞辞書(i−1)と関連詞辞書(i)の比較が行われ、関連詞の出現状況に応じて、例えば、新たに出現した新着関連詞等が比較結果データ1125に記憶される。また、比較処理が終わると、関連詞辞書(i)の内容が、関連詞辞書(i−1)にコピーされる。   At the next time (T = t2), as in the case of T = t1, a related phrase is extracted from the text data 2 collected from the same WEB page by the character string extraction process 1110b. It is stored in the related term dictionary (i). Here, if there is a change in the topic or description content in the target WEB page, the extracted related terminology also changes accordingly. When a related term is stored in the related term dictionary (i) (updated), the dictionary comparison process 1120a compares the related term dictionary (i-1) with the related term dictionary (i), and In accordance with the appearance status, for example, newly-arrived related words that have newly appeared are stored in the comparison result data 1125. When the comparison process is completed, the contents of the related term dictionary (i) are copied to the related term dictionary (i-1).

この辞書比較処理1120aは、図14を参照して説明した辞書比較処理1120に対応する。なお、この図では、辞書比較処理1120aが、T=t2のタイミングで行われているように記載されているが、関連詞辞書(i)が更新された後に行われるものである。   This dictionary comparison process 1120a corresponds to the dictionary comparison process 1120 described with reference to FIG. In this figure, the dictionary comparison processing 1120a is described as being performed at the timing of T = t2, but is performed after the related term dictionary (i) is updated.

次の、時間(T=t3)において、T=t1、t2の場合と同様に、同じWEBページから収集されたテキストデータ3から、文字列抽出処理1110cによって関連詞が抽出され、抽出された関連詞が関連詞辞書(i)に記憶される。ここで、対象のWEBページにおいて話題や記載内容の変化があれば、抽出される関連詞もそれに応じて変化することになる。関連詞辞書(i)に関連詞が記憶されると(更新されると)、辞書比較処理1120bによって関連詞辞書(i−1)と関連詞辞書(i)の比較が行われ、関連詞の出現状況に応じて、例えば、新たに出現した新着関連詞等が比較結果データ1125に記憶される。また、比較処理が終わると、関連詞辞書(i)の内容が、関連詞辞書(i−1)にコピー(待避)される。   At the next time (T = t3), as in the case of T = t1 and t2, a related term is extracted from the text data 3 collected from the same WEB page by the character string extraction processing 1110c, and the extracted relation The lyrics are stored in the related dictionary (i). Here, if there is a change in the topic or description content in the target WEB page, the extracted related terminology also changes accordingly. When a related term is stored in the related term dictionary (i) (updated), the dictionary comparison process 1120b compares the related term dictionary (i-1) with the related term dictionary (i), and In accordance with the appearance status, for example, newly-arrived related words that have newly appeared are stored in the comparison result data 1125. When the comparison process is completed, the contents of the related term dictionary (i) are copied (saved) to the related term dictionary (i-1).

以降、同様にこれらの文字列抽出処理(1110d、1110e)及び辞書比較処理(1120c、1120d)を繰り返して、比較結果データ1125が、関連詞辞書(i−1)と関連詞辞書(i)を比較した結果得られた関連詞により、各タイミング(T=t2〜t5)ごとに更新される。比較結果としての関連詞を最新のものだけ記憶するか累積的に記憶するかは、上述したように、適用する応用システム等の仕様による。   Thereafter, the character string extraction processing (1110d, 1110e) and the dictionary comparison processing (1120c, 1120d) are repeated in the same manner, so that the comparison result data 1125 includes the related term dictionary (i-1) and the related term dictionary (i). It is updated at each timing (T = t2 to t5) with the related term obtained as a result of the comparison. Whether only the latest related terms as comparison results are stored or cumulatively stored depends on the specifications of the applied system or the like as described above.

図16は、同じWEBページから時系列に収集された5つのテキストデータ(テキストデータ1〜5)から、文字列抽出処理1110によって、それぞれ異なるタイミングで関連詞が抽出され、抽出された関連詞が、それぞれ対応する関連詞辞書(i−1)、関連詞辞書(i)、または関連詞辞書(i+1)に記憶され、その後、関連詞辞書(i+1)が更新された場合に、関連詞辞書(i−1)、関連詞辞書(i)、関連詞辞書(i+1)とを対象として辞書比較処理1120が行われ、これらの処理が、時間(T=t1)から(T=t5)まで周期的に行われている例を示している(時間(T=t6)以降は省略した)。図15との相違は、関連詞辞書がサイクリックに3つ用いられている点である。   FIG. 16 shows that the related terms are extracted at different timings by the character string extraction processing 1110 from the five text data (text data 1 to 5) collected in time series from the same WEB page. Are stored in the corresponding related term dictionary (i-1), the related term dictionary (i), or the related term dictionary (i + 1), and then the related term dictionary (i + 1) is updated. Dictionary comparison processing 1120 is performed on i-1), the related term dictionary (i), and the related term dictionary (i + 1), and these processings are performed periodically from time (T = t1) to (T = t5). (The time after time (T = t6) is omitted). The difference from FIG. 15 is that three related terminology dictionaries are used cyclically.

最初に、時間(T=t1)において、この時点で所定のWEBページから収集されたテキストデータ1から、文字列抽出処理1110fによって関連詞が抽出され、抽出された関連詞が関連詞辞書(i−1)に記憶される。   First, at time (T = t1), a related term is extracted from text data 1 collected from a predetermined WEB page at this time by a character string extraction process 1110f, and the extracted related term is a related term dictionary (i -1).

次の、時間(T=t2)において、T=t1の場合と同様に、同じWEBページから収集されたテキストデータ2から、文字列抽出処理1110gによって関連詞が抽出され、抽出された関連詞が関連詞辞書(i)に記憶される。ここで、対象のWEBページにおいて話題や記載内容の変化があれば、抽出される関連詞もそれに応じて変化することになる。その後、時間(T=t3)において、T=t1、t2の場合と同様に、同じWEBページから収集されたテキストデータ3から、文字列抽出処理1110hによって関連詞が抽出され、抽出された関連詞が関連詞辞書(i+1)に記憶される。ここで、対象のWEBページにおいて話題や記載内容の変化があれば、抽出される関連詞もそれに応じて変化することになる。   At the next time (T = t2), as in the case of T = t1, a related term is extracted from the text data 2 collected from the same WEB page by the character string extraction processing 1110g. It is stored in the related term dictionary (i). Here, if there is a change in the topic or description content in the target WEB page, the extracted related terminology also changes accordingly. Thereafter, at time (T = t3), as in the case of T = t1 and t2, the related terms are extracted from the text data 3 collected from the same WEB page by the character string extraction processing 1110h, and the extracted related terms Is stored in the related term dictionary (i + 1). Here, if there is a change in the topic or description content in the target WEB page, the extracted related terminology also changes accordingly.

時間(T=t3)において、関連詞辞書(i+1)に関連詞が記憶されると(更新されると)、辞書比較処理1120fによって3つの関連詞辞書(関連詞辞書(i−1)、関連詞辞書(i)、関連詞辞書(i+1))の比較が行われ、関連詞の出現状況に応じて、関連詞等が比較結果データ1125に記憶される。この実施例では、3つの関連辞書に関する比較が行われるため、2つの関連詞辞書に関する変化に基づいて記憶する関連詞として、例えば、新たに出現した新着関連詞や消滅した消滅関連詞のほか、3つの関連詞辞書に亘る変化に基づいて記憶すべきと判定される関連詞もある。例えば、関連詞辞書(i)において一旦消滅して、関連詞辞書(i+1)において再度出現した復活関連詞などである。その他、関連詞辞書において関連詞の出現頻度を記憶していることが条件となるが、短期間のうちに(3つの関連詞辞書において)急激に出現頻度が高まった関連詞、(3つの関連詞辞書において)出現頻度が激減した関連詞、(3つの関連詞辞書において)出現頻度が再び高くなった関連詞、他の関連詞の出現頻度が変化するなかで一定範囲の出現頻度を維持する関連詞などを把握することも可能である。   When a related term is stored (updated) in the related term dictionary (i + 1) at time (T = t3), three related term dictionaries (related term dictionary (i-1), related) are compared by the dictionary comparison process 1120f. The dictionary of words (i) and the dictionary of related words (i + 1) are compared, and the related words are stored in the comparison result data 1125 according to the appearance status of the related words. In this embodiment, comparisons are made with respect to three related dictionaries, so as related words to be stored based on changes related to the two related word dictionaries, for example, newly appearing related words and disappearing related words, Some related terms are determined to be stored based on changes across the three related term dictionary. For example, it is a resurrection related verb that once disappeared in the related term dictionary (i) and reappears in the related term dictionary (i + 1). In addition, it is a condition that the frequency of appearance of the related term is memorized in the related term dictionary, but the related term that has rapidly increased in the short term (in the three related term dictionary), Maintains a certain range of appearance frequency as the frequency of appearance of related verbs (in the dictionary dictionary), related verbs in the frequency of appearance again (in the three related terminology dictionaries), and changes in the frequency of appearance of other related terms It is also possible to grasp related terms.

辞書比較処理1120fにおいて、比較処理が終わると、関連詞辞書(i)の内容が、関連詞辞書(i−1)にコピーされるとともに、関連詞辞書(i+1)の内容が、関連詞辞書(i)にコピーされる。なお、この図では、辞書比較処理1120fが、T=t3のタイミングで行われているように記載されているが、関連詞辞書(i−1)、及び関連詞辞書(i)が更新された後に行われるものである。   In the dictionary comparison process 1120f, when the comparison process is completed, the contents of the related term dictionary (i) are copied to the related term dictionary (i-1), and the contents of the related term dictionary (i + 1) are copied to the related term dictionary (i). i) is copied. In this figure, the dictionary comparison process 1120f is described as being performed at the timing of T = t3, but the related term dictionary (i-1) and the related term dictionary (i) are updated. It will be done later.

次の、時間(T=t4)において、T=t1〜t3の場合と同様に、同じWEBページから収集されたテキストデータ4から、文字列抽出処理1110iによって関連詞が抽出され、抽出された関連詞が関連詞辞書(i+1)に記憶される。ここで、対象のWEBページにおいて話題や記載内容の変化があれば、抽出される関連詞もそれに応じて変化することになる。関連詞辞書(i+1)に関連詞が記憶されると(更新されると)、辞書比較処理1120gによって3つの関連詞辞書(関連詞辞書(i−1)、関連詞辞書(i)、関連詞辞書(i+1))の比較が行われ、関連詞の出現状況に応じて、関連詞等が比較結果データ1125に記憶される。また、比較処理が終わると、関連詞辞書(i)の内容が、関連詞辞書(i−1)にコピーされるとともに、関連詞辞書(i+1)の内容が、関連詞辞書(i)にコピーされる。   At the next time (T = t4), as in the case of T = t1 to t3, a related term is extracted from the text data 4 collected from the same WEB page by the character string extraction processing 1110i, and the extracted relation The lyrics are stored in the related dictionary (i + 1). Here, if there is a change in the topic or description content in the target WEB page, the extracted related terminology also changes accordingly. When a related term is stored in the related term dictionary (i + 1) (updated), three related term dictionaries (the related term dictionary (i-1), the related term dictionary (i), the related terminology) are processed by the dictionary comparison process 1120g. Dictionary (i + 1)) is compared, and related terms are stored in the comparison result data 1125 according to the appearance status of related terms. When the comparison process is completed, the contents of the related term dictionary (i) are copied to the related term dictionary (i-1), and the contents of the related term dictionary (i + 1) are copied to the related term dictionary (i). Is done.

以降、同様にこれらの文字列抽出処理1110j及び辞書比較処理1120hを繰り返して、比較結果データ1125が、関連詞辞書(i−1)、関連詞辞書(i)、関連詞辞書(i+1)を比較した結果得られた関連詞により、各タイミング(T=t3〜t5)ごとに更新される。比較結果としての関連詞を最新のものだけ記憶するか累積的に記憶するかは、上述したように、適用する応用システム等の仕様による。   Thereafter, the character string extraction processing 1110j and the dictionary comparison processing 1120h are similarly repeated, and the comparison result data 1125 compares the related term dictionary (i-1), the related term dictionary (i), and the related term dictionary (i + 1). It is updated at each timing (T = t3 to t5) with the related term obtained as a result. Whether only the latest related terms as comparison results are stored or cumulatively stored depends on the specifications of the applied system or the like as described above.

なお、図15の実施例では2つの関連詞辞書を、図16の実施例では3つの関連詞辞書を(サイクリックに)用いて比較結果データ1125を記憶・更新しているが、これ以上の関連詞辞書を用いて辞書比較処理を行ってもよい。これによって、より多くのタイミングにおける関連詞の出現状況を把握することができ、この出現状況が所定条件を満たす場合に、当該関連詞を比較結果データ1125に記憶することができる。   The comparison result data 1125 is stored / updated using two related terminology dictionaries in the embodiment of FIG. 15 and three related terminology dictionaries (cyclically) in the example of FIG. You may perform a dictionary comparison process using a related term dictionary. As a result, the appearance status of the related term at more timings can be grasped, and when the appearance status satisfies a predetermined condition, the related term can be stored in the comparison result data 1125.

図17は、異なるWEBページ(異なる主題に関するWEBページ)から同タイミングで収集された3つのテキストデータ(テキストデータA〜C)から、文字列抽出処理1110によって関連詞が抽出され、抽出された関連詞が、それぞれ対応する関連詞辞書A、関連詞辞書B、または関連詞辞書Cに記憶され、その後、これらの3つの関連詞辞書を対象として辞書比較処理1120が行われ、これらの処理が、時間(T=t1)から(T=t3)まで周期的に行われている例を示している(時間(T=t4)以降は省略した)。   FIG. 17 shows the relations extracted from the three text data (text data A to C) collected at the same timing from different WEB pages (WEB pages related to different subjects) by the character string extraction processing 1110. The lyrics are stored in the corresponding related term dictionary A, related term dictionary B, or related term dictionary C, respectively, and then a dictionary comparison process 1120 is performed for these three related term dictionaries. An example in which the period is periodically performed from time (T = t1) to (T = t3) is shown (the time (T = t4) and thereafter are omitted).

最初に、時間(T=t1)において、この時点で所定の異なるWEBページからそれぞれ収集された3つのテキストデータ(テキストデータA〜C)から、文字列抽出処理1110k、文字列抽出処理1110m、文字列抽出処理1110nによって関連詞が抽出され、抽出された関連詞がそれぞれ、関連詞辞書A、関連詞辞書B、関連詞辞書Cに記憶される。   First, at time (T = t1), character string extraction processing 1110k, character string extraction processing 1110m, character from three text data (text data A to C) respectively collected from predetermined different WEB pages at this time The related terminology is extracted by the column extraction process 1110n, and the extracted related terms are stored in the related term dictionary A, the related term dictionary B, and the related term dictionary C, respectively.

その後、辞書比較処理1120kによって3つの関連詞辞書(関連詞辞書A、関連詞辞書B、関連詞辞書C)の比較が行われ、関連詞の出現状況に応じて、関連詞等が比較結果データ1125に記憶される。この実施例では、例えば、3つの関連詞辞書に共通して存在する関連詞が比較結果データ1125に記憶される。この場合、テキストデータA〜Cは、それぞれ異なる主題に関するWEBページから収集されたテキストデータであり、異なる関連詞よりも、3つの関連詞辞書に共通する関連詞(共通関連詞)に着目したほうが、共通の話題を発見することが可能となり、その点で意味のある場合が多い。   After that, the dictionary comparison process 1120k compares the three related terminology dictionaries (related term dictionary A, related term dictionary B, and related term dictionary C), and the related term etc. is compared with the comparison result data according to the appearance status of the related term. 1125 is stored. In this embodiment, for example, related terms existing in common in three related terms dictionaries are stored in the comparison result data 1125. In this case, the text data A to C are text data collected from WEB pages related to different subjects, and it is better to focus on related terms (common related terms) common to the three related terms dictionaries rather than different related terms. It becomes possible to discover a common topic, and it is often meaningful in that respect.

また、関連詞辞書Aにおいて共通関連詞とともに記憶されている他の関連詞(共起関連詞)、関連詞辞書Bにおいて共通関連詞とともに記憶されている他の関連詞(共起関連詞)、及び関連詞辞書Cにおいて共通関連詞とともに記憶されている他の関連詞(共起関連詞)との間に共通性があるか否かをさらに比較して、当該共通性に関する情報を比較結果データ1125に記憶することができる。   In addition, other related terms (co-occurrence related terms) stored together with the common related term in the related term dictionary A, other related terms (co-occurrence related terms) stored together with the common related term in the related term dictionary B, And other related terms (co-occurrence related terms) stored together with the common related term in the related term dictionary C, and further comparing the information on the commonality with the comparison result data. 1125 can be stored.

さらに、上記のような共起関連詞を比較する場合に、それらの共起関連詞に関連付けられたランクを考慮して共通性に関する情報を判定してもよい。例えば、ランクの高い(それらの関連詞で示される話題にとって重要性が高い)共起関連詞が、3つの関連詞辞書において共通する場合、共通関連詞の共通性はより高く評価されうる。   Further, when comparing the co-occurrence related terms as described above, information on the commonality may be determined in consideration of the ranks associated with the co-occurrence related terms. For example, if co-occurrence related terms with high rank (high importance for the topic indicated by those related terms) are common in the three related term dictionaries, the commonness of the common related terms can be evaluated more highly.

このような、時間(T=t1)における3つの関連詞辞書の比較を、時間(T=t2)において繰り返し行うことができる。このような処理を行うことにより、比較結果データ1125を時系列に更新することができる。   Such comparison of the three related term dictionaries at time (T = t1) can be repeatedly performed at time (T = t2). By performing such processing, the comparison result data 1125 can be updated in time series.

時間(T=t2)において、時間(T=t1)と同様に、この時点で所定の異なるWEBページからそれぞれ収集された3つのテキストデータ(テキストデータA’〜C’)から、文字列抽出処理1110k’、文字列抽出処理1110m’、文字列抽出処理1110n’によって関連詞が抽出され、抽出された関連詞がそれぞれ、関連詞辞書A’、関連詞辞書B’、関連詞辞書C’に記憶される。この実施例では、テキストデータA’は、テキストデータAと同じWEBページ、または同じ主題のWEBページを想定している。同様に、テキストデータB’は、テキストデータBと同じWEBページ、または同じ主題のWEBページであり、テキストデータC’は、テキストデータCと同じWEBページ、または同じ主題のWEBページである。   At time (T = t2), similarly to time (T = t1), character string extraction processing is performed from three text data (text data A ′ to C ′) respectively collected from predetermined different WEB pages at this time. 1110k ′, character string extraction processing 1110m ′, and character string extraction processing 1110n ′ extract related terms, and the extracted related terms are stored in the related term dictionary A ′, the related term dictionary B ′, and the related term dictionary C ′, respectively. Is done. In this embodiment, the text data A 'is assumed to be the same WEB page as the text data A or the same subject WEB page. Similarly, the text data B 'is the same WEB page as the text data B or the same WEB page, and the text data C' is the same WEB page as the text data C or the same WEB page.

その後、辞書比較処理1120k’によって3つの関連詞辞書(関連詞辞書A’、関連詞辞書B’、関連詞辞書C’)の比較が行われ、関連詞の出現状況に応じて、関連詞等が比較結果データ1125に記憶される。この実施例では、例えば、3つの関連詞辞書に共通して存在する関連詞が比較結果データ1125に記憶される。   After that, the dictionary comparison process 1120k ′ compares three related terminology dictionaries (related term dictionary A ′, related term dictionary B ′, and related term dictionary C ′), and the related terms etc. Is stored in the comparison result data 1125. In this embodiment, for example, related terms existing in common in three related terms dictionaries are stored in the comparison result data 1125.

さらに、時間(T=t3)において、時間(T=t1、t2)と同様に、この時点で所定の異なるWEBページからそれぞれ収集された3つのテキストデータ(テキストデータA’’〜C’’)から、文字列抽出処理1110k’’、文字列抽出処理1110m’’、文字列抽出処理1110n’’によって関連詞が抽出され、抽出された関連詞がそれぞれ、関連詞辞書A’’、関連詞辞書B’’、関連詞辞書C’’に記憶される。この実施例では、テキストデータA’’は、テキストデータA、テキストデータA’と同じWEBページ、または同じ主題のWEBページを想定している。同様に、テキストデータB’’は、テキストデータB、テキストデータB’と同じWEBページ、または同じ主題のWEBページであり、テキストデータC’’は、テキストデータC、テキストデータC’と同じWEBページ、または同じ主題のWEBページである。   Furthermore, at time (T = t3), as with time (T = t1, t2), three text data (text data A ″ to C ″) respectively collected from predetermined different WEB pages at this time. Are extracted by the character string extraction process 1110k ″, the character string extraction process 1110m ″, and the character string extraction process 1110n ″, and the extracted related verbs are the related term dictionary A ″ and the related term dictionary, respectively. B ″ is stored in the related term dictionary C ″. In this embodiment, the text data A ″ is assumed to be the same WEB page as the text data A, the text data A ′, or the same subject WEB page. Similarly, the text data B ″ is the same WEB page as the text data B and text data B ′ or the WEB page of the same subject, and the text data C ″ is the same WEB as the text data C and text data C ′. Page, or WEB page of the same subject.

その後、辞書比較処理1120k’’によって3つの関連詞辞書(関連詞辞書A’’、関連詞辞書B’’、関連詞辞書C’’)の比較が行われ、関連詞の出現状況に応じて、関連詞等が比較結果データ1125に記憶される。この実施例では、例えば、3つの関連詞辞書に共通して存在する関連詞が比較結果データ1125に記憶される。   Thereafter, the three comparison terms dictionaries (related term dictionary A ″, related term dictionary B ″, and related term dictionary C ″) are compared by the dictionary comparison process 1120 k ″, and according to the appearance status of the related terms. , Related terms and the like are stored in the comparison result data 1125. In this embodiment, for example, related terms existing in common in three related terms dictionaries are stored in the comparison result data 1125.

なお、図17の実施例では、同じタイミングで、異なるWEBページ(異なる主題に関するWEBページ)から収集された3つのテキストデータに基づいて関連詞の抽出を行ったが、2つのテキストデータからそれぞれ関連詞の抽出を行ってもよいし、4つ以上のテキストデータからそれぞれ関連詞の抽出を行ってもよい。   In the example of FIG. 17, related terms are extracted based on three text data collected from different WEB pages (WEB pages related to different subjects) at the same timing. Extraction of the lyrics may be performed, or the related lyrics may be extracted from four or more text data.

<<本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理の詳細な説明>>
次に、図18を参照して、図16に示した文字列抽出処理1110と辞書比較処理1120の例をより詳細に説明する。図18は、3つのテキストデータ(テキストデータ1〜3)に対してそれぞれ文字列抽出処理(1110f、1110g、1110h)が行われ、対応する関連詞辞書(i−1)、関連詞辞書(i)、関連詞辞書(i+1)に対して、辞書比較処理1120fが行われるところを示している。
<< Detailed Description of Character String Extraction Processing and Dictionary Comparison Processing of Information Updating Device According to One Embodiment of the Present Invention >>
Next, an example of the character string extraction process 1110 and the dictionary comparison process 1120 shown in FIG. 16 will be described in more detail with reference to FIG. In FIG. 18, character string extraction processing (1110f, 1110g, 1110h) is performed on three text data (text data 1 to 3), respectively, and the corresponding related term dictionary (i-1) and related term dictionary (i ), A dictionary comparison process 1120f is performed on the related term dictionary (i + 1).

この実施例では、3つのテキストデータは、共通の主題「株の取引」に関連する同じWEBページから収集されたものである。例えば、WEB検索により、検索キーワード「株の取引」を入力し、その結果得られた3つのWEBページを1つのテキストデータとして扱う。図18では、テキストデータ1は、時間(T=t1)における、第1のWEBページから得られたテキストデータ1−1、第2のWEBページから得られたテキストデータ1−2、第3のWEBページから得られたテキストデータ1−3を含む。同様に、テキストデータ2は、時間(T=t2)における、第1のWEBページから得られたテキストデータ2−1、第2のWEBページから得られたテキストデータ2−2、第3のWEBページから得られたテキストデータ2−3を含み、テキストデータ3は、時間(T=t3)における、第1のWEBページから得られたテキストデータ3−1、第2のWEBページから得られたテキストデータ3−2、第3のWEBページから得られたテキストデータ3−3を含む。ここで、第1のWEBページのURLはすべて同じであり、第2のWEBページのURLはすべて同じであり、第3のWEBページのURLはすべて同じである。   In this example, the three text data were collected from the same WEB page related to the common subject “stock trading”. For example, a search keyword “stock transaction” is input by WEB search, and three WEB pages obtained as a result are handled as one text data. In FIG. 18, the text data 1 includes text data 1-1 obtained from the first WEB page, text data 1-2 obtained from the second WEB page, and third data at time (T = t1). The text data 1-3 obtained from the WEB page is included. Similarly, the text data 2 includes text data 2-1 obtained from the first WEB page, text data 2-2 obtained from the second WEB page, and third WEB at time (T = t2). The text data 3 is obtained from the second WEB page, the text data 3-1 obtained from the first WEB page at time (T = t3), including the text data 2-3 obtained from the page. Text data 3-2 and text data 3-3 obtained from the third WEB page are included. Here, the URLs of the first WEB page are all the same, the URLs of the second WEB page are all the same, and the URLs of the third WEB page are all the same.

文字列抽出処理1110fは、時間(T=t1)において、テキストデータ1から所定の方法により関連詞を抽出し、関連詞辞書(i−1)に記憶する。この実施例では、関連詞が4つ抽出され、それぞれをランクの順に配列して、1レコードとし関連詞辞書(i−1)に格納する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「○社」、「△銀行」、「申込みは」、「口座」である。形態素解析等では、意味を持つ最小の単位(形態素)に分解して文字列を把握するが、他の方法では、形態素より大きな単位(例えば、文や文の一部)が関連詞として抽出されうる。上述の「申込みは」といった、名詞と助詞からなる文字列も関連詞として抽出されている。   The character string extraction process 1110f extracts a related term from the text data 1 by a predetermined method at time (T = t1), and stores it in the related term dictionary (i-1). In this embodiment, four related terms are extracted, and each is arranged in order of rank and stored as one record in the related term dictionary (i-1). The ranking of related terms can be determined based on, for example, the appearance frequency. The extracted four related terms (related terms 1 to 4) are “○ company”, “△ bank”, “application” and “account” in order of rank. In morphological analysis, etc., the character string is ascertained by dividing it into the smallest meaningful unit (morpheme), but in other methods, a unit larger than the morpheme (eg sentence or part of sentence) is extracted as a related term sell. A character string composed of a noun and a particle, such as the above-mentioned “Application”, is also extracted as a related particle.

また、この実施例では、それぞれのテキストデータに関して4つの関連詞が抽出されるようになっているが、これは説明の便宜のためのものである(以降の実施例も同様である)。実際には、関連詞がいくつ抽出されてもよく、テキストデータによってその数が異なる。文字列抽出処理において、一定の判定基準において閾値を超えた場合に文字列が関連詞として決定される場合は、その判定に応じて抽出される関連詞の数が変わってくる。また、抽出する関連詞の数を固定数とすることもできるし、テキストデータの文字数等に応じて設定するようにもできる。   In this embodiment, four related terms are extracted for each text data, but this is for convenience of explanation (the same applies to the following embodiments). Actually, any number of related terms may be extracted, and the number varies depending on the text data. In the character string extraction process, when a character string is determined as a related term when a threshold is exceeded according to a certain criterion, the number of related terms extracted is changed according to the determination. Also, the number of related terms to be extracted can be fixed, or can be set according to the number of characters of text data.

文字列抽出処理1110gは、時間(T=t2)において、テキストデータ2から所定の方法により関連詞を抽出し、関連詞辞書(i)に記憶する。この実施例では、関連詞が4つ抽出され、それぞれをランクの順に配列して、1レコードとし関連詞辞書(i)に格納する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「税率」、「○社」、「△銀行」、「申込みは」である。   The character string extraction process 1110g extracts a related term from the text data 2 by a predetermined method at time (T = t2) and stores it in the related term dictionary (i). In this embodiment, four related terms are extracted, and each is arranged in order of rank and stored as one record in the related term dictionary (i). The ranking of related terms can be determined based on, for example, the appearance frequency. The extracted four related terms (related terms 1 to 4) are “tax rate”, “○ company”, “△ bank”, and “application” in order of rank.

同様に、文字列抽出処理1110hは、時間(T=t3)において、テキストデータ3から所定の方法により関連詞を抽出し、関連詞辞書(i+1)に記憶する。この実施例では、関連詞が4つ抽出され、それぞれをランクの順に配列して、1レコードとし関連詞辞書(i+1)に格納する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「○社」、「口座」、「△銀行」、「申込みは」である。   Similarly, the character string extraction process 1110h extracts a related term from the text data 3 by a predetermined method at time (T = t3) and stores it in the related term dictionary (i + 1). In this embodiment, four related terms are extracted, and each is arranged in order of rank, and is stored as one record in the related term dictionary (i + 1). The ranking of related terms can be determined based on, for example, the appearance frequency. The four extracted related terms (related terms 1 to 4) are “○ company”, “account”, “△ bank”, and “application” in the rank order.

次に、関連詞辞書(i−1)、関連詞辞書(i)、関連詞辞書(i+1)に対して、辞書比較処理1120fが行われる。この実施例では、辞書比較処理1120fは、新たに出現した関連詞(新着関連詞)、消滅した関連詞(消滅関連詞)、及び再度出現した関連詞(復活関連詞)を検出し、これらを比較結果データ1125に記憶するものとする。   Next, dictionary comparison processing 1120f is performed on the related term dictionary (i-1), the related term dictionary (i), and the related term dictionary (i + 1). In this embodiment, the dictionary comparison process 1120f detects newly appearing related terms (new arrival related terms), disappeared related terms (disappearing related terms), and again appearing related terms (resurrection related terms). It is assumed that the comparison result data 1125 is stored.

例えば、関連詞辞書(i−1)と関連詞辞書(i)を比較すると、関連詞辞書(i)で、関連詞「税率」が新たに出現しており、さらに、関連詞「口座」が消滅している。そこで、比較結果データ1125には、図19のレコード1125aに示すように、関連詞「税率」「口座」が記憶される。また、比較結果データ1125には、これらの関連詞とともに、出現状況を表すデータ(この実施例では、新たに出現した関連詞の場合「新着」、消滅した関連詞の場合「消滅」)が同じレコードに記憶される。さらに、この実施例では、当該出現状況となったタイミングを示すために、関連詞辞書を識別する「話題名」のデータが記憶される。各関連詞辞書は、話題名や日付けと対応付けられ、関連詞辞書(i)は、ここでは「2013年10月10日、t2における「株の取引」の話題」といった話題名に対応付けられている。   For example, when the related term dictionary (i-1) and the related term dictionary (i) are compared, the related term “tax rate” has newly appeared in the related term dictionary (i). It has disappeared. Therefore, as shown in the record 1125a in FIG. 19, the relative result “tax rate” and “account” are stored in the comparison result data 1125. Further, the comparison result data 1125 has the same data indicating the appearance status (in this embodiment, “new arrival” for a newly appearing related term and “annihilation” for a disappearing related term in this example). Stored in the record. Furthermore, in this embodiment, “topic name” data for identifying a related term dictionary is stored in order to indicate the timing at which the appearance situation is reached. Each related term dictionary is associated with a topic name and date, and the related term dictionary (i) is associated with a topic name such as “topic of“ stock trading ”on October 10, 2013, t2”. It has been.

次に、関連詞辞書(i)と関連詞辞書(i+1)を比較すると、関連詞辞書(i+1)で、関連詞「税率」が消滅しており、さらに、関連詞「口座」が復活している(関連詞辞書(i−1)に存在し、関連詞辞書(i)で消滅していた)。そこで、比較結果データ1125には、図19のレコード1125bに示すように、関連詞「口座」「税率」が記憶される。また、比較結果データ1125には、これらの関連詞とともに、出現状況を表すデータ(この実施例では、再度出現した(復活した)関連詞の場合「復活」、消滅した関連詞の場合「消滅」)が同じレコードに記憶される。さらに、この実施例では、当該出現状況となったタイミングを示すために、関連詞辞書を識別する「話題名」のデータが記憶される。各関連詞辞書は、話題名や日付けと対応付けられ、関連詞辞書(i+1)は、ここでは「2013年10月10日、t3における「株の取引」の話題」といった話題名に対応付けられている。   Next, when the related term dictionary (i) and the related term dictionary (i + 1) are compared, the related term “tax rate” disappears in the related term dictionary (i + 1), and the related term “account” is restored. (It exists in the related term dictionary (i-1) and disappears in the related term dictionary (i)). Accordingly, as shown in the record 1125b in FIG. 19, the relative result “account” and “tax rate” are stored in the comparison result data 1125. The comparison result data 1125 includes data indicating the appearance status together with these related terms (in this example, “resurrection” in the case of related terms that reappeared (resurrected), and “disappear” in the case of related terms that have disappeared). ) Is stored in the same record. Furthermore, in this embodiment, “topic name” data for identifying a related term dictionary is stored in order to indicate the timing at which the appearance situation is reached. Each related term dictionary is associated with a topic name and date, and the related term dictionary (i + 1) is associated with a topic name such as “topic of“ stock trading ”on October 10, 2013 at t3”. It has been.

次に、図20を参照して、図17に示した文字列抽出処理1110と辞書比較処理1120の例をより詳細に説明する。図20は、時間(T=t1)において、3つのテキストデータ(テキストデータA〜C)に対してそれぞれ文字列抽出処理(1110k、1110m、1110n)が行われ、対応する関連詞辞書A、関連詞辞書B、関連詞辞書Cに対して、辞書比較処理1120kが行われるところを示している。   Next, an example of the character string extraction process 1110 and the dictionary comparison process 1120 shown in FIG. 17 will be described in more detail with reference to FIG. In FIG. 20, character string extraction processing (1110k, 1110m, 1110n) is performed on three text data (text data A to C) at time (T = t1), and the corresponding related term dictionary A and related A dictionary comparison process 1120k is performed for the lyrics dictionary B and the related dictionary dictionary C.

この実施例では、3つのテキストデータは、同じ時間(T=t1)において、異なる主題に関連するWEBページから収集されたものである。すなわち、テキストデータAは、「A社の技術」を主題としたWEBページに基づくものであり、テキストデータBは、「B社の技術」を主題としたWEBページに基づくものであり、テキストデータCは、「AI(人工知能)関連技術」を主題としたWEBページに基づくものである。   In this example, the three text data were collected from WEB pages related to different subjects at the same time (T = t1). That is, the text data A is based on a WEB page whose theme is “Technology of Company A”, and the text data B is based on a WEB page whose theme is “Technology of Company B”. C is based on a WEB page whose theme is “AI (artificial intelligence) related technology”.

例えば、テキストデータAに関しては、WEB検索により、検索キーワード「A社の技術」を入力し、その結果得られた3つのWEBページを1つのテキストデータとして扱う。同様に、テキストデータBに関しては、WEB検索により、検索キーワード「B社の技術」を入力し、その結果得られた3つのWEBページを1つのテキストデータとして扱い、テキストデータCに関しては、WEB検索により、検索キーワード「AI(人工知能)関連技術」を入力し、その結果得られた3つのWEBページを1つのテキストデータとして扱う。   For example, regarding the text data A, a search keyword “Technology of Company A” is input by WEB search, and three WEB pages obtained as a result are handled as one text data. Similarly, for the text data B, the search keyword “Technology of company B” is input by WEB search, and the resulting three WEB pages are treated as one text data. For text data C, the WEB search is performed. Thus, the search keyword “AI (artificial intelligence) related technology” is input, and the three WEB pages obtained as a result are handled as one text data.

図20では、テキストデータ1は、主題「A社の技術」に関連した、第1のWEBページから得られたテキストデータA−1、第2のWEBページから得られたテキストデータA−2、第3のWEBページから得られたテキストデータA−3を含む。同様に、テキストデータ2は、主題「B社の技術」に関連した、第1のWEBページから得られたテキストデータB−1、第2のWEBページから得られたテキストデータB−2、第3のWEBページから得られたテキストデータB−3を含み、テキストデータ3は、主題「AI(人工知能)関連技術」に関連した、第1のWEBページから得られたテキストデータC−1、第2のWEBページから得られたテキストデータC−2、第3のWEBページから得られたテキストデータC−3を含む。   In FIG. 20, the text data 1 is related to the subject “Technology of Company A”, the text data A-1 obtained from the first WEB page, the text data A-2 obtained from the second WEB page, The text data A-3 obtained from the third WEB page is included. Similarly, the text data 2 includes text data B-1 obtained from the first WEB page, text data B-2 obtained from the second WEB page, Text data B-3 obtained from three WEB pages, the text data 3 including text data C-1 obtained from the first WEB page related to the subject “AI (Artificial Intelligence) related technology”, It includes text data C-2 obtained from the second WEB page and text data C-3 obtained from the third WEB page.

文字列抽出処理1110kは、テキストデータAから所定の方法により関連詞を抽出し、関連詞辞書Aに記憶する。この実施例では、関連詞が4つ抽出され、それぞれをランクの順に配列して、1レコードとし関連詞辞書Aに格納する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「A社」、「音声」、「音声認識」、「営業」となっている。   The character string extraction process 1110k extracts a related term from the text data A by a predetermined method and stores it in the related term dictionary A. In this embodiment, four related terms are extracted, and each is arranged in order of rank and stored as one record in the related term dictionary A. The ranking of related terms can be determined based on, for example, the appearance frequency. The extracted four related terms (related terms 1 to 4) are “Company A”, “Voice”, “Voice Recognition”, and “Sales” in order of rank.

文字列抽出処理1110mは、テキストデータBから所定の方法により関連詞を抽出し、関連詞辞書Bに記憶する。この実施例では、関連詞が4つ抽出され、それぞれをランクの順に配列して、1レコードとし関連詞辞書Bに格納する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「音声」、「研究開発」、「B社の業績」、「音声認識」となっている。   The character string extraction process 1110m extracts a related term from the text data B by a predetermined method and stores it in the related term dictionary B. In this embodiment, four related terms are extracted, and each is arranged in order of rank and stored in the related term dictionary B as one record. The ranking of related terms can be determined based on, for example, the appearance frequency. The extracted four related terms (related terms 1 to 4) are “voice”, “research and development”, “business achievements of company B”, and “voice recognition” in order of rank.

同様に、文字列抽出処理1110nは、テキストデータCから所定の方法により関連詞を抽出し、関連詞辞書Cに記憶する。この実施例では、関連詞が4つ抽出され、それぞれをランクの順に配列して、1レコードとし関連詞辞書Cに格納する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「AI」、「ロボット」、「音声認識」、「エージェント」となっている。   Similarly, the character string extraction process 1110n extracts a related term from the text data C by a predetermined method and stores it in the related term dictionary C. In this embodiment, four related terms are extracted, and each is arranged in order of rank and stored as one record in the related term dictionary C. The ranking of related terms can be determined based on, for example, the appearance frequency. The extracted four related terms (related terms 1 to 4) are “AI”, “robot”, “voice recognition”, and “agent” in order of rank.

次に、関連詞辞書A、関連詞辞書B、関連詞辞書Cに対して、辞書比較処理1120kが行われる。この実施例では、辞書比較処理1120kは、3つの辞書に共通する関連詞(共通関連詞)を検出し、これらを比較結果データ1125に記憶するものとする。   Next, a dictionary comparison process 1120k is performed on the related term dictionary A, the related term dictionary B, and the related term dictionary C. In this embodiment, the dictionary comparison process 1120k detects related terms common to the three dictionaries (common related terms) and stores them in the comparison result data 1125.

関連詞辞書A、関連詞辞書B、関連詞辞書Cを比較すると、それぞれ上述した関連詞を記憶しており、共通関連詞として「音声認識」が存在することが認められる。そこで、この「音声認識」を比較結果データ1125に記憶する。   When the related term dictionary A, the related term dictionary B, and the related term dictionary C are compared, it is recognized that the above-mentioned related terms are stored, and “speech recognition” exists as a common related term. Therefore, this “voice recognition” is stored in the comparison result data 1125.

このような共通関連詞を把握することにより、企業間関連情報の分析を効果的に実現することができる。例えば、A社の技術に関する記述で多く用いられている関連詞をテキストデータAに基づく文字列抽出処理1110kにより抽出し、B社の技術に関する記述で多く用いられている関連詞をテキストデータBに基づく文字列抽出処理1110mにより抽出し、AI(人工知能)関連技術に関する記述で多く用いられている関連詞をテキストデータCに基づく文字列抽出処理1110nにより抽出することによって、A社とB社とが、どのようなAI関連技術で共通性を有している可能性があるかを、客観的に把握することができる。   By grasping such common related terms, it is possible to effectively realize analysis of related information between companies. For example, a related terminology frequently used in the description about the technology of company A is extracted by the character string extraction process 1110k based on the text data A, and a related terminology frequently used in the description about the technology of company B is extracted into the text data B. A and B companies are extracted by a character string extraction process 1110m based on text data C, and extracted by a character string extraction process 1110n based on text data C. However, it is possible to objectively understand what AI-related technologies may have commonality.

なお、図20に示す実施例では、同じ時間(T=t1)において、異なる主題に関連するWEBページから収集されたテキストデータに基づく関連詞辞書を比較するものであり、WEBページは、それぞれは意図的なWEB検索により収集されたものであるが、まったく偶然に集められたWEBページからそれぞれ得られた関連詞辞書を比較した結果、偶然にも共通の関連詞が見いだされるといったケースも考えられる。   In the embodiment shown in FIG. 20, at the same time (T = t1), the related terminology dictionaries based on the text data collected from the WEB pages related to different subjects are compared. Although it was collected by intentional WEB search, as a result of comparing the related terminology dictionaries obtained from WEB pages collected by chance, there may be cases where common related terms are found by chance. .

次に、図21を参照して、本発明の一実施形態に係る情報更新装置における文字列抽出処理1110と辞書比較処理1120の他の実施例を説明する。図21は、図18に示した文字列抽出処理1110と辞書比較処理1120の変形例を示すものである。図21には、2つのテキストデータ(テキストデータ1、テキストデータ2)に対してそれぞれ文字列抽出処理1110が行われ、対応する関連詞辞書(i−1)、関連詞辞書(i)に対して、辞書比較処理1120が行われるところを示している。図18に示す、テキストデータ3に関する処理については表示を省略した。   Next, another example of character string extraction processing 1110 and dictionary comparison processing 1120 in the information updating apparatus according to an embodiment of the present invention will be described with reference to FIG. FIG. 21 shows a modification of the character string extraction process 1110 and the dictionary comparison process 1120 shown in FIG. In FIG. 21, character string extraction processing 1110 is performed for two text data (text data 1 and text data 2), and the corresponding related term dictionary (i-1) and related term dictionary (i) are processed. In this manner, the dictionary comparison process 1120 is performed. The display related to the text data 3 shown in FIG. 18 is omitted.

この実施例では、2つのテキストデータは、共通の主題「株の取引」に関連する同じWEBページから収集されたものである。例えば、WEB検索により、検索キーワード「株の取引」を入力し、その結果得られた3つのWEBページを1つのテキストデータとするが、関連詞は、WEBページの単位ごとに抽出する。これによって、関連詞が、WEBページごとに管理されるが、3つのWEBページに基づくテキストデータを3つ用意し、そのテキストデータごとに関連詞が抽出されるようにしてもよい。ここでは、関連詞が、複数のテキストデータから抽出されていることが重要である。   In this example, the two text data were collected from the same WEB page associated with the common subject "stock trading". For example, a search keyword “stock transaction” is input by WEB search, and three WEB pages obtained as a result are set as one text data, but related terms are extracted for each WEB page unit. As a result, related terms are managed for each WEB page, but three text data based on three WEB pages may be prepared, and related terms may be extracted for each text data. Here, it is important that the related terms are extracted from a plurality of text data.

図21では、テキストデータ1は、時間(T=t1)における、第1のWEBページから得られたテキストデータ1−1、第2のWEBページから得られたテキストデータ1−2、第3のWEBページから得られたテキストデータ1−3を含む。同様に、テキストデータ2は、時間(T=t2)における、第1のWEBページから得られたテキストデータ2−1、第2のWEBページから得られたテキストデータ2−2、第3のWEBページから得られたテキストデータ2−3を含む。ここで、第1のWEBページのURLはすべて同じであり、第2のWEBページのURLはすべて同じであり、第3のWEBページのURLはすべて同じである。   In FIG. 21, text data 1 includes text data 1-1 obtained from the first WEB page, text data 1-2 obtained from the second WEB page, and third data at time (T = t1). The text data 1-3 obtained from the WEB page is included. Similarly, the text data 2 includes text data 2-1 obtained from the first WEB page, text data 2-2 obtained from the second WEB page, and third WEB at time (T = t2). It includes text data 2-3 obtained from the page. Here, the URLs of the first WEB page are all the same, the URLs of the second WEB page are all the same, and the URLs of the third WEB page are all the same.

文字列抽出処理1110は、時間(T=t1)において、テキストデータ1から所定の方法により関連詞を抽出する。これは、上述のように、テキストデータ1に含まれるテキストデータごとに行われ、例えば、テキストデータ1−1から所定の方法により関連詞が抽出され、テキストデータ1−2から所定の方法により関連詞が抽出され、テキストデータ1−3から所定の方法により関連詞が抽出される。この実施例では、それぞれについて関連詞が4つ抽出され、各関連詞をランクの順に配列する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。テキストデータ1−1に関し、抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「○社」、「口座」、「申込手続」、「△銀行」である。テキストデータ1−2に関し、抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「口座」、「△銀行」、「申込みは」、「◇社」である。テキストデータ1−3に関し、抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「株の購入」、「△銀行」、「指し値」、「○社」である。   The character string extraction process 1110 extracts related terms from the text data 1 by a predetermined method at time (T = t1). As described above, this is performed for each text data included in the text data 1. For example, a related term is extracted from the text data 1-1 by a predetermined method, and related text is extracted from the text data 1-2 by a predetermined method. The lyrics are extracted, and the related words are extracted from the text data 1-3 by a predetermined method. In this embodiment, four related terms are extracted for each, and each related term is arranged in rank order. The ranking of related terms can be determined based on, for example, the appearance frequency. Regarding the text data 1-1, the extracted four related terms (related terms 1 to 4) are “○ company”, “account”, “application procedure”, and “Δ bank” in rank order. Regarding the text data 1-2, the extracted four related terms (related terms 1 to 4) are “account”, “Δ bank”, “application”, and “◇ sha” in order of rank. Regarding the text data 1-3, the extracted four related terms (related terms 1 to 4) are “buy stock”, “Δ bank”, “limit”, and “○ company” in order of rank.

次に、文字列抽出処理1110は、このように抽出された関連詞のそれぞれについて、近傍関連詞を求め、それらを関連詞辞書(i−1)に記憶する。近傍関連詞は、ある関連詞に着目した場合に、その関連詞とともに出現する(共起する)関連詞である。各テキストデータ(1−1、1−2、1−3)において、そのテキストデータに対応する話題に含まれている関連詞の集合は関連詞集合であり、ある関連詞に着目した場合、その関連詞を含む関連詞集合を、関連詞の近傍と称し、関連詞の近傍の集合を、関連詞の近傍系と称する。関連詞辞書(i−1)には、関連詞ごとに、関連詞の近傍系が記憶される。   Next, the character string extraction process 1110 obtains neighborhood related terms for each of the related terms extracted in this way, and stores them in the related term dictionary (i-1). A neighborhood related terminator is a related term that appears (co-occurs) with a related term when a particular related term is focused. In each text data (1-1, 1-2, 1-3), the set of related terms included in the topic corresponding to the text data is a set of related terms. A set of related terms including related terms is referred to as a neighborhood of related terms, and a set of neighborhoods of related terms is referred to as a neighborhood system of related terms. In the related term dictionary (i-1), a neighborhood system of related terms is stored for each related term.

例えば、関連詞「○社」に着目すると、この関連詞は、テキストデータ1−1について抽出されており、関連詞の近傍は{○社、口座、申請手続、△銀行}である。同様に、この関連詞は、テキストデータ1−3について抽出されており、関連詞の近傍は{株の購入、△銀行、指し値、○社}である。これらから、関連詞「○社」について、関連詞の近傍系は、{○社、口座、株の購入、△銀行、申請手続、指し値}となる(テキストデータ1−1についての関連詞の近傍と、テキストデータ1−3についての関連詞の近傍とで重複する関連詞「△銀行」は1つだけ含められる)。   For example, focusing on the related term “○ Company”, this related term is extracted for the text data 1-1, and the neighborhood of the related term is {○ Company, Account, Application Procedure, ΔBank}. Similarly, this related term is extracted for the text data 1-3, and the neighborhood of the related term is {stock purchase, Δbank, limit, ○ company}. From these, for the related term “○ Company”, the neighborhood system of the related term is {○ Company, account, stock purchase, △ bank, application procedure, limit}} (the neighborhood of the related term for text data 1-1) And only one related term “Δ bank” is duplicated in the vicinity of the related term for the text data 1-3).

こうして求められた関連詞の近傍系が、それぞれの関連詞「○社」、「口座」、「△銀行」、「申請手続」、「株の購入」、「申込みは」、「指し値」、「◇社」について、関連詞辞書(i−1)に記憶される。各関連詞については、関連詞の近傍系(近傍関連詞1〜7)が記憶されるが、これらの順序は、文字列抽出処理1110により行われたランク付けや、共起性の高さ等を考慮して定められる。   The relative system of the related terms thus obtained is the related terms “○ Company”, “Account”, “△ Bank”, “Application procedure”, “Stock purchase”, “Application is”, “Limit price”, “ ◇ Company ”is stored in the related term dictionary (i-1). For each related terminology, the related system of the related terms (neighboring related terms 1 to 7) is stored, and the order of these is determined by the ranking performed by the character string extraction processing 1110, the high co-occurrence, etc. Determined in consideration of

さらに、文字列抽出処理1110は同様に、時間(T=t2)において、テキストデータ2から所定の方法により関連詞を抽出する。これは、上述のように、テキストデータ2に含まれるテキストデータごとに行われ、例えば、テキストデータ2−1から所定の方法により関連詞が抽出され、テキストデータ2−2から所定の方法により関連詞が抽出され、テキストデータ2−3から所定の方法により関連詞が抽出される。この実施例では、それぞれについて関連詞が4つ抽出され、各関連詞をランクの順に配列する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。テキストデータ2−1に関し、抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「○社」、「口座」、「新しい制度」、「申請手続」である。テキストデータ2−2に関し、抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「口座」、「△銀行」、「◇社」、「株の購入」である。テキストデータ2−3に関し、抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「株の購入」、「△銀行」、「○社」、「新しい制度」である。   Further, the character string extraction process 1110 similarly extracts related terms from the text data 2 by a predetermined method at time (T = t2). As described above, this is performed for each text data included in the text data 2, and for example, related words are extracted from the text data 2-1 by a predetermined method, and related by a predetermined method from the text data 2-2. The lyrics are extracted, and the related words are extracted from the text data 2-3 by a predetermined method. In this embodiment, four related terms are extracted for each, and each related term is arranged in rank order. The ranking of related terms can be determined based on, for example, the appearance frequency. Regarding the text data 2-1, the extracted four related terms (related terms 1 to 4) are "○ company", "account", "new system", and "application procedure" in order of rank. Regarding the text data 2-2, the extracted four related terms (related terms 1 to 4) are “account”, “Δ bank”, “◇ company”, “buy stock” in order of rank. Regarding the text data 2-3, the extracted four related terms (related terms 1 to 4) are “stock purchase”, “Δ bank”, “○ company”, and “new system” in order of rank.

次に、文字列抽出処理1110は、このように抽出された関連詞のそれぞれについて、近傍関連詞を求め、それらを関連詞辞書(i)に記憶する。例えば、関連詞「○社」に着目すると、この関連詞は、テキストデータ2−1について抽出されており、関連詞の近傍は{○社、口座、新しい制度、申請手続}である。同様に、この関連詞は、テキストデータ2−3について抽出されており、関連詞の近傍は{株の購入、△銀行、○社、新しい制度}である。これらから、関連詞「○社」について、関連詞の近傍系は、{○社、口座、株の購入、新しい制度、申請手続、△銀行}となる(テキストデータ2−1についての関連詞の近傍と、テキストデータ2−3についての関連詞の近傍とで重複する関連詞「新しい制度」は1つだけ含められる)。   Next, the character string extraction process 1110 obtains the neighborhood related words for each of the related words extracted in this way, and stores them in the related word dictionary (i). For example, paying attention to the related term “○ Company”, this related term is extracted for the text data 2-1, and the neighborhood of the related term is {○ Company, account, new system, application procedure}. Similarly, this related term is extracted for the text data 2-3, and the neighborhood of the related term is {stock purchase, Δbank, ○ company, new system}. From these, for the related term "○ Company", the neighborhood system of the related term is {○ Company, account, stock purchase, new system, application procedure, △ bank} (the related terms for Text Data 2-1 Only one related term “new system” that overlaps the neighborhood and the neighborhood of the related term for the text data 2-3 is included).

こうして求められた関連詞の近傍系が、それぞれの関連詞「○社」、「口座」、「△銀行」、「申請手続」、「株の購入」、「新しい制度」、「◇社」について、関連詞辞書(i)に記憶される。各関連詞については、関連詞の近傍系(近傍関連詞1〜6)が記憶されるが、これらの順序は、文字列抽出処理1110により行われたランク付けや、共起性の高さ等を考慮して定められる。   The related system of the related terms obtained in this way is the related terms “○ Company”, “Account”, “△ Bank”, “Application Procedure”, “Stock Purchase”, “New System”, “◇ Company”. Are stored in the related term dictionary (i). For each related terminology, the related system of the related terms (neighboring related terms 1 to 6) is stored, and the order of these is determined by the ranking performed by the character string extraction processing 1110, the high co-occurrence, etc. Determined in consideration of

次に、辞書比較処理1120により、関連詞辞書(i−1)と関連詞辞書(i)が比較される。その結果、関連詞「指し値」、「申込みは」は、時間(T=t2)で消滅した消滅関連詞であり(図21の符号1133参照)、関連詞「新しい制度」は、時間(T=t2)で新たに出現する新着関連詞であり(図21の符号1132参照)、これらの関連詞は、関連詞辞書(i−1)と関連詞辞書(i)の変化分として比較結果データ1125に記憶される。   Next, the related term dictionary (i-1) and the related term dictionary (i) are compared by the dictionary comparison processing 1120. As a result, the related terms “limit” and “application” are disappearing related terms that have disappeared at time (T = t2) (see reference numeral 1133 in FIG. 21), and the related term “new system” is time (T = t2), which are new arrival related terms (see reference numeral 1132 in FIG. 21), and these related terms are compared result data 1125 as changes between the related term dictionary (i-1) and the related term dictionary (i). Is remembered.

さらに、辞書比較処理1120は、関連詞「○社」、「口座」、「△銀行」、「申請手続」、「株の購入」、「◇社」については、時間(T=t1)及び時間(T=t2)の両方で存在する関連詞であるが、各関連詞の近傍関連詞についても比較を行う。そうすると、近傍関連詞(または近傍関連詞の順序)が変化していることが分かる(図21の符号1131参照)。このことは、話題における当該関連詞の関係性や位置づけが変化していることを示している。情報更新装置が適用される応答システム等が、こうした近傍関連詞の変化についても可視化しようとする場合は、これらの情報についても比較結果データ1125に記憶する。   Further, the dictionary comparison process 1120 is performed for the related terms “○ Company”, “Account”, “△ Bank”, “Application procedure”, “Stock purchase”, and “◇ Company”, with time (T = t1) and time. Although it is a related term which exists in both (T = t2), it compares also about the neighborhood related terminator of each related term. Then, it can be seen that the neighborhood related terms (or the order of the neighborhood related terms) are changed (see reference numeral 1131 in FIG. 21). This indicates that the relationship and position of the related terminology in the topic are changing. When a response system or the like to which the information updating apparatus is applied tries to visualize such a change in the neighborhood related terms, the information is also stored in the comparison result data 1125.

次に、図22を参照して、本発明の一実施形態に係る情報更新装置における文字列抽出処理1110と辞書比較処理1120の他の実施例を説明する。図22は、図20に示した文字列抽出処理1110と辞書比較処理1120の変形例を示すものである。図22には、3つのテキストデータ(テキストデータA〜C)に対してそれぞれ文字列抽出処理1110が行われ、対応する関連詞辞書A、関連詞辞書B、関連詞辞書Cに対して、辞書比較処理1120が行われるところを示している。   Next, another example of character string extraction processing 1110 and dictionary comparison processing 1120 in the information updating apparatus according to an embodiment of the present invention will be described with reference to FIG. FIG. 22 shows a modification of the character string extraction process 1110 and the dictionary comparison process 1120 shown in FIG. In FIG. 22, a character string extraction process 1110 is performed for each of the three text data (text data A to C), and the corresponding related term dictionary A, related term dictionary B, and related term dictionary C are compared with the dictionary. The comparison process 1120 is shown.

この実施例では、3つのテキストデータは、同じ時間(T=t1)において、異なる主題に関連する同じWEBページから収集されたものである。すなわち、テキストデータAは、「A社の技術」を主題としたWEBページに基づくものであり、テキストデータBは、「B社の技術」を主題としたWEBページに基づくものであり、テキストデータCは、「AI(人工知能)関連技術」を主題としたWEBページに基づくものである。   In this example, the three text data were collected from the same WEB page associated with different subjects at the same time (T = t1). That is, the text data A is based on a WEB page whose theme is “Technology of Company A”, and the text data B is based on a WEB page whose theme is “Technology of Company B”. C is based on a WEB page whose theme is “AI (artificial intelligence) related technology”.

例えば、テキストデータAに関しては、WEB検索により、検索キーワード「A社の技術」を入力し、その結果得られた2つのWEBページから2つのテキストデータ(テキストデータA−1、テキストデータA−2)を取得し、これらを文字列抽出処理1110においては個別に扱う。同様に、テキストデータBに関しては、WEB検索により、検索キーワード「B社の技術」を入力し、その結果得られた2つのWEBページから2つのテキストデータ(テキストデータB−1、テキストデータB−2)を取得し、これらを文字列抽出処理1110においては個別に扱う。同様に、テキストデータCに関しては、WEB検索により、検索キーワード「AI(人工知能)関連技術」を入力し、その結果得られた2つのWEBページから2つのテキストデータ(テキストデータC−1、テキストデータC−2)を取得し、これらを文字列抽出処理1110においては個別に扱う。図20では、テキストデータA、テキストデータB、テキストデータCにそれぞれ3つのテキストデータが含まれていたが、この実施例では、それぞれ2つのテキストデータを含むものとする。   For example, for text data A, a search keyword “Technology of Company A” is input by WEB search, and two text data (text data A-1 and text data A-2 are obtained from two WEB pages obtained as a result. ) And are individually handled in the character string extraction process 1110. Similarly, for text data B, a search keyword “Technology of company B” is input by WEB search, and two text data (text data B-1, text data B-) are obtained from the two WEB pages obtained as a result. 2) are acquired and handled individually in the character string extraction processing 1110. Similarly, with respect to the text data C, a search keyword “AI (artificial intelligence) related technology” is input by WEB search, and two text data (text data C-1, text) are obtained from two WEB pages obtained as a result. Data C-2) is acquired and handled individually in the character string extraction processing 1110. In FIG. 20, text data A, text data B, and text data C each include three text data. In this embodiment, it is assumed that each text data includes two text data.

文字列抽出処理1110は、時間(T=t1)において、テキストデータAから所定の方法により関連詞を抽出する。これは、上述のように、テキストデータAに含まれるテキストデータごとに行われ、例えば、テキストデータA−1から所定の方法により関連詞が抽出され、テキストデータA−2から所定の方法により関連詞が抽出される。この実施例では、それぞれについて関連詞が4つ抽出され、各関連詞をランクの順に配列する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。テキストデータA−1に関し、抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「A社」、「音声」、「音声認識」、「ロボット」である。テキストデータA−2に関し、抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「圧縮技術」、「音声認識」、「営業」、「音声」である。   The character string extraction process 1110 extracts related terms from the text data A by a predetermined method at time (T = t1). As described above, this is performed for each text data included in the text data A. For example, related words are extracted from the text data A-1 by a predetermined method, and related text is extracted from the text data A-2 by a predetermined method. The lyrics are extracted. In this embodiment, four related terms are extracted for each, and each related term is arranged in rank order. The ranking of related terms can be determined based on, for example, the appearance frequency. Regarding the text data A-1, the extracted four related terms (related terms 1 to 4) are “Company A”, “speech”, “speech recognition”, and “robot” in order of rank. Regarding the text data A-2, the extracted four related terms (related terms 1 to 4) are “compression technology”, “speech recognition”, “sales”, and “speech” in order of rank.

次に、文字列抽出処理1110は、このように抽出された関連詞のそれぞれについて、近傍関連詞を求め、それらを関連詞辞書Aに記憶する。近傍関連詞は、ある関連詞に着目した場合に、その関連詞とともに出現する(共起する)関連詞である。各テキストデータ(A−1、A−2)において、そのテキストデータに対応する話題に含まれている関連詞の集合は関連詞集合であり、ある関連詞に着目した場合、その関連詞を含む関連詞集合を、関連詞の近傍と称し、関連詞の近傍の集合を、関連詞の近傍系と称する。関連詞辞書Aには、関連詞ごとに、関連詞の近傍系が記憶される。   Next, the character string extraction processing 1110 obtains the neighborhood related words for each of the related words extracted in this way, and stores them in the related word dictionary A. A neighborhood related terminator is a related term that appears (co-occurs) with a related term when a particular related term is focused. In each text data (A-1, A-2), a set of related terms included in a topic corresponding to the text data is a related term set. A set of related terms is called a neighborhood of related terms, and a set of neighborhoods of related terms is called a neighborhood system of related terms. In the related term dictionary A, a neighborhood system of related terms is stored for each related term.

例えば、関連詞「音声認識」に着目すると、この関連詞は、テキストデータA−1について抽出されており、関連詞の近傍は{A社、音声、音声認識、ロボット}である。同様に、この関連詞は、テキストデータA−2について抽出されており、関連詞の近傍は{圧縮技術、音声認識、営業、音声}である。これらから、関連詞「音声認識」について、関連詞の近傍系は、{音声認識、A社、圧縮技術、音声、ロボット、営業}となる(テキストデータA−1についての関連詞の近傍と、テキストデータA−2についての関連詞の近傍とで重複する関連詞「音声」は1つだけ含められる)。   For example, paying attention to the related term “speech recognition”, this related term is extracted for the text data A-1, and the neighborhood of the related term is {Company A, speech, speech recognition, robot}. Similarly, this related term is extracted for the text data A-2, and the neighborhood of the related term is {compression technology, speech recognition, sales, speech}. From these, for the related term “speech recognition”, the neighborhood system of the related term is {speech recognition, company A, compression technology, speech, robot, business} (the neighborhood of the related term for the text data A-1 and Only one related terminology “speech” that overlaps with the neighborhood of the related term for the text data A-2 is included).

こうして求められた関連詞の近傍系が、それぞれの関連詞「A社」、「音声認識」、「音声」、「圧縮技術」、「営業」、「ロボット」について、関連詞辞書Aに記憶される。各関連詞については、関連詞の近傍系(近傍関連詞1〜5)が記憶されるが、これらの順序は、文字列抽出処理1110により行われたランク付けや、共起性の高さ等を考慮して定められる。   The neighborhood system of the related terms thus obtained is stored in the related term dictionary A for the related terms “Company A”, “speech recognition”, “speech”, “compression technology”, “sales”, and “robot”. The For each related terminology, the neighborhood system of the related terms (neighboring related terms 1 to 5) is stored, and the order of these is determined by the ranking performed by the character string extraction processing 1110, the high co-occurrence, etc. Determined in consideration of

さらに、文字列抽出処理1110は、時間(T=t1)において、テキストデータBから所定の方法により関連詞を抽出する。これは、上述のように、テキストデータBに含まれるテキストデータごとに行われ、例えば、テキストデータB−1から所定の方法により関連詞が抽出され、テキストデータB−2から所定の方法により関連詞が抽出される。この実施例では、それぞれについて関連詞が4つ抽出され、各関連詞をランクの順に配列する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。テキストデータB−1に関し、抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「音声」、「B社の業績」、「音声認識」、「研究開発」である。テキストデータB−2に関し、抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「研究開発」、「音声」、「音声認識」、「認証技術」である。   Further, the character string extraction process 1110 extracts related terms from the text data B by a predetermined method at time (T = t1). As described above, this is performed for each text data included in the text data B. For example, related words are extracted from the text data B-1 by a predetermined method, and related words are extracted from the text data B-2 by a predetermined method. The lyrics are extracted. In this embodiment, four related terms are extracted for each, and each related term is arranged in rank order. The ranking of related terms can be determined based on, for example, the appearance frequency. Regarding the text data B-1, the extracted four related terms (related terms 1 to 4) are “voice”, “business achievements of B company”, “voice recognition”, and “research and development” in order of rank. Regarding the text data B-2, the extracted four related terms (related terms 1 to 4) are “research and development”, “speech”, “speech recognition”, and “authentication technology” in order of rank.

次に、文字列抽出処理1110は、このように抽出された関連詞のそれぞれについて、近傍関連詞を求め、それらを関連詞辞書Bに記憶する。例えば、関連詞「音声」に着目すると、この関連詞は、テキストデータB−1について抽出されており、関連詞の近傍は{音声、B社の業績、音声認識、研究開発}である。同様に、この関連詞は、テキストデータB−2について抽出されており、関連詞の近傍は{研究開発、音声、音声認識、認証技術}である。これらから、関連詞「音声」について、関連詞の近傍系は、{音声、研究開発、B社の業績、音声認識、認証技術}となる(テキストデータB−1についての関連詞の近傍と、テキストデータB−2についての関連詞の近傍とで重複する関連詞「音声認識」、「研究開発」はそれぞれ1つだけ含められる)。   Next, the character string extraction processing 1110 obtains the neighborhood related words for each of the related words extracted in this way, and stores them in the related word dictionary B. For example, focusing on the related term “speech”, this related term is extracted for the text data B-1, and the neighborhood of the related term is {speech, achievement of company B, speech recognition, research and development}. Similarly, this related term is extracted for the text data B-2, and the neighborhood of the related term is {R & D, speech, speech recognition, authentication technology}. From these, for the related term “speech”, the neighborhood system of the related term is {speech, research and development, achievement of company B, speech recognition, authentication technology} (the neighborhood of the related term for the text data B-1, Only one of the related terms “speech recognition” and “research and development” that overlap in the vicinity of the related term for the text data B-2 is included).

こうして求められた関連詞の近傍系が、それぞれの関連詞「音声」、「研究開発」、「B社の業績」、「音声認識」、「認証技術」について、関連詞辞書Bに記憶される。各関連詞については、関連詞の近傍系(近傍関連詞1〜4)が記憶されるが、これらの順序は、文字列抽出処理1110により行われたランク付けや、共起性の高さ等を考慮して定められる。   The related system of the related terms thus obtained is stored in the related term dictionary B for the related terms “speech”, “research and development”, “business achievements of company B”, “speech recognition”, and “authentication technology”. . For each related terminology, the neighborhood system of the related terms (neighboring related terms 1 to 4) is stored, and the order of these is determined by the ranking performed by the character string extraction processing 1110, the high co-occurrence, etc. Determined in consideration of

さらに、文字列抽出処理1110は、時間(T=t1)において、テキストデータCから所定の方法により関連詞を抽出する。これは、上述のように、テキストデータCに含まれるテキストデータごとに行われ、例えば、テキストデータC−1から所定の方法により関連詞が抽出され、テキストデータC−2から所定の方法により関連詞が抽出される。この実施例では、それぞれについて関連詞が4つ抽出され、各関連詞をランクの順に配列する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。テキストデータC−1に関し、抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「AI」、「エージェント」、「ロボット」、「音声認識」である。テキストデータC−2に関し、抽出された4つの関連詞(関連詞1〜関連詞4)は、ランク順に「ロボット」、「音声認識」、「AI」、「学習機能」である。   Furthermore, the character string extraction process 1110 extracts a related term from the text data C by a predetermined method at time (T = t1). As described above, this is performed for each text data included in the text data C. For example, a related term is extracted from the text data C-1 by a predetermined method, and related text is extracted from the text data C-2 by a predetermined method. The lyrics are extracted. In this embodiment, four related terms are extracted for each, and each related term is arranged in rank order. The ranking of related terms can be determined based on, for example, the appearance frequency. Regarding the text data C-1, the extracted four related terms (related terms 1 to 4) are “AI”, “agent”, “robot”, and “voice recognition” in rank order. Regarding the text data C-2, the extracted four related terms (related terms 1 to 4) are “robot”, “voice recognition”, “AI”, and “learning function” in order of rank.

次に、文字列抽出処理1110は、このように抽出された関連詞のそれぞれについて、近傍関連詞を求め、それらを関連詞辞書Cに記憶する。例えば、関連詞「AI」に着目すると、この関連詞は、テキストデータC−1について抽出されており、関連詞の近傍は{AI、エージェント、ロボット、音声認識}である。同様に、この関連詞は、テキストデータC−2について抽出されており、関連詞の近傍は{ロボット、音声認識、AI、学習機能}である。これらから、関連詞「AI」について、関連詞の近傍系は、{AI、ロボット、エージェント、音声認識、学習機能}となる(テキストデータC−1についての関連詞の近傍と、テキストデータC−2についての関連詞の近傍とで重複する関連詞「ロボット」、「音声認識」はそれぞれ1つだけ含められる)。   Next, the character string extraction processing 1110 obtains the neighborhood related words for each of the extracted related words, and stores them in the related word dictionary C. For example, focusing on the related term “AI”, this related term is extracted for the text data C-1, and the neighborhood of the related term is {AI, agent, robot, speech recognition}. Similarly, this related term is extracted for the text data C-2, and the neighborhood of the related term is {robot, voice recognition, AI, learning function}. From these, for the related term “AI”, the neighborhood system of the related term is {AI, robot, agent, speech recognition, learning function} (the neighborhood of the related term for the text data C-1 and the text data C− Only one of the related terms “robot” and “speech recognition” that overlap in the vicinity of the related term for 2 is included).

こうして求められた関連詞の近傍系が、それぞれの関連詞「AI」、「ロボット」、「音声認識」、「エージェント」、「学習機能」について、関連詞辞書Cに記憶される。各関連詞については、関連詞の近傍系(近傍関連詞1〜4)が記憶されるが、これらの順序は、文字列抽出処理1110により行われたランク付けや、共起性の高さ等を考慮して定められる。   The neighborhood system of the related terms thus obtained is stored in the related term dictionary C for each of the related terms “AI”, “robot”, “speech recognition”, “agent”, and “learning function”. For each related terminology, the neighborhood system of the related terms (neighboring related terms 1 to 4) is stored, and the order of these is determined by the ranking performed by the character string extraction processing 1110, the high co-occurrence, etc. Determined in consideration of

次に、辞書比較処理1120により、関連詞辞書A〜Cが比較される。その結果、関連詞「音声認識」は、時間(T=t1)において、3つの関連詞辞書に共通する関連詞(共通関連詞)であり(図22の符号1135、1135’、1135’’参照)、これが比較結果データ1125に記憶される。このような共通関連詞を把握することにより、異なる主題のなかから共通する話題を発見することができ、この実施例のような主題の設定を行えば、企業間関連情報の分析にもつながる。   Next, the dictionary comparison process 1120 compares the related term dictionary A to C. As a result, the related term “speech recognition” is a related term (common related term) common to three related term dictionaries at time (T = t1) (see reference numerals 1135, 1135 ′, 1135 ″ in FIG. 22). This is stored in the comparison result data 1125. By grasping such common related terms, common topics can be found from different themes, and setting the subject as in this embodiment also leads to analysis of related information between companies.

また、辞書比較処理1120は、この共通関連詞について、各関連詞の近傍関連詞についても比較を行う。そうすると、近傍関連詞の共通性や近傍関連詞の順序の共通性等を把握することができ、これによって、共通関連詞の間の共通性のレベルを判定することができる。   In addition, the dictionary comparison process 1120 compares the common related terms with the neighboring related terms of each related term. Then, it is possible to grasp the commonality of neighboring related terms, the commonality of the order of neighboring related terms, and the like, thereby determining the level of commonality between the common related terms.

なお、関連詞辞書Aと関連詞辞書Bにおける共通関連詞として「音声」が把握されうるが(図22の符号1136、1136’参照)、このような一部の関連詞辞書における共通関連詞も重要な情報となる場合があるため、比較結果データ1125に記憶することができる。   Note that “speech” can be grasped as a common related terminology in the related term dictionary A and the related term dictionary B (see reference numerals 1136 and 1136 ′ in FIG. 22). Since it may be important information, it can be stored in the comparison result data 1125.

<<<本発明の一実施形態に係る情報更新装置を含む情報更新システムの概要>>>
次に、図23を参照して、本発明の一実施形態に係る情報更新装置を含む情報更新システムによる一連の処理の例を説明する。
<<< Overview of Information Updating System Including Information Updating Device According to One Embodiment of the Present Invention >>>
Next, with reference to FIG. 23, an example of a series of processes by the information update system including the information update apparatus according to the embodiment of the present invention will be described.

図23に示す情報更新システム1300は、情報更新装置1400、検索処理装置1600、ユーザ端末1700を含む。情報更新装置1400は、記憶手段に、関連詞辞書1115と比較結果データ1125を格納する。検索処理装置1600で動作するクローラー1601は、例えば、自動起動され、決められた時間に決められた話題名に対して話題解析を行う(検索を行って、定期的に話題を収集する)。話題名は、例えば、関連詞辞書1115を保持しているサービス(利用者が扱う話題にそれぞれ対応したサービスIDに割り当てられた領域)に記憶され、利用者が10個の話題を扱いたい場合は、10個のサービスを利用してそれらの話題を扱うことになる。また、上述した1つ1つのサービスについて、対応する話題チップを設定し、各話題チップが常時、対応する話題に関する情報を収集し、利用者の入力に応じて、関連する話題チップを連携・統合させ、より多様な話題提供サービスを実現することもできる。   An information update system 1300 illustrated in FIG. 23 includes an information update device 1400, a search processing device 1600, and a user terminal 1700. The information update device 1400 stores the related term dictionary 1115 and the comparison result data 1125 in the storage means. The crawler 1601 that operates in the search processing device 1600 is automatically activated, for example, and performs topic analysis on a topic name determined at a predetermined time (performs a search and collects topics regularly). The topic name is stored in, for example, a service (an area assigned to a service ID corresponding to each topic handled by the user) that holds the related term dictionary 1115, and the user wants to handle ten topics. These services will be handled using 10 services. In addition, for each of the services described above, a corresponding topic chip is set, each topic chip always collects information on the corresponding topic, and related topic chips are linked and integrated according to user input. It is also possible to realize more diverse topic providing services.

クローラー1601による検索は、例えば、インターネット上の既存のインターネット検索サイトにアクセスし、そこで検索キーワードを指定することにより、当該インターネット検索サイトの検索サーバ1610から検索結果1620を受信する。検索結果1620には、例えば、検索キーワードに合致または類似するコンテンツを含んだWEBページのアドレス(WEBページ1のアドレス、WEBページ2のアドレス、WEBページ3のアドレス、・・・、WEBページXのアドレス)が含まれる。   The search by the crawler 1601 is performed by, for example, accessing an existing Internet search site on the Internet and specifying a search keyword there to receive a search result 1620 from the search server 1610 of the Internet search site. The search result 1620 includes, for example, the address of a WEB page that includes content that matches or is similar to the search keyword (the address of WEB page 1, the address of WEB page 2, the address of WEB page 3,..., WEB page X Address).

クローラー1601は、この実施例では、既存のインターネット検索サイトにおける検索を実行することで検索結果1620を取得するようにしているが、他の様々な方法により、所定の条件を満たすWEBページのアドレスを取得することができる。また、検索対象はインターネット上のWEBページに限定されるものではなく、TWITTERのツイート情報や、任意の機関によって事前に生成・編集された(ネットワーク上またはローカルの)データやデータベース内のテキスト情報であってもよい。   In this embodiment, the crawler 1601 acquires a search result 1620 by executing a search on an existing Internet search site. However, by using various other methods, the address of a WEB page that satisfies a predetermined condition can be obtained. Can be acquired. The search target is not limited to the WEB page on the Internet. It can be tweet information from TWITTER, data generated and edited in advance by any institution (network or local) and text information in the database. There may be.

既存のインターネット検索サイトは、検索サーバ1610に備えられた検索エンジンにより、インターネット上のデータソースから検索キーワードに合致、または類似するWEBページのアドレスを、検索のリクエストに応じて(あるいは事前の定期的収集活動により)収集する。   An existing Internet search site uses a search engine provided in the search server 1610 to search for an address of a WEB page that matches or is similar to a search keyword from a data source on the Internet in response to a search request (or in advance on a regular basis). Collect by collection activity).

クローラー1601は、検索サーバ1610から検索結果1620が送信されると、クローラー1601、または検索処理装置1600で動作するアプリケーション等が、検索結果1620を、(例えば、API送信により)情報更新装置1400に送信する。また、クローラー1601は、フィルタを用いて、検索結果1620のうち、所定の条件を満たすものを除外するよう構成することができる。   When the search result 1620 is transmitted from the search server 1610, the crawler 1601 transmits the search result 1620 (for example, by API transmission) to the information update device 1400 by the application running on the crawler 1601 or the search processing device 1600. To do. Further, the crawler 1601 can be configured to exclude a search condition 1620 that satisfies a predetermined condition using a filter.

この実施例では、クローラー1601が、決められた時間に自動的に起動されるが、情報更新装置1400の動作制御に応じて検索結果1620を取得するようにしてもよい。また、クローラー1601が所定のインターバルで検索結果1620を取得し、その検索結果1620を検索処理装置1600の記憶手段に保持し、情報更新装置1400が、必要なタイミングで、検索処理装置1600の記憶手段にアクセスして検索結果1620を取得するようにもできる。また、情報更新装置1400と検索処理装置1600を1つのサーバにより構成することもできる。   In this embodiment, the crawler 1601 is automatically activated at a predetermined time, but the search result 1620 may be acquired in accordance with the operation control of the information update device 1400. In addition, the crawler 1601 acquires the search result 1620 at a predetermined interval, holds the search result 1620 in the storage unit of the search processing device 1600, and the information update device 1400 stores the storage unit of the search processing device 1600 at a necessary timing. To obtain a search result 1620. Further, the information update device 1400 and the search processing device 1600 can be configured by one server.

また、この実施例では、検索処理装置1600が、検索結果1620として検索キーワードに関連するWEBページのアドレスを情報更新装置1400に送信するが、検索処理装置1600において、これらのWEBページにアクセスし、その結果得られたテキストデータを検索結果1620として情報更新装置1400に送信するようにもできる。   In this embodiment, the search processing device 1600 transmits the address of the WEB page related to the search keyword to the information update device 1400 as the search result 1620. The search processing device 1600 accesses these WEB pages, The text data obtained as a result can be transmitted to the information update device 1400 as a search result 1620.

情報更新装置1400は、検索結果1620を受信すると、検索結果1620に含まれるWEBページのアドレスにアクセスして、それぞれのWEBページ(WEBページ1、WEBページ2、WEBページ3、・・・、WEBページX)からテキストデータ1200を取得する。検索結果1620は、検索条件を満たすWEBページのアドレスが複数含まれうるが、これらが検索条件の満足度に応じてランク付けされているような場合は、所定ランク以上のWEBページについてテキストデータ1200を取得するようにもできる。   Upon receiving the search result 1620, the information updating apparatus 1400 accesses the address of the WEB page included in the search result 1620, and each WEB page (WEB page 1, WEB page 2, WEB page 3,..., WEB Text data 1200 is acquired from page X). The search result 1620 may include a plurality of WEB page addresses that satisfy the search conditions. If these are ranked according to the satisfaction of the search conditions, the text data 1200 for WEB pages of a predetermined rank or higher is included. You can also get

情報更新装置1400は、テキストデータ1200を取得すると、テキストデータ1200から文字列抽出処理1110により、関連詞を抽出し、これらを、対応する関連詞辞書1115に記憶する。その後、情報更新装置1400は、2つ以上の関連詞辞書1115に対して、辞書比較処理1120を行い、比較結果を比較結果データ1125に記憶する。辞書比較処理1120は、例えば、比較対象の関連詞辞書1115に関連詞の記憶がすべて終了した時点で自動的に開始される。   Upon obtaining the text data 1200, the information update device 1400 extracts related terms from the text data 1200 by a character string extraction process 1110, and stores them in the corresponding related term dictionary 1115. Thereafter, the information update device 1400 performs a dictionary comparison process 1120 on two or more related terminology dictionaries 1115 and stores the comparison results in the comparison result data 1125. The dictionary comparison process 1120 is automatically started when, for example, all of the related terms are stored in the related term dictionary 1115 to be compared.

ユーザ端末1700は、情報更新システム1300のユーザが使用するコンピュータであり、ここで、ユーザの入力に対して自動的に応答を行う応答システムが、ユーザ端末1700で動作するアプリケーション1701と情報更新装置1400との間で構築される。   The user terminal 1700 is a computer used by the user of the information update system 1300. Here, a response system that automatically responds to user input includes an application 1701 that operates on the user terminal 1700 and an information update device 1400. Built between.

このようなユーザ端末1700から、ユーザが直接、あるいは、アプリケーション1701によって選択された応答シナリオに応じて、所定の関連詞辞書を比較した比較結果の表示が要求されると、ユーザ端末1700から情報更新装置1400に対して比較結果表示リクエストが送信される。情報更新装置1400が、この比較結果表示リクエストを受信すると、これに応じて、対応する比較結果データを比較結果データ1125から取得し、ユーザ端末1700に送信する。   When the user terminal 1700 requests display of a comparison result obtained by comparing predetermined related terminology dictionaries directly or according to a response scenario selected by the application 1701, the user terminal 1700 updates the information. A comparison result display request is transmitted to the device 1400. When the information update apparatus 1400 receives this comparison result display request, the information update apparatus 1400 acquires corresponding comparison result data from the comparison result data 1125 and transmits it to the user terminal 1700 accordingly.

ユーザ端末1700は、情報更新装置1400から送信された比較結果データ1125を受信し、ユーザ端末1700のディスプレイ1702に表示させるように編集し(例えば、表示結果を表示するように構成されたHTMLファイルを編集し)、比較結果表示データ1150を生成する。なお、比較結果表示データ1150を情報更新装置1400で生成し、これをユーザ端末1700で受信し表示させるように構成することもできる。   The user terminal 1700 receives the comparison result data 1125 transmitted from the information update device 1400, edits the data to be displayed on the display 1702 of the user terminal 1700 (for example, an HTML file configured to display the display result) Edit) to generate comparison result display data 1150. The comparison result display data 1150 may be generated by the information update device 1400 and received by the user terminal 1700 for display.

その後、ユーザ端末1700では、比較結果表示データ1150を受信したアプリケーション1701またはWEBブラウザ等が、比較結果表示データ1150を解釈し、ディスプレイ1702に、比較結果表示リクエストにより要求された比較結果を表示する。この表示は、例えば、話題名と、この話題における関連詞の変化を示す。関連詞の変化の表示として、関連詞の出現状況とこれに対応する関連詞が表示される。   Thereafter, in the user terminal 1700, the application 1701 or WEB browser that has received the comparison result display data 1150 interprets the comparison result display data 1150, and displays the comparison result requested by the comparison result display request on the display 1702. This display indicates, for example, a topic name and a change in related terms in the topic. As the display of the change of the related term, the appearance state of the related term and the corresponding related term are displayed.

図23の実施例においては、話題名「2013年10月10日、t2における「株の取引」の話題」について、出現状況が「新着関連詞」である関連詞「税率」と、出現状況が「消滅関連詞」である関連詞「口座」が表示される。この表示は、図19に示す比較結果データ1125の、レコード1125aに対応するものである。ユーザは、ディスプレイ1702に表示された内容を見て、話題名に関する話題において、t2というタイミングで、新たに「税率」という関連詞が出現し、これと同時に、「口座」という関連詞が消滅したという気づきを得ることができる。   In the example of FIG. 23, the topic name “October 10, 2013, topic of“ stock trading ”at t2”, the related term “tax rate” whose appearance status is “new arrival related term”, and the appearance status are The related term “account” which is the “annihilation related term” is displayed. This display corresponds to the record 1125a of the comparison result data 1125 shown in FIG. The user looks at the content displayed on the display 1702, and in the topic related to the topic name, a new related term “tax rate” appears at the timing t2, and at the same time, the related term “account” disappears. Can be noticed.

<<<本発明の一実施形態に係る情報更新装置の構成の説明>>>
次に、図24を参照して、本発明の一実施形態に係る情報更新装置1400の構成を説明する。情報更新装置1400は、テキストデータ取得処理部1421、文字列抽出処理部1422、辞書比較処理部1423、比較結果表示制御部1424、及びネットワークインタフェース(I/F)部1425を備える。
<<< Description of Configuration of Information Updating Device According to One Embodiment of the Present Invention >>>
Next, with reference to FIG. 24, the structure of the information update apparatus 1400 which concerns on one Embodiment of this invention is demonstrated. The information update apparatus 1400 includes a text data acquisition processing unit 1421, a character string extraction processing unit 1422, a dictionary comparison processing unit 1423, a comparison result display control unit 1424, and a network interface (I / F) unit 1425.

また、情報更新装置1400は、RAMのような主記憶装置またはハードディスクや半導体メモリのような外部記憶装置に、関連詞辞書1115と比較結果データ1125を記憶する。関連詞辞書1115と比較結果データ1125は、様々なデータフォーマット、データ記憶形式をとることができる。   The information update device 1400 stores the related term dictionary 1115 and the comparison result data 1125 in a main storage device such as a RAM or an external storage device such as a hard disk or a semiconductor memory. The related term dictionary 1115 and the comparison result data 1125 can take various data formats and data storage formats.

テキストデータ取得処理部1421は、図23に示したクローラー1601によって取得されたインターネット検索サイトにおける検索結果1620を受信する。検索結果1620に含まれるWEBページのアドレスからテキストデータ1200を取得し、これを文字列抽出処理部1422に提供する(図12に示すテキストデータ取得処理1100)。文字列抽出処理部1422は、テキストデータ1200から関連詞を抽出し、これを、対応する関連詞辞書1115に記憶する(図12に示す文字列抽出処理1110)。辞書比較処理部1423は、複数の関連詞辞書1115を比較し、比較結果を比較結果データ1125に記憶する(図12に示す辞書比較処理1120)。   The text data acquisition processing unit 1421 receives the search result 1620 in the Internet search site acquired by the crawler 1601 shown in FIG. Text data 1200 is acquired from the address of the WEB page included in the search result 1620 and provided to the character string extraction processing unit 1422 (text data acquisition processing 1100 shown in FIG. 12). The character string extraction processing unit 1422 extracts a related term from the text data 1200 and stores it in the corresponding related term dictionary 1115 (character string extraction processing 1110 shown in FIG. 12). The dictionary comparison processing unit 1423 compares the plurality of related terminology dictionaries 1115 and stores the comparison results in the comparison result data 1125 (dictionary comparison processing 1120 shown in FIG. 12).

比較結果表示制御部1424は、ユーザ端末1700からの比較結果表示リクエストに応じて、比較結果データ1125から対応する比較結果を取得し、比較結果表示データ1150を生成してユーザ端末1700に送信する。ネットワークインタフェース(I/F)部1425は、インターネット等のネットワークを介した、図23に示す検索処理装置1600やユーザ端末1700を含む他のコンピュータとのアクセスと、これらのコンピュータとのデータ送受信を制御する。   In response to a comparison result display request from the user terminal 1700, the comparison result display control unit 1424 acquires a corresponding comparison result from the comparison result data 1125, generates comparison result display data 1150, and transmits the comparison result display data 1150 to the user terminal 1700. A network interface (I / F) unit 1425 controls access to other computers including the search processing device 1600 and the user terminal 1700 shown in FIG. 23 and data transmission / reception with these computers via a network such as the Internet. To do.

<<<本発明の一実施形態に係る情報更新装置のハードウェア構成の説明>>>
次に、図25を参照して、本発明の一実施形態に係る情報更新装置1400として用いられるコンピュータのハードウェア構成の例について説明する。ただし、図25に示す情報更新装置1400は、その代表的な構成を例示したにすぎない。
<<< Description of Hardware Configuration of Information Updating Device According to One Embodiment of the Present Invention >>>
Next, an example of a hardware configuration of a computer used as the information update device 1400 according to an embodiment of the present invention will be described with reference to FIG. However, the information update device 1400 illustrated in FIG. 25 merely illustrates a typical configuration.

情報更新装置1400は、CPU(Central Processing Unit)1401、RAM(Random Access Memory)1402、ROM(Read Only Memory)1403、ネットワークインタフェース1404、オーディオ制御部1405、マイクロフォン1406、スピーカ1407、ディスプレイコントローラ1408、ディスプレイ1409、入力機器インタフェース1410、キーボード1411、マウス1412、外部記憶装置1413、外部記録媒体インタフェース1414、及びこれらの構成要素を互いに接続するバス1415を含んでいる。   The information updating apparatus 1400 includes a CPU (Central Processing Unit) 1401, a RAM (Random Access Memory) 1402, a ROM (Read Only Memory) 1403, a network interface 1404, an audio control unit 1405, a microphone 1406, a speaker 1407, a display controller 1408, a display. 1409, an input device interface 1410, a keyboard 1411, a mouse 1412, an external storage device 1413, an external recording medium interface 1414, and a bus 1415 for connecting these components to each other.

CPU1401は、情報更新装置1400の各構成要素の動作を制御し、OSの制御下で、本発明に係るテキストデータ取得処理1100、文字列抽出処理1110、辞書比較処理1120、比較結果表示制御等の実行を制御する。   The CPU 1401 controls the operation of each component of the information update device 1400, and under the control of the OS, the text data acquisition process 1100, the character string extraction process 1110, the dictionary comparison process 1120, the comparison result display control, etc. according to the present invention. Control execution.

RAM1402には、CPU1401で実行される辞書比較処理1120等を実行するためのプログラムや、それらのプログラムが実行中に使用するデータが一時的に格納される。また、上述のように、関連詞辞書1115や比較結果データ1125等も記憶されうる。ROM1403には、情報更新装置1400の起動時に実行されるプログラム等が格納される。   The RAM 1402 temporarily stores programs for executing the dictionary comparison process 1120 and the like executed by the CPU 1401 and data used during the execution of these programs. Further, as described above, the related term dictionary 1115, the comparison result data 1125, and the like can also be stored. The ROM 1403 stores a program that is executed when the information updating apparatus 1400 is activated.

ネットワークインタフェース1404は、ネットワーク1500に接続するためのインタフェースである。ネットワーク1500は、例えば、図23に示す検索処理装置1600やユーザ端末1700と情報更新装置1400との間のネットワークや、インターネットのようなネットワークである。   The network interface 1404 is an interface for connecting to the network 1500. The network 1500 is, for example, a network between the search processing device 1600 and the user terminal 1700 and the information update device 1400 shown in FIG. 23, or a network such as the Internet.

オーディオ制御部1405は、マイクロフォン1406とスピーカ1407を制御して音声の入出力を制御する。ディスプレイコントローラ1408は、CPU1401が発行する描画命令を実際に処理するための専用コントローラである。ディスプレイ1409は、例えば、LCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)で構成される表示装置である。   The audio control unit 1405 controls the microphone 1406 and the speaker 1407 to control audio input / output. A display controller 1408 is a dedicated controller for actually processing a drawing command issued by the CPU 1401. The display 1409 is a display device configured by, for example, an LCD (Liquid Crystal Display) or a CRT (Cathode Ray Tube).

入力機器インタフェース1410は、キーボード1411やマウス1412から入力された信号を受信して、その信号パターンに応じて所定の指令をCPU1401に送信する。   The input device interface 1410 receives a signal input from the keyboard 1411 or the mouse 1412 and transmits a predetermined command to the CPU 1401 according to the signal pattern.

外部記憶装置1413は、例えば、ハードディスクや半導体メモリのような記憶装置であり、この装置内には上述したプログラムやデータが記録され、実行時に、必要に応じてそこからRAM1402にロードされる。例えば、また、上述のように、関連詞辞書1115や比較結果データ1125等も記憶されうる。   The external storage device 1413 is, for example, a storage device such as a hard disk or a semiconductor memory. The above-described program and data are recorded in this device, and are loaded from there into the RAM 1402 as necessary at the time of execution. For example, as described above, the related term dictionary 1115, the comparison result data 1125, and the like can also be stored.

外部記録媒体インタフェース1414は、外部記録媒体1510にアクセスして、そこに記録されているデータを読み取る。外部記録媒体1510は、例えば、可搬型のフラッシュメモリ、CD(Compact Disc)、DVD(Digital Versatile Disc)などである。CPU1401で実行され、本発明の各機能を実現するためのプログラムは、この外部記録媒体インタフェース1414を介して外部記録媒体1510から提供されうる。また、本発明の各機能を実現するためのプログラムの他の流通形態としては、ネットワーク上の所定のサーバから、ネットワーク1500及びネットワークインタフェース1404を介して外部記憶装置1413やRAM1402に格納されるというルート等も考えられる。   The external recording medium interface 1414 accesses the external recording medium 1510 and reads data recorded therein. The external recording medium 1510 is, for example, a portable flash memory, a CD (Compact Disc), a DVD (Digital Versatile Disc), or the like. A program executed by the CPU 1401 and realizing each function of the present invention can be provided from the external recording medium 1510 via the external recording medium interface 1414. Further, as another distribution form of the program for realizing each function of the present invention, a route in which the program is stored in the external storage device 1413 or the RAM 1402 from a predetermined server on the network via the network 1500 and the network interface 1404. Etc. are also conceivable.

本発明の一実施形態に係る情報更新装置のハードウェア構成について、一例を説明したが、図23に示す検索処理装置1600やユーザ端末1700のハードウェア構成も基本的に、図25に示す構成と同様である。ただし、ここで、情報更新装置1400及び検索処理装置1600に関しては、オーディオ制御部1405、マイクロフォン1406、スピーカ1407、ディスプレイコントローラ1408、ディスプレイ1409、入力機器インタフェース1410、キーボード1411、及びマウス1412は必須の構成要素ではない。また、ユーザ端末1700に関しては、ディスプレイ1702はディスプレイ1409に相当するものであり、オーディオ制御部1405、マイクロフォン1406、及びスピーカ1407は必須の構成要素ではない。   An example of the hardware configuration of the information updating apparatus according to the embodiment of the present invention has been described, but the hardware configuration of the search processing apparatus 1600 and the user terminal 1700 illustrated in FIG. 23 is basically the same as that illustrated in FIG. It is the same. However, regarding the information update device 1400 and the search processing device 1600, the audio control unit 1405, the microphone 1406, the speaker 1407, the display controller 1408, the display 1409, the input device interface 1410, the keyboard 1411, and the mouse 1412 are essential components. It is not an element. Regarding the user terminal 1700, the display 1702 corresponds to the display 1409, and the audio control unit 1405, the microphone 1406, and the speaker 1407 are not essential components.

ここまで、本発明の一実施形態に係る情報更新装置について、本発明を実施することができるいくつかの実施例を示しながら説明してきたが、これらの実施例は本発明を説明するための一例に過ぎず、本発明の権利範囲はこれらの実施例に限定されることはない。これらの実施例以外の様々な方法や構成によって、本発明の技術的思想を実現することができる。   So far, the information updating apparatus according to an embodiment of the present invention has been described with reference to some examples that can implement the present invention, but these examples are examples for explaining the present invention. However, the scope of rights of the present invention is not limited to these examples. The technical idea of the present invention can be realized by various methods and configurations other than these embodiments.

100 テキストデータ取得処理
110 文字列検索処理
120 異なり度合い判定処理
130 特定文字列決定処理
200 テキストデータ
400 文解析装置
421 テキストデータ取得処理部
422 文字列検索処理部
423 異なり度合い判定処理部
424 特定文字列決定処理部
1100 テキストデータ取得処理
1110 文字列抽出処理
1120 辞書比較処理
1200 テキストデータ
1300 情報更新システム
1400 情報更新装置
1421 テキストデータ取得処理部
1422 文字列抽出処理部
1423 辞書比較処理部
1424 比較結果表示制御部
DESCRIPTION OF SYMBOLS 100 Text data acquisition process 110 Character string search process 120 Difference degree determination process 130 Specific character string determination process 200 Text data 400 Sentence analysis apparatus 421 Text data acquisition process part 422 Character string search process part 423 Difference degree determination process part 424 Specific character string Decision processing unit 1100 Text data acquisition processing 1110 Character string extraction processing 1120 Dictionary comparison processing 1200 Text data 1300 Information update system 1400 Information update device 1421 Text data acquisition processing unit 1422 Character string extraction processing unit 1423 Dictionary comparison processing unit 1424 Comparison result display control Part

Claims (4)

テキストデータから同じ文字列を検索する文字列検索手段と、
前記同じ文字列について、前の隣接文字の異なり度合い、及び後の隣接文字の異なり度合いを判定する異なり度合い判定手段と、
前記前の隣接文字の異なり度合い、前記後の隣接文字の異なり度合い、及び前記テキストデータにおける前記同じ文字列の出現頻度に基づいて前記同じ文字列の重要度を判定し、前記同じ文字列が特定文字列であるか否かを決定する特定文字列決定手段とを備え、
前記特定文字列決定手段は、
複数の異なるテキストデータを含むグループにおいて、複数の特定文字列が含まれる場合に、それぞれの特定文字列に関する前記重要度に基づいて、前記グループ内における特定文字列のランク付けを行い、前記複数の特定文字列を、前記グループに関連付けて記憶することを特徴とする文解析装置。
A character string search means for searching for the same character string from text data;
For the same character string, a different degree determination means for determining a difference degree of a preceding adjacent character and a difference degree of a subsequent adjacent character;
The degree of importance of the same character string is determined based on the degree of difference between the preceding adjacent characters, the degree of difference between the subsequent adjacent characters, and the appearance frequency of the same character string in the text data, and the same character string is identified. Specific character string determining means for determining whether or not the character string,
The specific character string determining means includes
In group including a plurality of different text data, if included is a plurality of specific character strings, based on the importance for each specific character string, performs the ranking of a specific character string in the previous Kigu the loop, the a plurality of the specific character string, before sentence analyzing unit and to store in association with Kigu loop.
前記特定文字列決定手段はさらに、
前記同じ文字列の文字長に基づいて前記同じ文字列の重要度を判定し、前記同じ文字列が特定文字列であるか否かを決定することを特徴とする、請求項1に記載の文解析装置。
The specific character string determining means further includes
The sentence according to claim 1, wherein importance of the same character string is determined based on a character length of the same character string, and whether or not the same character string is a specific character string is determined. Analysis device.
テキストデータから同じ文字列を検索する文字列検索ステップと、
前記同じ文字列について、前の隣接文字の異なり度合い、及び後の隣接文字の異なり度合いを判定する異なり度合い判定ステップと、
前記前の隣接文字の異なり度合い、前記後の隣接文字の異なり度合い、及び前記テキストデータにおける前記同じ文字列の出現頻度に基づいて前記同じ文字列の重要度を判定し、前記同じ文字列が特定文字列であるか否かを決定する特定文字列決定ステップとを含み、
前記特定文字列決定ステップは、
複数の異なるテキストデータを含むグループにおいて、複数の特定文字列が含まれる場合に、それぞれの特定文字列に関する前記重要度に基づいて、前記グループ内における特定文字列のランク付けを行い、前記複数の特定文字列を、前記グループに関連付けて記憶することを特徴とする文解析方法。
A string search step for searching for the same string from text data;
For the same character string, a different degree determination step for determining a difference degree of a preceding adjacent character and a difference degree of a subsequent adjacent character;
The degree of importance of the same character string is determined based on the degree of difference between the preceding adjacent characters, the degree of difference between the subsequent adjacent characters, and the appearance frequency of the same character string in the text data, and the same character string is identified. A specific character string determining step for determining whether the character string is a character string,
The specific character string determining step includes:
In group including a plurality of different text data, if included is a plurality of specific character strings, based on the importance for each specific character string, performs the ranking of a specific character string in the previous Kigu the loop, the sentence analyzing method characterized in that in association plurality of specific character strings, before Kigu loop.
コンピュータに、
テキストデータから同じ文字列を検索する文字列検索手段、
前記同じ文字列について、前の隣接文字の異なり度合い、及び後の隣接文字の異なり度合いを判定する異なり度合い判定手段、及び、
前記前の隣接文字の異なり度合い、前記後の隣接文字の異なり度合い、及び前記テキストデータにおける前記同じ文字列の出現頻度に基づいて前記同じ文字列の重要度を判定し、前記同じ文字列が特定文字列であるか否かを決定する特定文字列決定手段として機能させるプログラムであって、
前記特定文字列決定手段は、
複数の異なるテキストデータを含むグループにおいて、複数の特定文字列が含まれる場合に、それぞれの特定文字列に関する前記重要度に基づいて、前記グループ内における特定文字列のランク付けを行い、前記複数の特定文字列を、前記グループに関連付けて記憶することを特徴とするプログラム。
On the computer,
String search means for searching for the same string from text data,
For the same character string, a different degree determination means for determining a difference degree of a preceding adjacent character and a difference degree of a subsequent adjacent character, and
The degree of importance of the same character string is determined based on the degree of difference between the preceding adjacent characters, the degree of difference between the subsequent adjacent characters, and the appearance frequency of the same character string in the text data, and the same character string is identified. A program that functions as a specific character string determining means for determining whether or not a character string,
The specific character string determining means includes
In group including a plurality of different text data, if included is a plurality of specific character strings, based on the importance for each specific character string, performs the ranking of a specific character string in the previous Kigu the loop, the a program characterized by a plurality of specific character string, in association previously Kigu loop.
JP2013242047A 2013-11-22 2013-11-22 Sentence analysis apparatus, sentence analysis method, program Active JP6125414B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013242047A JP6125414B2 (en) 2013-11-22 2013-11-22 Sentence analysis apparatus, sentence analysis method, program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013242047A JP6125414B2 (en) 2013-11-22 2013-11-22 Sentence analysis apparatus, sentence analysis method, program

Publications (2)

Publication Number Publication Date
JP2015102958A JP2015102958A (en) 2015-06-04
JP6125414B2 true JP6125414B2 (en) 2017-05-10

Family

ID=53378624

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013242047A Active JP6125414B2 (en) 2013-11-22 2013-11-22 Sentence analysis apparatus, sentence analysis method, program

Country Status (1)

Country Link
JP (1) JP6125414B2 (en)

Also Published As

Publication number Publication date
JP2015102958A (en) 2015-06-04

Similar Documents

Publication Publication Date Title
JP4701292B2 (en) Computer system, method and computer program for creating term dictionary from specific expressions or technical terms contained in text data
US8781817B2 (en) Phrase based document clustering with automatic phrase extraction
JP6759308B2 (en) Maintenance equipment
US8965894B2 (en) Automated web page classification
US20130060769A1 (en) System and method for identifying social media interactions
WO2013148852A1 (en) Named entity extraction from a block of text
US11573989B2 (en) Corpus specific generative query completion assistant
Jabbar et al. An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach
JP2014106665A (en) Document retrieval device and document retrieval method
JP2002132811A (en) Method and system for answering question and recording medium with recorded question answering program
Harrando et al. Explainable zero-shot topic extraction using a common-sense knowledge graph
CN110633375A (en) System for media information integration utilization based on government affair work
KR100795930B1 (en) Method and system for recommending query based search index
JP5491446B2 (en) Topic word acquisition apparatus, method, and program
JP6125414B2 (en) Sentence analysis apparatus, sentence analysis method, program
JP5911839B2 (en) Information search system, information search device, information search method, and program
JP5944368B2 (en) Information update device, information update method, and program
KR100659370B1 (en) Method for constructing a document database and method for searching information by matching thesaurus
US11150871B2 (en) Information density of documents
CN112711695A (en) Content-based search suggestion generation method and device
JP2004220226A (en) Document classification method and device for retrieved document
KR101702559B1 (en) Method for Generation and Matching of Normal and Transient Dictionary for Realtime Topic Detection, and Apparatus thereof
JP4574186B2 (en) Important language identification method, important language identification program, important language identification device, document search device, and keyword extraction device
JP2014146076A (en) Character string extraction method, character string extraction apparatus, and character string extraction program
JP7116940B2 (en) Method and program for efficiently structuring and correcting open data

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151015

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160413

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20160421

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20160520

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170405

R150 Certificate of patent or registration of utility model

Ref document number: 6125414

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250