JP2005339043A - Natural language processing method, natural language processing device, natural language processing program, and recording medium with the program recorded thereon - Google Patents

Natural language processing method, natural language processing device, natural language processing program, and recording medium with the program recorded thereon Download PDF

Info

Publication number
JP2005339043A
JP2005339043A JP2004155036A JP2004155036A JP2005339043A JP 2005339043 A JP2005339043 A JP 2005339043A JP 2004155036 A JP2004155036 A JP 2004155036A JP 2004155036 A JP2004155036 A JP 2004155036A JP 2005339043 A JP2005339043 A JP 2005339043A
Authority
JP
Japan
Prior art keywords
natural language
point
language processing
morpheme
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004155036A
Other languages
Japanese (ja)
Inventor
Eiji Kenmochi
栄治 剣持
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2004155036A priority Critical patent/JP2005339043A/en
Publication of JP2005339043A publication Critical patent/JP2005339043A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a natural language processing method allowing extraction of information with expression easily accessible to a user, a natural language processing device, a natural language processing program, and a recording medium with the program recorded thereon. <P>SOLUTION: This natural language processing method for carrying out language analysis on a text to divide it into morphemes for extracting information from the text includes a point increase/reduction procedure for increasing/reducing points about activity of a morpheme and a point storage procedure storing the points of the morpheme increased/reduced by the point increase/reduction procedure. Referring to the points stored in the point storage procedure, information is extracted from the text based on the dimension of the points. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、テキストデータを分析することが可能なテキストマイニング技術に係わり、特に、ユーザにとってわかりやすい表現で情報の抽出が可能な自然言語処理方法、自然言語処理装置、自然言語処理プログラム及び自然言語処理プログラムが記録された記録媒体に関する。   The present invention relates to a text mining technique capable of analyzing text data, and in particular, a natural language processing method, a natural language processing apparatus, a natural language processing program, and a natural language processing capable of extracting information with a user-friendly expression. The present invention relates to a recording medium on which a program is recorded.

従来、アンケートデータやコールセンターに寄せられたデータなどの大量のテキストデータを分析することを目的としたテキストマイニングが知られている。テキストマイニングを用いれば、ユーザのクレームや意見、アンケートの自由記述回答文、インターネット上の掲示板での書き込みなどを分析できる。   Conventionally, text mining for analyzing a large amount of text data such as questionnaire data or data sent to a call center is known. By using text mining, users' complaints and opinions, questionnaire free text responses, and writing on bulletin boards on the Internet can be analyzed.

テキストマイニングを用いた分析を行う際には、文書集合内に含まれる特徴的な概念を抽出することが大きな課題の一つとなる。概念情報を含む情報抽出技術は、大量のテキストデータから何らかの知見を見出す方法として研究が進んでいる。テキストデータから主題やトピック、書き手の意図等を表現する有益な情報を抽出することができれば、主題等に基づいた文書検索、文書解析、文書分析などの応用が実現可能となる。   When performing analysis using text mining, extracting a characteristic concept included in a document set is one of the major issues. Research on information extraction technology including conceptual information is progressing as a method of finding some knowledge from a large amount of text data. If useful information expressing the subject, topic, writer's intention, and the like can be extracted from the text data, applications such as document search, document analysis, and document analysis based on the subject can be realized.

テキストマイニング技術においては、分析したテキストデータの文書カテゴリを代表用語で表現したり、重要文のキーワードを抽出するなど、用語を用いて分析の結果を表現することが多い。 このような代表用語の選出処理は、主に例えば形態素解析など、用語辞書を利用した自然言語処理手法により、文書・文書集合内の用語の出現頻度などの統計情報が用いられることが一般的である。   In the text mining technology, a document category of analyzed text data is often expressed in terms of representative terms, or keywords of important sentences are extracted, and the results of analysis are often expressed using terms. In such a representative term selection process, statistical information such as the appearance frequency of terms in a document / document collection is generally used mainly by a natural language processing method using a term dictionary such as morphological analysis. is there.

しかしながら、出現頻度の高い用語で情報を抽出しても、その用語が専門用語や一部だけで通用するような用語であると、抽出された情報がユーザによっては難解となる。これに対し、難解な用語の意義の理解を支援する方法として、いわゆる、パラフレージング技術が提案されている(例えば、非特許文献1参照。)。パラフレージング技術とは、用語を別の用語で置き換えたり、併記することをいう。パラフレージング技術を用いれば、難解な用語などを別の言葉で表現できるので、抽出された情報の理解が容易にすることができる。
http://www.pluto.ai.kyutech.ac.jp/NLP/guide/news/file/525.html”インタラクティブパラフレーズ”、言語処理学会第7回年次大会ワークショップ((2001年3月26日〜30日)、東中竜一郎・長尾確)
However, even if information is extracted with terms having a high appearance frequency, the extracted information is difficult for some users if the term is a technical term or a term that can be used only in a part. On the other hand, a so-called paraphrasing technique has been proposed as a method for supporting the understanding of the meaning of difficult terms (for example, see Non-Patent Document 1). Paraphrasing technology refers to replacing a term with another term or writing it together. If paraphrasing technology is used, difficult terms can be expressed in different words, so that the extracted information can be easily understood.
http://www.pluto.ai.kyutech.ac.jp/NLP/guide/news/file/525.html“Interactive Paraphrase ”, 7th Annual Workshop of the Language Processing Society of Japan ((March 2001 26 to 30), Ryuichiro Higashinaka, Satoshi Nagao)

しかしながら、ユーザにとって有益な情報はユーザにより異なるため、パラフレージングされた用語がユーザにとって未知又は既知なのか、既知であるとしたらどの程度既知なのかが不明である。ユーザの立場に立てば、例えば、未知の用語や普段あまり使用しない用語により表現されても、あまり有用な情報とは感じられず、逆にユーザがよく使用する用語であれば、より有用性が感じられると考えられる。したがって、パラフレージング技術では、ユーザにとってわかりにくい表現となる可能性が生じるという問題があった。   However, since information useful to the user varies from user to user, it is unclear whether or not the paraphrased term is unknown or known to the user or how well known. From the user's point of view, for example, even if it is expressed by unknown terms or terms that are not normally used, it does not seem to be very useful information. Conversely, terms that are frequently used by users are more useful. It can be felt. Therefore, the paraphrasing technique has a problem that the expression may be difficult to understand for the user.

本発明は、上記問題に鑑み、ユーザにとってわかりやすい表現で情報の抽出が可能な自然言語処理方法、自然言語処理装置、自然言語処理プログラム及び自然言語処理プログラムが記録された記録媒体、を提供することを目的とする。   In view of the above problems, the present invention provides a natural language processing method, a natural language processing apparatus, a natural language processing program, and a recording medium on which a natural language processing program is recorded, which can extract information with a user-friendly expression. With the goal.

本発明は、上記問題に鑑み、テキストを言語解析して形態素に分割し、該テキストから情報を抽出する自然言語処理方法において、形態素の活性に係るポイントを増減するポイント増減手順と、ポイント増減手順により増減された形態素のポイントを記憶するポイント記憶手順と、ポイント記憶手順に記憶されているポイントを参照し、該ポイントの大きさに基づいて前記テキストから情報を抽出する、ことを特徴とする。本発明によれば、活性に係るポイントの大きい形態素を用いることで、ユーザにとってわかりやすい表現で情報の抽出が可能な自然言語処理方法を提供できる。   In view of the above problems, the present invention relates to a natural language processing method that linguistically analyzes a text, divides the text into morphemes, and extracts information from the text. And a point storage procedure for storing the points of the morpheme increased or decreased by the step, and by referring to the points stored in the point storage procedure, information is extracted from the text based on the size of the points. According to the present invention, it is possible to provide a natural language processing method capable of extracting information with a user-friendly expression by using a morpheme having a large point related to activity.

また、本発明の自然言語処理方法の一形態において、テキストを言語解析する際に参照する辞書と、辞書の形態素を参照した日時をその都度形態素毎に記憶する形態素参照日時記憶手順と、を有し、ポイント増減手順は、形態素参照日時記憶手順により記憶されている第1の日時と前回ポイントの増減を行った第2の日時とを比較し、第1の日時が前記第2の日時よりも新しい場合、当該形態素のポイントを所定量増大させ、第1の日時が前記第2の日時よりも新しくない場合、当該形態素のポイントを所定量減少させる、ことを特徴とする。本発明によれば、辞書を参照される頻度の高い形態素の活性に係るポイントを大きくすることができる。   Further, in one form of the natural language processing method of the present invention, there is provided a dictionary that is referred to when text is linguistically analyzed, and a morpheme reference date storage procedure that stores the date and time when the morpheme of the dictionary is referenced for each morpheme. The point increase / decrease procedure compares the first date / time stored by the morpheme reference date / time storage procedure with the second date / time when the previous point increase / decrease is performed, and the first date / time is greater than the second date / time. If new, the morpheme point is increased by a predetermined amount, and if the first date and time is not newer than the second date and time, the morpheme point is decreased by a predetermined amount. ADVANTAGE OF THE INVENTION According to this invention, the point which concerns on the activity of the morpheme which is frequently referred to a dictionary can be enlarged.

また、本発明の自然言語処理方法の一形態において、言語解析によりテキストを分割して得られた形態素の類義語に係る情報を参照する類義語情報参照手順を有し、ポイント増減手順は、類義語情報参照手順が参照した類義語のポイントを増大させ、ポイント記憶手順により記憶させる、ことを特徴とする。本発明によれば、辞書を参照された形態素の類義語においても、活性に係るポイントを増大させることができる。   Further, in one form of the natural language processing method of the present invention, there is a synonym information reference procedure for referring to information related to synonyms of morphemes obtained by dividing text by language analysis, and the point increase / decrease procedure refers to synonym information The point of the synonym referred to by the procedure is increased and stored by the point storage procedure. According to the present invention, it is possible to increase points related to activity even in synonyms of morphemes referenced in a dictionary.

また、本発明の自然言語処理方法の一形態において、類義語のポイントを増大させるか否かを判定するための判定閾値を指定する判定閾値指定手順を、有し、ポイント増減手順は、判定閾値指定手順により指定された判定閾値とポイント記憶手順に記憶された類義語のポイントとを比較し、判定閾値の方が小さい場合、当該類義語のポイントを増大させる、ことを特徴とする。本発明によれば、類義語として参照しても、活性に係るポイントが判定閾値よりも低い場合には、ポイントを増大させないので、活性に係るポイントが小さい形態素で情報が抽出されることが防止できる。なお、判定の閾値は、活性の度合いが分かるものであればよいので、例えば辞書を参照した日時であってもよい。日時を閾値とした場合、形態素参照日時記憶手順により記憶されている第1の日時と比較する。   In one embodiment of the natural language processing method of the present invention, the method further comprises a determination threshold value specifying procedure for specifying a determination threshold value for determining whether or not to increase the point of the synonym. The determination threshold value specified by the procedure is compared with the synonym points stored in the point storage procedure, and the point of the synonym is increased when the determination threshold value is smaller. According to the present invention, even when referred to as a synonym, when the point related to activity is lower than the determination threshold, the point is not increased, and thus it is possible to prevent information from being extracted with a morpheme having a small point related to activity. . Note that the determination threshold value may be any value as long as the degree of activity is known, and may be, for example, a date and time when a dictionary is referenced. When the date / time is set as a threshold, it is compared with the first date / time stored by the morpheme reference date / time storing procedure.

また、本発明は、テキストを言語解析して形態素に分割し、該テキストから情報を抽出する自然言語処理装置において、形態素の活性に係るポイントを増減するポイント増減手段と、ポイント増減手段により増減された形態素のポイントを記憶するポイント記憶手段と、ポイント記憶手段に記憶されているポイントを参照し、該ポイントの大きさに基づいて前記テキストから情報を抽出する、ことを特徴とする。本発明によれば、活性に係るポイントの大きい形態素を用いることで、ユーザにとってわかりやすい表現で情報の抽出が可能な自然言語処理装置を提供できる。   Further, the present invention provides a natural language processing device that linguistically analyzes text, divides it into morphemes, and extracts information from the text, and is increased / decreased by point increasing / decreasing means for increasing / decreasing points related to morpheme activity. Point storage means for storing the points of the morpheme, and referring to the points stored in the point storage means, and extracting information from the text based on the size of the points. ADVANTAGE OF THE INVENTION According to this invention, the natural language processing apparatus which can extract information by an expression easy to understand for a user can be provided by using a morpheme with the big point concerning activity.

また、本発明の自然言語処理装置において、テキストを言語解析する際に参照する辞書と、辞書の形態素を参照した日時をその都度形態素毎に記憶する形態素参照日時記憶手段と、を有し、ポイント増減手段は、形態素参照日時記憶手段により記憶されている第1の日時と前回ポイントの増減を行った第2の日時とを比較し、第1の日時が第2の日時よりも新しい場合、当該形態素のポイントを所定量増大させ、第1の日時が前記第2の日時よりも新しくない場合、当該形態素のポイントを所定量減少させる、ことを特徴とする。   The natural language processing apparatus of the present invention has a dictionary that is referred to when text is linguistically analyzed, and a morpheme reference date storage unit that stores the date and time when the morpheme of the dictionary is referenced for each morpheme, The increase / decrease means compares the first date / time stored in the morpheme reference date / time storage means with the second date / time when the previous point was increased / decreased, and if the first date / time is newer than the second date / time, A morpheme point is increased by a predetermined amount, and if the first date and time is not newer than the second date and time, the morpheme point is decreased by a predetermined amount.

また、本発明の自然言語処理装置において、言語解析によりテキストを分割して得られた形態素の類義語に係る情報を参照する類義語情報参照手段を有し、ポイント増減手段は、類義語情報参照手段が参照した類義語のポイントを増大させ、前記ポイント記憶手段により記憶させる、ことを特徴とする。   The natural language processing apparatus of the present invention further includes synonym information reference means for referring to information related to morpheme synonyms obtained by dividing text by language analysis, and the point increase / decrease means is referred to by the synonym information reference means. The points of the synonyms are increased and stored by the point storage means.

また、本発明の自然言語処理装置において、類義語のポイントを増大させるか否かを判定するための判定閾値を指定する判定閾値指定手段を、有し、ポイント増減手段は、判定閾値指定手段により指定された判定閾値と前記ポイント記憶手段に記憶された類義語のポイントとを比較し、判定閾値の方が小さい場合、当該類義語のポイントを増大させる、ことを特徴とする。   The natural language processing apparatus of the present invention further includes a determination threshold value specifying means for specifying a determination threshold value for determining whether or not to increase the point of the synonym, and the point increase / decrease means is specified by the determination threshold value specifying means. The determined determination threshold value is compared with the synonym point stored in the point storage means, and when the determination threshold value is smaller, the point of the synonym is increased.

また、本発明は、上記の自然言語処理方法をコンピュータに実行させる自然言語処理プログラムを提供する。また、本発明は、自然言語処理方法をコンピュータに実行させる自然言語処理プログラムが記録された記録媒体を提供する。   The present invention also provides a natural language processing program that causes a computer to execute the above natural language processing method. The present invention also provides a recording medium on which a natural language processing program for causing a computer to execute a natural language processing method is recorded.

ユーザにとってわかりやすい表現で情報の抽出が可能な自然言語処理方法、自然言語処理装置、自然言語処理プログラム及び自然言語処理プログラムが記録された記録媒体、を提供することができる。   It is possible to provide a natural language processing method, a natural language processing apparatus, a natural language processing program, and a recording medium on which a natural language processing program is recorded, in which information can be extracted with a user-friendly expression.

以下、本発明を実施するための最良の形態について、図を参照しながら実施例を上げて説明する。   The best mode for carrying out the present invention will be described below with reference to the drawings.

図1は、自然言語処理装置の機能構成図の一例を示す。図1の自然言語処理装置は、テキストデータ入力手段11、言語解析手段12、用語活性度算出手段13、用語辞書14、用語活性度記憶手段15、用語参照時刻計測手段16及び用語参照時刻記憶手段17を有するように構成される。以下、図1の各手段について詳細に説明する。 FIG. 1 shows an example of a functional configuration diagram of a natural language processing apparatus. The natural language processing apparatus of FIG. 1 includes text data input means 11, language analysis means 12, term activity calculation means 13, term dictionary 14, term activity storage means 15, term reference time measurement means 16, and term reference time storage means. 17 is configured. Hereinafter, each means in FIG. 1 will be described in detail.

〔テキストデータ入力手段11〕
テキストデータ入力手段11は、言語解析の対象となるテキストデータを入力する。キーボードを用いて入力することも可能であるし、すでにテキストデータが記録されているファイルを入力してもよい。その他、スキャニング、コピー&ペーストなど様々な方法で入力できる。なお、本実施例において、テキストを構成する最小単位を用語と称し、言語解析して分割された、テキストを構成する最小単位を形態素と称す。両者は同等なものであるが、本実施例では、テキストから分割された場合に形態素と称し、それ以外(用語辞書に格納されている場合、活性度を表す場合、類義語を表す場合など)は、用語と称する。
[Text data input means 11]
The text data input unit 11 inputs text data to be subjected to language analysis. It is possible to input using a keyboard, or a file in which text data is already recorded may be input. In addition, you can input by various methods such as scanning, copy and paste. In this embodiment, the minimum unit constituting the text is referred to as a term, and the minimum unit constituting the text divided by linguistic analysis is referred to as a morpheme. Although both are equivalent, in this embodiment, they are referred to as morphemes when divided from text, and otherwise (when stored in a term dictionary, when representing activity, when representing synonyms, etc.) , Terminology.

〔言語解析手段12〕
言語解析手段12は、入力されたテキストデータに対して言語解析を行う。本実施例による自然言語処理では、テキストデータを言語解析した結果得られる形態素に関し、ユーザにとって有益な付加情報を与える。したがって、言語解析手段12は、例えば形態素解析や文節係り受け解析などの手法を用い、言語解析を行いテキストデータを形態素に分割する。言語解析手段12は、用語辞書14を有し、用語辞書14を用いて形態素解析を行う。以下の実施例では、用語辞書14を用いる任意の自然言語処理方法を対象として、日本語文書を対象とした形態素解析により処理を行う。なお、本実施例では、形態素解析アルゴリズム自体を改良する例は示さないが、本実施例の簡単な応用により形態素解析アルゴリズム自体に機能追加できる。
[Language analysis means 12]
The language analysis means 12 performs language analysis on the input text data. In the natural language processing according to the present embodiment, additional information useful for the user is given regarding morphemes obtained as a result of language analysis of text data. Therefore, the language analysis unit 12 performs language analysis and divides the text data into morphemes using a technique such as morphological analysis or phrase dependency analysis. The language analysis unit 12 includes a term dictionary 14 and performs morphological analysis using the term dictionary 14. In the following embodiment, an arbitrary natural language processing method using the term dictionary 14 is processed, and processing is performed by morphological analysis for a Japanese document. In this embodiment, an example of improving the morpheme analysis algorithm itself is not shown, but a function can be added to the morpheme analysis algorithm itself by a simple application of this embodiment.

なお、本実施例では簡単のため、形態素解析の機能はモジュール化されており、任意の文字列を入力すると文字列を構成する形態素の識別番号をリスト形式(複数行×1列の1次元リスト形式)で取得する機能を有しているものとする。すなわち、言語解析手段12は形態素解析モジュールを有し、形態素解析モジュールによりテキストデータが形態素に分割される。   For the sake of simplicity in this embodiment, the function of morpheme analysis is modularized. When an arbitrary character string is input, the identification number of the morpheme constituting the character string is displayed in a list format (one-dimensional list of multiple rows × one column). Format). That is, the language analysis unit 12 has a morpheme analysis module, and the text data is divided into morphemes by the morpheme analysis module.

形態素解析処理について簡単に説明する。形態素解析とは、与えられた文字列(テキストデータ)を用意されている用語辞書を基に形態素(語の最小単位)に分ける処理である。例えば、”そこで履物を脱げ”という文字列に対して形態素解析が行われた結果を図2に示す。図2の形態素解析の処理結果において、記号“/”は形態素の区切りを示す。図2の形態素解析の処理結果によれば、”そこで履物を脱げ”という文字列は、5つの形態素に分割される。なお、通常、形態素解析では各形態素に対し品詞や基本型などの情報も得ることができるが、本実施例での形態素解析は、文字列に対して形態素の基本型と辞書内での識別番号が得られるものであればよい。また、使用される内部アルゴリズムや用語辞書は限定されない(形態素解析については、「情報検索と言語処理」、徳永健伸、東京大学出版会等に詳しい。)。   The morphological analysis process will be briefly described. The morpheme analysis is a process of dividing a given character string (text data) into morphemes (minimum units of words) based on a prepared term dictionary. For example, FIG. 2 shows a result of morphological analysis performed on a character string “Take off footwear there”. In the result of the morpheme analysis shown in FIG. 2, the symbol “/” indicates a morpheme break. According to the processing result of the morpheme analysis in FIG. 2, the character string “Take off footwear there” is divided into five morphemes. Normally, in morpheme analysis, information such as part of speech and basic type can be obtained for each morpheme. However, in this example, morpheme analysis is based on the basic type of morpheme and the identification number in the dictionary. What is necessary is just to obtain. Also, the internal algorithm and terminology dictionary used are not limited (for details on morphological analysis, see “Information Retrieval and Language Processing”, Takenobu Tokunaga, University of Tokyo Press, etc.).

〔用語参照時刻計測手段16〕
用語参照時刻計測手段16は、言語解析手段12が用語辞書14を参照するときの日時(以下、単に時刻という)を計測する。図3は、自然言語処理として形態素解析を行い、用語参照時刻計測手段16が用語辞書14を参照するときの時刻を計測する処理の疑似コードの一例を示す。なお、“*”で囲まれる処理(ステップS1、S2)については、形態素解析を構成する用語辞書14に更新されない場合には1度だけ実行すればよい。
[Term reference time measuring means 16]
The term reference time measuring means 16 measures the date and time (hereinafter simply referred to as “time”) when the language analyzing means 12 refers to the term dictionary 14. FIG. 3 shows an example of pseudo code of processing for performing morphological analysis as natural language processing and measuring the time when the term reference time measuring means 16 refers to the term dictionary 14. Note that the processing surrounded by “*” (steps S1 and S2) need only be executed once if it is not updated to the term dictionary 14 constituting the morphological analysis.

図3の擬似コードに沿って説明する。始めに、用語辞書14を構成する形態素とその識別番号が図4(a)及び(b)に示されるような構成であるとする。例えば、形態素“どこ”の識別番号は“1222”、形態素“靴”の識別番号は“79550”である。   A description will be given along the pseudo code of FIG. First, it is assumed that the morphemes constituting the term dictionary 14 and their identification numbers are as shown in FIGS. 4 (a) and 4 (b). For example, the identification number of the morpheme “where” is “1222”, and the identification number of the morpheme “shoes” is “79550”.

ステップS1において、言語解析手段12は、識別番号をリストIDLに出力する。リストIDLは図3(c)のように、図3(b)と同じ識別番号が取得される。すなわち、用語辞書14の全ての用語がリストIDLに識別番号を要素値として出力される。次いで、ステップS2において、リストIDLと同じ要素数のリストTLが生成され、図3(d)のように、初期値−1が代入される。   In step S1, the language analysis unit 12 outputs the identification number to the list IDL. As shown in FIG. 3C, the list IDL has the same identification number as that in FIG. That is, all the terms in the term dictionary 14 are output as identification values in the list IDL. Next, in step S2, a list TL having the same number of elements as the list IDL is generated, and an initial value −1 is substituted as shown in FIG.

次に、ステップS3において、この形態素解析モジュールに対し、”そこで履物を脱げ”と言う文字列Sが入力される。次いで、ステップS4において、形態素解析モジュールが図2に示す形態素に文字列Sを分割する。   Next, in step S3, a character string S “Take off footwear there” is input to the morphological analysis module. Next, in step S4, the morphological analysis module divides the character string S into the morphemes shown in FIG.

ステップ5において、言語解析手段12は、文字列Sの形態素を、リストRIDLに識別番号で出力する。図5は、リストRIDLの一例を示す。文字列S「そこで履物を脱げ」の各形態素では、“そこ”が1223、“で”が7866、“履物”が65433、“を”が7867、“脱げ(脱ぐ)”が123405、の識別番号となる。   In step 5, the language analysis means 12 outputs the morpheme of the character string S to the list RIDL with the identification number. FIG. 5 shows an example of the list RIDL. In each morpheme of the character string S “Take off footwear there”, the identification number “There” is 1223, “De” is 7866, “Footwear” is 65433, “O” is 7867, and “Take off” is 123405. It becomes.

ステップS6において、用語参照時刻計測手段16は、形態素の解析が終了した時刻を変数CTに取得する。次いで、リストRIDLの要素値の識別番号に対応するリストTLの要素値を、変数CTに格納された時刻と置き換える(ステップS7〜S9)。これにより、用語辞書14を参照した時刻がリストTLに格納される。入力される時刻はどのような形式でもよいが、例えばUNIX(登録商標)オペレーティングシステム等で採用されているような基準時からの経過秒数として時刻を整数表現したものを用いることで時刻の算術処理が容易になる。例えば、整数表現としての形態素の解析処理の終了時刻がCT=20034567(2003年4月5日6時7分)として与えられると、リストTLの所定の要素には、20034567が格納される。なお、本実施例では、簡単のためリストTLとして1次元リストを採用しているが、リストTLとして各要素が複数個の値をもつことができる多次元リストを採用することで、形態素の参照された時刻の傾向を有する情報を得ることができる。リストRIDLの全ての要素値について処理が終了すると、リストTLは、図4(e)に示すような要素値を有する。   In step S6, the term reference time measuring means 16 acquires the time when the analysis of the morpheme is completed in the variable CT. Next, the element value of the list TL corresponding to the identification number of the element value of the list RIDL is replaced with the time stored in the variable CT (steps S7 to S9). Thereby, the time referring to the term dictionary 14 is stored in the list TL. The input time can be in any format, but for example, the arithmetic of the time can be done by using an integer representation of the time as the number of seconds that have elapsed since the reference time, such as that adopted by the UNIX (registered trademark) operating system. Processing becomes easy. For example, if the end time of the morpheme analysis processing as an integer expression is given as CT = 20034567 (April 5, 2003 6:07), 20034567 is stored in a predetermined element of the list TL. In this embodiment, a one-dimensional list is used as the list TL for simplicity. However, by using a multi-dimensional list in which each element can have a plurality of values as the list TL, morpheme reference is performed. It is possible to obtain information having a tendency of the designated time. When processing is completed for all element values of the list RIDL, the list TL has element values as shown in FIG.

用語参照時刻記憶手段17は、図3の擬似コードを処理することで得られた、用語辞書14に含まれる用語の参照時刻をリストTLのような形式で記憶する。また、用語参照時刻計測記憶手段17は、本願の特許請求の範囲では、形態素参照日時記憶手段をいう。   The term reference time storage means 17 stores the reference times of terms included in the term dictionary 14 obtained by processing the pseudo code of FIG. 3 in a format like a list TL. Further, the term reference time measurement storage means 17 refers to a morpheme reference date storage means in the claims of the present application.

〔用語活性度算出手段13〕
用語活性度算出手段13は、言語解析手段12が解析するテキストデータの用語(形態素)に対してその活性度を算出する。始めに、用語の活性度について説明する。活性度とは、当該ユーザにとってその形態素とどの程度接触の機会があるかを表す指標である。なお、活性度は、本願の特許請求の範囲では、活性に係るポイントであり、用語活性度算出手段13は、ポイント増減手段である。
[Term activity calculating means 13]
The term activity level calculation means 13 calculates the activity level of the text data term (morpheme) analyzed by the language analysis means 12. First, the term activity will be described. The degree of activity is an index indicating how much contact the user has with the morpheme. The activity is a point related to the activity in the claims of the present application, and the term activity calculation means 13 is a point increase / decrease means.

一例として、予め形態素の活性度が与えられており、所定の文書集合を代表する形態素を抽出する場合について説明する。形態素の活性度はユーザが最近作成した文書から得られる情報を基に算出されるものとする。まず、所定の文書集合の代表形態素として、”分析”、”制約”、”文書”という3つの形態素が得られており、それぞれの形態素の文書集合内での正規化された出現頻度が0.4、0.2、0.6、また、活性度が0.3、0.6、0.2であったとする。さらに、”制約”の類義語として、”制限”、”規制”、"限定”が与えられ、それぞれの活性度 が0.5、0.1、0.2であるものとする。   As an example, a case will be described in which morpheme activity is given in advance and a morpheme representing a predetermined document set is extracted. The activity of the morpheme is calculated based on information obtained from a document recently created by the user. First, as representative morphemes of a predetermined document set, three morphemes “analysis”, “constraint”, and “document” are obtained, and the normalized appearance frequency in the document set of each morpheme is 0.4, It is assumed that the activity is 0.2, 0.6, and the activity is 0.3, 0.6, 0.2. Furthermore, “restriction”, “restriction”, and “restriction” are given as synonyms for “restriction”, and the respective activities are assumed to be 0.5, 0.1, and 0.2.

ここで所定の文書集合を代表する形態素に順序をつける場合、正規化頻度をもとにすると、”文書"、”分析"、”制約”の順序となるが、活性度順に並び替えると”制約”、"分析”、“文書”の順序となる。つまり、活性度により順序を付けると、文書集合内に含まれる代表形態素をユーザが最近作成した文書との関連の度合いによって順序付けていることになり、ユーザにとって接触の機会の多い形態素により代表形態素を表現できる。したがって、活性度を算出及び記憶することにより、その自然言語処理方法の処理結果およびその自然言語処理を含むより上位の処理に対し、ユーザにとって有益な付加情報を与えることができる。   Here, when ordering the morphemes that represent a given document set, the order of "document", "analysis", and "constraint" will be based on the normalization frequency. "," Analysis "," document ". In other words, when ordering is based on the degree of activity, the representative morphemes included in the document set are ordered according to the degree of association with the documents that the user has recently created, and the representative morphemes are selected according to the morphemes that are frequently contacted by the user. Can express. Therefore, by calculating and storing the degree of activity, additional information useful for the user can be given to the processing result of the natural language processing method and higher-level processing including the natural language processing.

”制約”と言う形態素を類義語で言い換えをおこなうことを考える。例えば、ユーザに類義語を提示し、それらをユーザに選択させるという手続きをとる場合、得られている形態素の活性度順に形態素(類義語)を提示することで、ユーザに選択の際の支援を与えることができる。   Consider paraphrasing morphemes called "constraints" with synonyms. For example, when taking the procedure of presenting synonyms to the user and letting the user select them, the morphemes (synonyms) are presented in the order of the activity of the obtained morphemes, thereby giving the user assistance during selection. Can do.

本実施例では、用語の活性度を以下のように定義する。
・活性度の初期値は0.5とする。
・減少定数をkとする。ただし、kは1以上の整数である。
・前回の活性度の算出時刻以降に用語辞書14で参照されていない用語について、活性度を1/k減ずる。ただし、活性度が0未満となる場合は0とする。
・前回の算出時刻以降に用語辞書14で参照された用語について、活性度に1/kを加える。ただし、活性度が1を越える場合は1とする。
In this example, the term activity is defined as follows.
・ The initial value of activity is 0.5.
・ The decrease constant is k. However, k is an integer of 1 or more.
-Decrease the activity by 1 / k for terms that are not referenced in the term dictionary 14 after the previous activity calculation time. However, when the activity is less than 0, it is set to 0.
Add 1 / k to the degree of activity for the term referenced in the term dictionary 14 after the previous calculation time. However, if the activity exceeds 1, set to 1.

活性度の定義によれば、前回の活性度の算出時刻を所定の記憶手段に保持しておき、用語辞書14で参照された時刻が前回の活性度の算出時刻よりも新しい場合には、当該用語の活性度が1/k増大する。逆に、用語辞書14で参照された時刻が前回の活性度の算出時刻よりも古い場合には、当該用語の活性度が1/k減少する。すなわち、参照される頻度の多い用語の活性度が増大し、参照される頻度の少ない用語の活性度は減少する。   According to the definition of the activity level, the previous activity level calculation time is held in a predetermined storage means, and when the time referenced in the term dictionary 14 is newer than the previous activity level calculation time, The term activity increases by 1 / k. Conversely, when the time referred to in the term dictionary 14 is older than the previous activity level calculation time, the activity level of the term decreases by 1 / k. That is, the activity of a frequently referenced term increases, and the activity of a less frequently referenced term decreases.

用語活性度算出手段13について説明する。用語の活性度を算出するには、後述する用語活性度記憶手段15に既に記憶されている用語の活性度および用語参照時刻記憶手段17にて記憶されている用語(形態素)の参照時刻を利用する。なお、用語参照時刻は、用語参照時刻計測手段16が計測した参照時刻をそのまま利用してもよい。   The term activity calculation means 13 will be described. To calculate the activity of the term, the activity of the term already stored in the term activity storage unit 15 described later and the reference time of the term (morpheme) stored in the term reference time storage unit 17 are used. To do. As the term reference time, the reference time measured by the term reference time measuring unit 16 may be used as it is.

なお、活性度の算出を行うタイミングは特に規定されない、すなわち、用語参照時刻計測手段16が行う用語辞書14における用語の参照時刻の取得と用語の活性度の算出とは、同期をとらなくてもよい。したがって、用語の活性度は、定期的な間隔で算出してもよいし、また、所定の処理からの指示により算出が行われてもよい。本実施例では、用語の活性度が定期的に算出されることとする。   The timing for calculating the degree of activity is not particularly defined, that is, the acquisition of the term reference time and the calculation of the term activity in the term dictionary 14 performed by the term reference time measuring means 16 do not have to be synchronized. Good. Therefore, the activity of the term may be calculated at regular intervals, or may be calculated by an instruction from a predetermined process. In the present embodiment, the term activity is calculated periodically.

用語の活性度を算出する処理について、図6の動作過程の疑似コードに基づき説明する。なお、図6の擬似コードでは、図4のリストを引き続き参照して処理する。また、*で囲まれる処理については、用語の活性度を初期化しない限り1度だけ実行すればよい。   The process for calculating the term activity will be described based on the pseudo code of the operation process of FIG. In the pseudo code of FIG. 6, the processing is continued with reference to the list of FIG. In addition, the process surrounded by * need only be executed once unless the activity of the term is initialized.

ステップS11では、用語活性度算出手段13が、リストIDLと同じ長さの活性度保管リストALを作成し、初期値0.5を入力する。これにより図4(f)の活性度保管リストALが得られる。ステップS12では、減少定数kとして適切な値を変数DVに代入する。   In step S11, the term activity calculation means 13 creates an activity storage list AL having the same length as the list IDL, and inputs an initial value of 0.5. Thereby, the activity storage list AL of FIG. 4F is obtained. In step S12, an appropriate value as the decrease constant k is substituted into the variable DV.

ステップS13では、前回の活性度の算出時刻を読み込み、変数PSTに代入する。次いで、ステップS14以降の処理をリストTLの各要素について繰り返す。まず、TLの要素値が、PSTよりも大きい(新しい)場合(ステップS15)、リストALの対応する要素値に1/kを加える(ステップS16)。1/kを加えた結果、1より大きくなった場合には、リストALの当該要素値は1とする(ステップS17、S18)。   In step S13, the previous calculation time of activity is read and substituted into the variable PST. Next, the processing after step S14 is repeated for each element of the list TL. First, when the element value of TL is larger (newer) than PST (step S15), 1 / k is added to the corresponding element value of the list AL (step S16). If the result of adding 1 / k is greater than 1, the element value of the list AL is set to 1 (steps S17 and S18).

TLの要素値が、PSTよりも大きくない(古い)場合(ステップS19)、リストALの対応する要素値から1/kを減ずる(ステップS20)。1/kを減じた結果、0より小さくなった場合には、リストALの当該要素値は0とする(ステップS21、S22)。   When the element value of TL is not larger (older) than PST (step S19), 1 / k is subtracted from the corresponding element value of the list AL (step S20). As a result of subtracting 1 / k, if the value is smaller than 0, the element value of the list AL is set to 0 (steps S21 and S22).

ステップS13からS22の処理を、リストTLの全ての要素について行ったら、ステップS23で、活性度の算出時刻として現在の時刻を所定の記憶手段に保持する。   If the processing of steps S13 to S22 is performed for all elements of the list TL, the current time is held in a predetermined storage means as the activity calculation time in step S23.

例えば、図6の擬似コードにおいて、変数PSTに代入された活性度算出時刻を言語解析が開始された時刻(2003年4月5日6時7分より前の所定日時)、また減少定数kを10として、活性度を算出した場合、図4(g)に示す結果が得られる。すわなち、図4(e)のリストTLにおいて、参照されていない(−1の要素値を有する)形態素に対応するリストALの要素値は0.4となり、参照されている(20034567の要素値を有する)形態素に対応するリストALの要素値は0.6となる。   For example, in the pseudo code of FIG. 6, the activity calculation time assigned to the variable PST is the time when the language analysis is started (a predetermined date before 6:07 on April 5, 2003), and the decrease constant k is When the activity is calculated as 10, the result shown in FIG. 4 (g) is obtained. In other words, in the list TL of FIG. 4E, the element value of the list AL corresponding to the morpheme that is not referred to (having an element value of −1) is 0.4, and is referenced (the element of 20034567) The element value of the list AL corresponding to the morpheme (having a value) is 0.6.

なお、本実施例では活性度の単純な手法で算出したが、例えば文書検索等で良く用いられるtf・idf法(TF(Term Frequency)・IDF(Inverted Document Frequency)。同一文書で繰り返し出現する形態素が重要、及び、出現する文書数が少ない形態素は文書の絞り込みに役立つから重要、という重要度を表す2つの指標を組み合わせて用語の重要度(活性度)を評価する手法)などを応用することで、より有用性の高い活性度が算出できる。また、本実施例では、簡単のためリストALとして1次元リストを採用しているがリストALとして各要素が複数個の値をもつことができる多次元リストを採用することで、各用語の活性度の遷移状態を表現する情報を保持できる。   In this embodiment, the degree of activity is calculated by a simple method, but, for example, the tf / idf method (TF (Term Frequency) / IDF (Inverted Document Frequency)) often used in document search or the like. A morpheme that repeatedly appears in the same document. Applying a method that evaluates the importance (activity) of terms) by combining two indicators that represent the importance of morphemes that are important and important because morphemes with a small number of appearing documents are useful for narrowing down documents Thus, a more useful activity can be calculated. In this embodiment, for simplicity, a one-dimensional list is adopted as the list AL. However, by adopting a multidimensional list in which each element can have a plurality of values, the list AL can be activated. Information representing the transition state of the degree can be held.

〔用語活性度記憶手段15〕
用語活性度記憶手段15は、用語活性度算出手段13により算出された用語辞書14に含まれる各用語の活性度を適切な形式で記憶する。用語活性度記憶手段15は、本願の特許請求の範囲では、ポイント記憶手段である。
[Terminology Activity Storage Unit 15]
The term activity storage unit 15 stores the activity of each term included in the term dictionary 14 calculated by the term activity calculation unit 13 in an appropriate format. The term activity storage means 15 is a point storage means in the claims of the present application.

以上説明したように、本実施例によれば、テキストデータなどの文書を構成する用語の活性度を算出することができる。活性度は、各形態素がユーザにとってどの程度未知なのか、またどの程度既知なのかを示す指標となる。活性度を用いれば、所定の文書集合内に含まれる代表形態素をユーザが最近作成した文書との関連の程度によって順序付けること等が可能となり、正規化頻度等とは異なり、各ユーザにとって接する頻度の高い、わかりやすい代表形態素で表現することができる。すなわち、自然言語処理などにより処理された結果を、当該自然言語処理を含む他の処理手段で利用する場合において、各ユーザ任意の尺度をもって、文書から情報を抽出することができる。ユーザにとって形態素がどの程度既知なのかに基づき情報を抽出することで、自由度の高いパラフレージング技術、自由度の高い代表形態素処理などが実現できる。   As described above, according to the present embodiment, it is possible to calculate the activity of terms constituting a document such as text data. The degree of activity is an index indicating how much each morpheme is unknown to the user and how much it is known. By using the activity level, it is possible to order representative morphemes included in a predetermined document set according to the degree of association with a document that the user has recently created. Unlike normalization frequency, the frequency with which each user touches It can be expressed with a representative morpheme that is easy to understand. That is, when the result processed by natural language processing or the like is used by other processing means including the natural language processing, information can be extracted from the document with an arbitrary scale for each user. By extracting information based on how much the morpheme is known to the user, a paraphrasing technique with a high degree of freedom, a representative morpheme process with a high degree of freedom, and the like can be realized.

実施例2では、言語解析して分割された形態素(用語)の類義語に対しても活性度を算出する自然言語処理装置について説明する。図7は、実施例2における、自然言語処理装置の機能構成図の一例を示す。なお、図7において図1と同一構成部分には同一の符号を付し、その説明は省略する。図7の自然言語処理装置は、類義語閾値指定手段21、類義語抽出手段22、類義語選択手段23、を有する点で図1と異なる。以下、図7の各手段について詳細に説明する。 In the second embodiment, a natural language processing apparatus that calculates the degree of activity for synonyms of morphemes (terms) divided by language analysis will be described. FIG. 7 illustrates an example of a functional configuration diagram of the natural language processing apparatus according to the second embodiment. In FIG. 7, the same components as those in FIG. 1 are denoted by the same reference numerals, and the description thereof is omitted. The natural language processing apparatus of FIG. 7 differs from FIG. 1 in that it includes a synonym threshold value specifying means 21, a synonym extracting means 22, and a synonym selecting means 23. Hereinafter, each unit in FIG. 7 will be described in detail.

〔類義語抽出手段22〕
類義語抽出手段22は、対象となる用語の類義語を抽出する。類義語が抽出されると、用語活性度算出手段13が、テキストデータが処理される過程で参照された用語の活性度を算出する際に、対象となる用語の類義語についても対象用語と同様に活性度の算出処理を行える。なお、本実施例においては、類義語の抽出手法やその際に用いられる類似辞書について特に制約はなく、適切に類義語が抽出できるものであれば、どのようなものでもよい。本実施例では、類義語抽出手段22は、対象となる用語の用語辞書14内の識別番号を入力すると、当該用語の類義語の識別番号がリストとして出力されるような類義語生成モジュールを有する。なお、類義語抽出手段22は、本願の特許請求の範囲において、類義語情報参照手段である。
[Synonym extraction means 22]
The synonym extraction unit 22 extracts a synonym of the target term. When the synonym is extracted, the term activity calculation means 13 activates the synonym of the target term in the same manner as the target term when calculating the activity of the term referred to in the process of processing the text data. The degree calculation process can be performed. In this embodiment, there are no particular restrictions on the synonym extraction method and the similar dictionary used at that time, and any method can be used as long as the synonym can be extracted appropriately. In this embodiment, the synonym extraction means 22 has a synonym generation module that, when an identification number in the term dictionary 14 of a target term is input, the synonym identification numbers of the term are output as a list. The synonym extraction means 22 is synonym information reference means in the claims of the present application.

〔類義語閾値指定手段21、類義語選択手段23〕
類義語閾値指定手段21は、類義語の閾値を入力するための手段を提供する。また、類義語選択手段23は、類義語抽出手段22により抽出された類義語について、類義語が有している活性度と、類義語閾値指定手段で指定された閾値を比較することにより、当該類義語が活性度を高めてよい用語かどうかを判断する。
[Synonym threshold value specifying means 21, synonym selecting means 23]
The synonym threshold value specifying means 21 provides means for inputting a synonym threshold value. Further, the synonym selecting means 23 compares the activity level of the synonym with the threshold value specified by the synonym threshold value specifying means for the synonym extracted by the synonym extracting means 22, so that the synonym indicates the activity level. Determine if it is a good term.

活性度の低い用語は、ユーザが認知する可能性が低いものであると考えられるため、そのような用語の活性度を高めることは、活性度という指標の性能の低下をもたらすと考えられる。このため、類義語選択手段23により活性度を高めてよい用語かどうかを判断する。したがって、本実施例で類義語閾値指定手段21は、活性度の大きさを閾値として指定する。なお、類義語閾値指定手段21は、本願の特許請求の範囲において、判定閾値指定手段である。   Since terms with low activity are considered to be less likely to be recognized by the user, increasing the activity of such terms is thought to result in a decrease in the performance of the indicator of activity. For this reason, the synonym selection means 23 determines whether or not the term may increase activity. Therefore, in this embodiment, the synonym threshold value specifying means 21 specifies the magnitude of the activity as the threshold value. The synonym threshold value specifying means 21 is a determination threshold value specifying means in the claims of the present application.

類義語を抽出して活性度を算出する自然言語処理装置の処理について図8の擬似コードに基づき説明する。なお、図3及び図6と同様な処理については簡単に説明する。   The processing of the natural language processing device that extracts synonyms and calculates the activity will be described based on the pseudo code in FIG. The processing similar to that in FIGS. 3 and 6 will be briefly described.

まず、言語解析されるテキストデータとして図2のテキストデータを用い、図8の擬似コードの処理が開始されるまでの処理について簡単に説明する。用語辞書14を構成する形態素とその識別番号が図9(a)及び(b)に示されるような構成であるとする。言語解析が開始されると言語解析手段12は、各用語の識別番号をリストIDLに取得し、リストIDLは図9(c)のように、図9(b)と同じ識別番号が入力される。次いで、リストIDLと同じ要素数のリストTLが生成され、図9(d)のように、初期値−1が代入される。リストTLは、用語参照時刻計測手段16により、用語辞書14で参照された時刻が入力され、図9(e)のようになる。次いで、用語活性度算出手段13は、リストIDLと同じ長さの活性度保管リストALを作成し、初期値0.5を入力する。これにより図9(f)の活性度保管リストALが得られる。   First, using the text data of FIG. 2 as the text data to be language-analyzed, the processing until the pseudo code processing of FIG. 8 is started will be briefly described. Assume that the morphemes constituting the term dictionary 14 and their identification numbers are as shown in FIGS. 9 (a) and 9 (b). When language analysis is started, the language analysis means 12 acquires the identification number of each term in the list IDL, and the list IDL is input with the same identification number as in FIG. 9B, as shown in FIG. 9C. . Next, a list TL having the same number of elements as the list IDL is generated, and an initial value −1 is substituted as shown in FIG. In the list TL, the time referred to in the term dictionary 14 is input by the term reference time measuring means 16, and the list TL is as shown in FIG. Next, the term activity calculation means 13 creates an activity storage list AL having the same length as the list IDL, and inputs an initial value of 0.5. As a result, the activity storage list AL of FIG. 9F is obtained.

ステップS31において、用語活性度算出手段13が、類義語閾値指定手段21により指定された類義語閾値を読み込み、変数TVに代入する。本実施例では、一例として類義語閾値として0.3をTVに代入する。   In step S31, the term activity calculation means 13 reads the synonym threshold value designated by the synonym threshold value designation means 21, and substitutes it into the variable TV. In this embodiment, as an example, 0.3 is substituted for TV as a synonym threshold.

ステップS32において、用語活性度算出手段13が、前回の活性度算出時刻を読み込み、変数PSTに代入する。次いで、リストTLの要素値がPSTよりも大きい場合、リストALの対応する要素値に1/kを加える(ステップS33〜S35)。1/kを加えた結果、1より大きくなる場合は、要素値を1とする(ステップS36、S37)。   In step S32, the term activity level calculation means 13 reads the previous activity level calculation time and assigns it to the variable PST. Next, when the element value of the list TL is larger than PST, 1 / k is added to the corresponding element value of the list AL (steps S33 to S35). If the result of adding 1 / k is greater than 1, the element value is set to 1 (steps S36 and S37).

入れ子構造の関係を簡単にするため、ステップS46〜S50について先に説明する。すなわち、リストTLの要素値がPSTよりも大きくない場合、リストALの対応する要素値から1/kを減ずる(ステップS46、S47)。1/kを減じた結果、1より小さくなる場合は、要素値を0とする(ステップS48、S49)。ステップS31からS49の処理を、リストTLの全ての要素について行ったら、ステップS50で、活性度の算出時刻として現在の時刻を所定の記憶手段に保持する。リストTLの全ての要素について上記処理を行う。なお、類義語として抽出される用語の活性度は、リストTLの要素値がPSTより大きくない場合であっても、1/k減ぜられない。   In order to simplify the relationship of the nested structure, steps S46 to S50 will be described first. That is, if the element value of the list TL is not larger than PST, 1 / k is subtracted from the corresponding element value of the list AL (steps S46 and S47). As a result of subtracting 1 / k, if the value is smaller than 1, the element value is set to 0 (steps S48 and S49). When the processing of steps S31 to S49 has been performed for all elements of the list TL, the current time is stored in a predetermined storage means as the activity calculation time in step S50. The above processing is performed for all elements of the list TL. Note that the activity of a term extracted as a synonym is not reduced by 1 / k even if the element value of the list TL is not larger than PST.

ステップS38からS45は、類義語の活性度を算出する処理を行う。ステップS38において、言語解析手段12は、リストIDLに格納された識別番号を類義語生成モジュールに出力する。なお、類義語生成モジュールに出力される識別番号は、ステップS34の判定の結果、用語参照時刻がPSTよりも大きいもの(すなわち、図2のテキストデータの各形態素の識別番号)である。   Steps S38 to S45 perform processing for calculating the activity of synonyms. In step S38, the language analysis unit 12 outputs the identification number stored in the list IDL to the synonym generation module. Note that the identification number output to the synonym generation module is the one whose term reference time is greater than PST as a result of the determination in step S34 (that is, the identification number of each morpheme in the text data in FIG. 2).

類義語生成モジュールは、当該識別番号の用語の類義語の識別番号を類義語選択手段23に出力する(ステップS39)。これにより、図10のようなリストSLが得られる。識別番号が判明すれば、該当する用語を例えば用語辞書14から抽出できる。図10のSLリストでは、図2のテキストデータに対し、“履物”の類義語として“靴”及び“シューズ”が抽出されている。なお、図10の括弧内の用語は便宜的に表示した。   The synonym generation module outputs the identification number of the synonym of the term having the identification number to the synonym selection means 23 (step S39). Thereby, a list SL as shown in FIG. 10 is obtained. If the identification number is known, the corresponding term can be extracted from the term dictionary 14, for example. In the SL list of FIG. 10, “shoes” and “shoes” are extracted as synonyms of “footwear” with respect to the text data of FIG. The terms in parentheses in FIG. 10 are shown for convenience.

次いで、類義語選択手段23は、リストSLに示された識別番号の用語について、リストALを参照し、当該用語の活性度とTV(0.3)との大小を判定する。判定結果は、用語活性度算出手段13に出力される(ステップS40〜S42)。リストALの活性度がTVよりも大きい場合は、用語活性度算出手段13は、当該識別番号の類義語に該当するリストALの要素値に1/kを加える(ステップS43)。1/kを加えた結果、1より大きくなる場合は、リストALの要素値を1とする(ステップS44、S45)。これにより、活性度が所定値より高い類義語の活性度を選択的に高めることができる。リストSLの全ての要素について処理が終了したら、図8の擬似コードの処理が終了する。   Next, the synonym selecting means 23 refers to the list AL for the term of the identification number shown in the list SL, and determines the magnitude of the activity of the term and TV (0.3). The determination result is output to the term activity calculation means 13 (steps S40 to S42). If the activity of the list AL is greater than TV, the term activity calculation means 13 adds 1 / k to the element value of the list AL corresponding to the synonym of the identification number (step S43). If the result of adding 1 / k is greater than 1, the element value of the list AL is set to 1 (steps S44 and S45). Thereby, the activity of the synonym whose activity is higher than a predetermined value can be selectively increased. When the process is completed for all elements of the list SL, the pseudo code process of FIG. 8 is terminated.

図9(g)は、図8の擬似コードの処理が終了したリストALを示す。図4(g)と比較すると、類義語として抽出された“靴”及び“シューズ”の活性度が異なる。すなわち、類義語“靴”及び“シューズ”の活性度の初期値は0.5であり、TV(0.3)よりも大きいので、1/k(0.1)が加えられ、それぞれ0.6となっている。図9(g)のその他の要素は、図4(g)と同じである。   FIG. 9G shows a list AL that has been processed with the pseudo code of FIG. Compared with FIG. 4G, the activities of “shoes” and “shoes” extracted as synonyms are different. That is, the initial value of the activity of the synonyms “shoes” and “shoes” is 0.5, which is larger than TV (0.3), so 1 / k (0.1) is added, and each 0.6 It has become. The other elements in FIG. 9G are the same as those in FIG.

なお、本実施例では類義語閾値として、活性度に相当する値を採用しているが、閾値として時刻を用いてもよい。閾値として時刻を用いた場合、閾値と比較する値は活性度ではなく、参照時刻が好適である。   In this embodiment, a value corresponding to the degree of activity is adopted as the synonym threshold value, but time may be used as the threshold value. When time is used as the threshold, the value to be compared with the threshold is not the degree of activity, but the reference time is preferable.

本実施例によれば、形態素に分割された用語だけでなく、当該用語の類義語の活性度を算出することができる。したがって、実施例1の効果に加え、パラフレージングを行う場合に活性度の高い類義語でパラフレージングしたり、より自由度の高い代表形態素処理等、より自由度の高い自然言語処理が実現できる。   According to the present embodiment, it is possible to calculate the activity of not only a term divided into morphemes but also a synonym of the term. Therefore, in addition to the effects of the first embodiment, when performing paraphrasing, paraphrasing with a synonym having a high degree of activity, natural language processing with a higher degree of freedom such as a representative morpheme processing with a higher degree of freedom can be realized.

実施例3では、実施例1又は2で説明した自然言語処理を実現するプログラム(以下、自然言語処理プログラムという)及びその記録媒体について説明する。図11は、自然言語処理プログラムを実行するコンピュータのハードウェア構成図の一例を示す。 In the third embodiment, a program for realizing the natural language processing described in the first or second embodiment (hereinafter referred to as a natural language processing program) and its recording medium will be described. FIG. 11 shows an example of a hardware configuration diagram of a computer that executes a natural language processing program.

図11のハードウェア構成図は、それぞれバスで相互に接続されているCPU31、入出力装置32、ドライブ装置33、通信装置34、主記憶装置35、記憶装置36、表示装置37を有するように構成される。   The hardware configuration diagram of FIG. 11 includes a CPU 31, an input / output device 32, a drive device 33, a communication device 34, a main storage device 35, a storage device 36, and a display device 37 that are mutually connected by a bus. Is done.

CPU31は、コンピュータが行う処理を統括的に制御する。入出力装置32は、キーボード及びマウスなどで構成され、ユーザからの様々な操作指示を入力するために用いられる。通信装置34は、インターネットやLANなどのネットワークに接続するためのインターフェイスであり、例えばモデム、ルータ等で構成される。主記憶装置35は、オペレーティングシステムやプログラム、データを一時保管する記憶領域である。記憶装置36には、実施例1又は2の自然言語処理を実現するプログラムがインストールされている。ドライブ装置33は、DVD−ROMやCD−ROMが挿入可能であり、記録媒体38からプログラムやデータを読み込み、また記録媒体38にプログラムやデータを書き込むことも可能である。表示装置37は、GUI(Graphycal User Interface)画面を形成し、操作に必要な各種ウィンドウやデータ等を表示する。   The CPU 31 comprehensively controls processing performed by the computer. The input / output device 32 includes a keyboard and a mouse, and is used to input various operation instructions from the user. The communication device 34 is an interface for connecting to a network such as the Internet or a LAN, and includes, for example, a modem or a router. The main storage device 35 is a storage area for temporarily storing an operating system, programs, and data. The storage device 36 is installed with a program that realizes the natural language processing of the first or second embodiment. The drive device 33 can be inserted into a DVD-ROM or CD-ROM, can read programs and data from the recording medium 38, and can write programs and data to the recording medium 38. The display device 37 forms a GUI (Graphical User Interface) screen and displays various windows and data necessary for operation.

自然言語処理プログラムは、図1や図7のテキストデータ入力手段11、言語解析手段12、用語活性度算出手段13、用語活性度記憶手段15、用語参照時刻計測手段16及び用語参照時刻記憶手段17、類義語閾値指定手段21、類義語抽出手段22、類義語選択手段23、の各手段をコンピュータに実行させる。一例としては、図3、6、8で説明した擬似コードを所定のプログラム言語でコード化し、コンパイルなどされたものである。   The natural language processing program includes the text data input means 11, the language analysis means 12, the term activity calculation means 13, the term activity storage means 15, the term reference time measurement means 16, and the term reference time storage means 17 shown in FIGS. The synonym threshold value specifying means 21, the synonym extracting means 22, and the synonym selecting means 23 are executed by a computer. As an example, the pseudo code described with reference to FIGS. 3, 6, and 8 is coded in a predetermined program language and compiled.

自然言語処理プログラムや用語辞書14は、例えばDVD−ROM等の記録媒体38によって提供される。自然言語処理プログラムや用語辞書14を記録した記録媒体38は、ドライブ装置33にセットされ、記憶装置36にインストールされる。   The natural language processing program and the term dictionary 14 are provided by a recording medium 38 such as a DVD-ROM. The recording medium 38 on which the natural language processing program and the term dictionary 14 are recorded is set in the drive device 33 and installed in the storage device 36.

なお、自然言語処理プログラムや用語辞書14を記録した記憶媒体38は、CD−ROM、DVD−ROM、フレキシブルディスク、光磁気ディスク(MO)等のように、情報を光学的、電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることが可能である。また、自然言語処理プログラムや用語辞書14は、ネットワークを介してダウンロードしてもよい。   The storage medium 38 on which the natural language processing program and the term dictionary 14 are recorded is information such as a CD-ROM, DVD-ROM, flexible disk, magneto-optical disk (MO), etc. It is possible to use various types of recording media such as a recording medium for recording information, a semiconductor memory for electrically recording information such as a ROM and a flash memory. Further, the natural language processing program and the term dictionary 14 may be downloaded via a network.

本実施例によれば、コンピュータで実行される自然言語処理プログラムや自然言語処理プログラムが記録された記録媒体を提供できる。   According to the present embodiment, it is possible to provide a natural language processing program executed by a computer and a recording medium on which the natural language processing program is recorded.

自然言語処理装置の機能構成図の一例である。It is an example of a functional block diagram of a natural language processing apparatus. 文字列に対して形態素解析が行われた結果の一例である。It is an example of the result of having performed the morphological analysis with respect to the character string. 用語辞書が参照された時刻を記録する処理の疑似コードの一例である。It is an example of the pseudo code of the process which records the time when the term dictionary was referred. 用語辞書、用語参照時刻、活性に係るポイント等、の一例を示す図である。It is a figure which shows an example, such as a term dictionary, term reference time, the point which concerns on activity. リストRIDLの一例である。It is an example of list RIDL. 用語の活性に係るポイントを算出する処理の疑似コードの一例である。It is an example of the pseudo code of the process which calculates the point which concerns on the activity of a term. 実施例2における、自然言語処理装置の機能構成図の一例である。FIG. 10 is an example of a functional configuration diagram of a natural language processing apparatus according to a second embodiment. 類義語の活性に係るポイントを算出する処理の擬似コードの一例である。It is an example of the pseudo code of the process which calculates the point which concerns on activity of a synonym. 実施例2における、用語辞書、用語参照時刻、活性に係るポイント等、の一例を示す図である。It is a figure which shows an example in the Example 2, such as a term dictionary, term reference time, the point which concerns on activity. 類義語の識別番号が格納されたリストSLの一例である。It is an example of list | wrist SL in which the identification number of the synonym was stored. 自然言語処理プログラムを実行するコンピュータのハードウェア構成図の一例である。It is an example of the hardware block diagram of the computer which executes a natural language processing program.

符号の説明Explanation of symbols

11 テキストデータ入力手段
12 言語解析手段
13 用語活性度算出手段
14 用語辞書
15 用語活性度記憶手段
16 用語参照時刻計測手段
17 用語参照時刻記憶手段
21 類義語閾値指定手段
22 類義語抽出手段
23 類義語選択手段
DESCRIPTION OF SYMBOLS 11 Text data input means 12 Language analysis means 13 Term activity calculation means 14 Term dictionary 15 Term activity degree memory means 16 Term reference time measurement means 17 Term reference time storage means 21 Synonym threshold value designation means 22 Synonym extraction means 23 Synonym selection means 23

Claims (10)

テキストを言語解析して形態素に分割し、該テキストから情報を抽出する自然言語処理方法において、
形態素の活性に係るポイントを増減するポイント増減手順と、
前記ポイント増減手順により増減された形態素のポイントを記憶するポイント記憶手順と、
前記ポイント記憶手順に記憶されているポイントを参照し、該ポイントの大きさに基づいて前記テキストから情報を抽出する、
ことを特徴とする自然言語処理方法。
In a natural language processing method that parses text into morphemes and extracts information from the text,
Point increase / decrease procedure for increasing / decreasing points related to morpheme activity;
A point storage procedure for storing morpheme points increased or decreased by the point increase / decrease procedure;
Referring to the points stored in the point storage procedure and extracting information from the text based on the size of the points;
A natural language processing method characterized by that.
前記テキストを言語解析する際に参照する辞書と、
前記辞書の形態素を参照した日時をその都度形態素毎に記憶する形態素参照日時記憶手順と、を有し、
前記ポイント増減手順は、前記形態素参照日時記憶手順により記憶されている第1の日時と前回ポイントの増減を行った第2の日時とを比較し、
前記第1の日時が前記第2の日時よりも新しい場合、当該形態素のポイントを所定量増大させ、前記第1の日時が前記第2の日時よりも新しくない場合、当該形態素のポイントを所定量減少させる、
ことを特徴とする請求項1記載の自然言語処理方法。
A dictionary to be referred to when language analysis of the text;
A morpheme reference date storage procedure for storing the date and time referring to the morpheme of the dictionary for each morpheme,
The point increase / decrease procedure compares the first date / time stored by the morpheme reference date / time storage procedure with the second date / time when the previous point increase / decrease was performed,
When the first date and time is newer than the second date and time, the morpheme points are increased by a predetermined amount, and when the first date and time is not newer than the second date and time, the morpheme points are increased by a predetermined amount. Decrease,
The natural language processing method according to claim 1.
言語解析によりテキストを分割して得られた形態素の類義語に係る情報を参照する類義語情報参照手順を有し、
前記ポイント増減手順は、前記類義語情報参照手順が参照した類義語のポイントを増大させ、前記ポイント記憶手順により記憶させる、
ことを特徴とする請求項1又は2記載の自然言語処理方法。
A synonym information reference procedure for referring to information related to synonyms of morphemes obtained by dividing text by language analysis,
The point increase / decrease procedure increases the point of the synonym referred to by the synonym information reference procedure, and stores it by the point storage procedure.
The natural language processing method according to claim 1 or 2, wherein
前記類義語のポイントを増大させるか否かを判定するための判定閾値を指定する判定閾値指定手順を、有し、
前記ポイント増減手順は、前記判定閾値指定手順により指定された前記判定閾値と前記ポイント記憶手順に記憶された前記類義語のポイントとを比較し、前記判定閾値の方が小さい場合、当該類義語のポイントを増大させる、
ことを特徴とする請求項3記載の自然言語処理方法。
A determination threshold value specifying procedure for specifying a determination threshold value for determining whether or not to increase the point of the synonym,
The point increase / decrease procedure compares the determination threshold specified by the determination threshold specification procedure with the synonym point stored in the point storage procedure, and if the determination threshold is smaller, the point of the synonym is Increase,
The natural language processing method according to claim 3.
テキストを言語解析して形態素に分割し、該テキストから情報を抽出する自然言語処理装置において、
形態素の活性に係るポイントを増減するポイント増減手段と、
前記ポイント増減手段により増減された形態素のポイントを記憶するポイント記憶手段と、
前記ポイント記憶手段に記憶されているポイントを参照し、該ポイントの大きさに基づいて前記テキストから情報を抽出する、
ことを特徴とする自然言語処理装置。
In a natural language processing apparatus that parses text into morphemes and extracts information from the text,
Point increase / decrease means for increasing / decreasing points related to the activity of the morpheme;
Point storage means for storing morpheme points increased or decreased by the point increase / decrease means;
Referring to the points stored in the point storage means, and extracting information from the text based on the size of the points;
A natural language processing apparatus characterized by that.
前記テキストを言語解析する際に参照する辞書と、
前記辞書の形態素を参照した日時をその都度形態素毎に記憶する形態素参照日時記憶手段と、を有し、
前記ポイント増減手段は、前記形態素参照日時記憶手段により記憶されている第1の日時と前回ポイントの増減を行った第2の日時とを比較し、
前記第1の日時が前記第2の日時よりも新しい場合、当該形態素のポイントを所定量増大させ、前記第1の日時が前記第2の日時よりも新しくない場合、当該形態素のポイントを所定量減少させる、
ことを特徴とする請求項5記載の自然言語処理装置。
A dictionary to be referred to when language analysis of the text;
Morpheme reference date storage means for storing the date and time referring to the morpheme of the dictionary for each morpheme each time,
The point increase / decrease means compares the first date and time stored by the morpheme reference date and time storage means with the second date and time when the previous point was increased or decreased,
When the first date and time is newer than the second date and time, the morpheme points are increased by a predetermined amount, and when the first date and time is not newer than the second date and time, the morpheme points are increased by a predetermined amount. Decrease,
The natural language processing apparatus according to claim 5.
言語解析によりテキストを分割して得られた形態素の類義語に係る情報を参照する類義語情報参照手段を有し、
前記ポイント増減手段は、前記類義語情報参照手段が参照した類義語のポイントを増大させ、前記ポイント記憶手段により記憶させる、
ことを特徴とする請求項5又は6記載の自然言語処理装置。
Synonym information reference means for referencing information related to synonyms of morphemes obtained by dividing text by language analysis,
The point increase / decrease means increases the point of the synonym referred to by the synonym information reference means, and stores it by the point storage means.
The natural language processing apparatus according to claim 5, wherein the natural language processing apparatus is a natural language processing apparatus.
前記類義語のポイントを増大させるか否かを判定するための判定閾値を指定する判定閾値指定手段を、有し、
前記ポイント増減手段は、前記判定閾値指定手段により指定された前記判定閾値と前記ポイント記憶手段に記憶された前記類義語のポイントとを比較し、前記判定閾値の方が小さい場合、当該類義語のポイントを増大させる、
ことを特徴とする請求項7記載の自然言語処理装置。
A determination threshold value specifying means for specifying a determination threshold value for determining whether to increase the point of the synonym;
The point increasing / decreasing means compares the determination threshold specified by the determination threshold specifying means with the synonym point stored in the point storage means, and if the determination threshold is smaller, the point of the synonym is determined. Increase,
The natural language processing apparatus according to claim 7.
請求項1ないし4記載の自然言語処理方法をコンピュータに実行させる自然言語処理プログラム。   A natural language processing program for causing a computer to execute the natural language processing method according to claim 1. 請求項9記載の自然言語処理プログラムが記録された記録媒体。








A recording medium on which the natural language processing program according to claim 9 is recorded.








JP2004155036A 2004-05-25 2004-05-25 Natural language processing method, natural language processing device, natural language processing program, and recording medium with the program recorded thereon Pending JP2005339043A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004155036A JP2005339043A (en) 2004-05-25 2004-05-25 Natural language processing method, natural language processing device, natural language processing program, and recording medium with the program recorded thereon

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004155036A JP2005339043A (en) 2004-05-25 2004-05-25 Natural language processing method, natural language processing device, natural language processing program, and recording medium with the program recorded thereon

Publications (1)

Publication Number Publication Date
JP2005339043A true JP2005339043A (en) 2005-12-08

Family

ID=35492565

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004155036A Pending JP2005339043A (en) 2004-05-25 2004-05-25 Natural language processing method, natural language processing device, natural language processing program, and recording medium with the program recorded thereon

Country Status (1)

Country Link
JP (1) JP2005339043A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10303761B2 (en) 2016-09-27 2019-05-28 Panasonic Intellectual Property Management Co., Ltd. Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10303761B2 (en) 2016-09-27 2019-05-28 Panasonic Intellectual Property Management Co., Ltd. Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated

Similar Documents

Publication Publication Date Title
US20090070327A1 (en) Method for automatically generating regular expressions for relaxed matching of text patterns
JP2003223437A (en) Method of displaying candidate for correct word, method of checking spelling, computer device, and program
JP2006053926A (en) System and method of displaying content on compact screen computing device
JP2004341753A (en) Retrieval support device, retrieval support method and program
JP4001283B2 (en) Morphological analyzer and natural language processor
JP2006285656A (en) Document search system, recording medium, program and document search method
JP2007164635A (en) Method, device and program for acquiring synonymous vocabulary
JP2005339043A (en) Natural language processing method, natural language processing device, natural language processing program, and recording medium with the program recorded thereon
JP5640700B2 (en) Information search device, search input method, and search input program
JP3139658B2 (en) Document display method
JP2000099526A (en) Document information extracting device
JP2009265770A (en) Significant sentence presentation system
JP6181890B2 (en) Literature analysis apparatus, literature analysis method and program
JP2008276561A (en) Morpheme analysis device, morpheme analysis method, morpheme analysis program, and recording medium with computer program recorded thereon
JP5307781B2 (en) Information processing apparatus, method, and program
JP2004133510A (en) Technical literature retrieval system
JP2006185380A (en) Character processor with prediction function, method, recording medium and program
JP4135467B2 (en) Information processing apparatus, system, and program
JP4206266B2 (en) Full-text search device, processing method, processing program, and recording medium
JP2006039811A (en) Document management program, document management method and document management device
JP2010256960A (en) System, method and program for determining degree of similarity
JP2007241765A (en) Method for acquiring attribute expression, and method, device and program for acquiring evaluation expression
JP2008130034A (en) Automatic extracting device and method of different representation of famous person
JP4040233B2 (en) Important sentence extraction device and storage medium
JP2006260601A (en) Device, method and recording medium of index generation