JP4985096B2 - Document analysis system, document analysis method, and computer program - Google Patents

Document analysis system, document analysis method, and computer program Download PDF

Info

Publication number
JP4985096B2
JP4985096B2 JP2007135165A JP2007135165A JP4985096B2 JP 4985096 B2 JP4985096 B2 JP 4985096B2 JP 2007135165 A JP2007135165 A JP 2007135165A JP 2007135165 A JP2007135165 A JP 2007135165A JP 4985096 B2 JP4985096 B2 JP 4985096B2
Authority
JP
Japan
Prior art keywords
term
document
text
extraction
document analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007135165A
Other languages
Japanese (ja)
Other versions
JP2008293070A (en
Inventor
博 増市
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2007135165A priority Critical patent/JP4985096B2/en
Publication of JP2008293070A publication Critical patent/JP2008293070A/en
Application granted granted Critical
Publication of JP4985096B2 publication Critical patent/JP4985096B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書解析システム、および文書解析方法、並びにコンピュータ・プログラムに関する。さらに詳細には、例えば医療分野などの専門性の高い分野の文書から、データ検索などに適用するための言語単位としての区分語である形態素を抽出する処理を行なう文書解析システム、および文書解析方法、並びにコンピュータ・プログラムに関する。   The present invention relates to a document analysis system, a document analysis method, and a computer program. More specifically, for example, a document analysis system and a document analysis method for performing processing for extracting a morpheme that is a classification word as a language unit to be applied to data retrieval or the like from a document in a highly specialized field such as a medical field And a computer program.

例えばデータベース検索などにおいて適用する検索キーや、用語辞書の索引としてのインデックス、文書分類情報の設定など、データ処理において適用する用語を自然言語の文書から抽出する処理は、様々なデータ処理分野において必要となる技術である。文書検索の検索キーや文書分類に用いるインデックス等、文書処理に適用する言語単位は形態素と呼ばれる。   For example, a search key applied in database search, an index as an index of a term dictionary, setting of document classification information, and the like, processing for extracting terms applied in data processing from natural language documents is necessary in various data processing fields. Technology. Language units applied to document processing, such as search keys for document search and indexes used for document classification, are called morphemes.

自然言語の文書から形態素を抽出する研究は従来から行われている。例えば、[車が道路を走る]といったありふれた文書であれば、一般的な形態素解析システムを適用することで、[車]、[道路]、[走る]といった形態素を抽出することが可能である。形態素解析システムは、予め定めた形態素解析ルールを適用して、文を意味的最小単位である形態素(morpheme)に分節して品詞の認定処理を行なうシステムとして知られている。   Research on extracting morphemes from natural language documents has been conducted. For example, if it is a common document such as [car runs on road], it is possible to extract morphemes such as [car], [road], and [run] by applying a general morphological analysis system. . The morpheme analysis system is known as a system that applies a predetermined morpheme analysis rule to segment a sentence into morphemes that are semantic minimum units and perform a part-of-speech recognition process.

しかしながら、医療分野のように専門性の高い分野の専門用語を適切な形態素に区切ることは難しい。例えば、特定の病名である、
「強皮症」
この病名を表す本来一つの単語に対して、標準的な形態素解析処理を施すと「強(強い)」「皮」「症」という3つの単語(形態素)に分割されてしまう。
However, it is difficult to divide technical terms in highly specialized fields such as the medical field into appropriate morphemes. For example, a specific disease name
`` Scleroderma ''
If a standard morphological analysis process is performed on the original word representing the disease name, the word is divided into three words (morphemes) “strong (strong)”, “skin”, and “symptom”.

形態素解析処理は、文書検索や文書分類等の言語処理技術で用いる基盤的な技術である。例えば文書分類において、「強皮症」が3つの単語に分割されてしまうと、「強皮症」を含む2つの文書間の類似性と、「強皮症」を含む文書と「強」「皮」「症」の3つの単語を離れた位置に含む文書の間の類似性が等しくなってしまい、文書分類の精度低下を招くことになる。   Morphological analysis processing is a basic technology used in language processing technologies such as document search and document classification. For example, in the document classification, if “scleroderma” is divided into three words, the similarity between two documents including “scleroderma”, the document including “scleroderma”, and “strong” “ The similarity between the documents including the three words “skin” and “symptom” at distant positions becomes equal, leading to a decrease in the accuracy of document classification.

このような問題を解決するためには、予め専門用語の一覧を作成しておき、形態素解析時に使用する形態素解析用辞書に、該専門用語一覧を追加しておく必要がある。このような専門用語一覧を作成するために専門分野のテキスト集合から専門用語を抽出する技術の典型的な例を開示した従来技術して、特許文献1(特開2004−151926号公報)がある。   In order to solve such a problem, it is necessary to prepare a list of technical terms in advance and add the technical term list to the morphological analysis dictionary used at the time of morphological analysis. Patent Document 1 (Japanese Patent Laid-Open No. 2004-151926) is a conventional technique that discloses a typical example of a technique for extracting technical terms from a text set of specialized fields in order to create such a technical term list. .

この特許文献1では、専門用語が多くの場合複合名詞であることに注目し、複合名詞を構成する各形態素(名詞あるいは接辞)の出現頻度に基づいて計算される修正出現頻度(複合名詞自体の出現頻度を表す尺度)と、複合名詞の長さ(複合名詞を構成する形態素の数)とから、複合名詞が専門用語であるか否かを判断する手法を提案している。   In this patent document 1, attention is paid to the fact that technical terms are compound nouns in many cases, and the corrected appearance frequency (of the compound noun itself) calculated based on the appearance frequency of each morpheme (noun or affix) constituting the compound noun. We have proposed a method for determining whether a compound noun is a technical term from the scale of appearance frequency) and the length of the compound noun (number of morphemes constituting the compound noun).

この特許文献1に開示された手法、すなわち、複合名詞の出現頻度と複合名詞の長さを二つのパラメータとして、複合名詞が専門用語であるか否かを判断する手法には以下のような問題点がある。
(問題点1)複合名詞の長さのパラメータを重視した場合の問題点
長い複合名詞を優先して専門用語とする場合、例えば、医学分野のテキストを対象とした場合以下のような複合名詞が専門用語として抽出されることになる。
(A)「慢性びまん性管状増殖性糸球体リンパ腫」
(B)「慢性管状増殖性糸球体リンパ腫」
The method disclosed in Patent Document 1, that is, the method for determining whether a compound noun is a technical term using the appearance frequency of the compound noun and the length of the compound noun as two parameters, has the following problems. There is a point.
(Problem 1) Problems when emphasizing the length parameter of a compound noun When a long compound noun is prioritized as a technical term, for example, for medical texts, the following compound noun is It will be extracted as technical terms.
(A) “Chronic diffuse tubular proliferative glomerular lymphoma”
(B) “Chronic tubular proliferative glomerular lymphoma”

複合名詞(A)(B)は共に専門用語であり、かつ、ほぼ同じ病気を表現する専門用語である。しかしながら上記手法では、これらの2つの専門用語が全く異なる2つの専門用語として抽出されることになってしまう。したがって、例えば文書分類において、(A)を含む文書と(B)を含む文書の類似性が全く認められないことになり、文書分類の精度低下を招くことになる。すなわち、形態素解析用辞書に登録すべき形態素としては不適切に長い文字列が抽出されてしまう。   The compound nouns (A) and (B) are both technical terms and are technical terms expressing almost the same disease. However, in the above method, these two technical terms are extracted as two different technical terms. Therefore, for example, in the document classification, the similarity between the document including (A) and the document including (B) is not recognized at all, and the accuracy of the document classification is reduced. That is, a long character string is inappropriately extracted as a morpheme to be registered in the morpheme analysis dictionary.

(問題点2)複合名詞の出現頻度のパラメータを重視した場合の問題点
頻出する複合名詞を優先して専門用語とする場合、長い複合名詞が頻出することは稀であるため、上記(問題点1)の問題は生じない。すなわち、形態素解析辞書に登録する上で適切な長さの単語を抽出することが可能である。しかしながら、この場合、長さの短い複合名詞は、書き手のくせ等によってたまたま高い頻度で出現する可能性が高いため、専門用語のみが抽出できるとは限らない。例えば、抽出対象であるテキスト集合にたまたま、
「明日手術を行なうことにする。」
「前回実施した検査によれば、・・・」
といった表現が高い頻度で出現していると、「明日手術」「前回実施」が専門用語として抽出されてしまうことになる。すなわち、この場合には専門用語の抽出精度が著しく低下することになる。
特開2004−151926号公報
(Problem 2) Problems when emphasizing the parameters of the appearance frequency of compound nouns When the compound nouns that appear frequently are prioritized as technical terms, long compound nouns rarely appear frequently. The problem 1) does not occur. That is, it is possible to extract a word having an appropriate length for registration in the morphological analysis dictionary. However, in this case, since a compound noun with a short length is likely to appear with a high frequency due to a writer's habit or the like, it is not always possible to extract only technical terms. For example, it happens to be a text set to be extracted,
“I will perform surgery tomorrow.”
"According to the previous inspection ..."
If such an expression appears frequently, “tomorrow's surgery” and “previous execution” will be extracted as technical terms. That is, in this case, the extraction accuracy of technical terms is significantly reduced.
JP 2004-151926 A

本発明は、上述の問題点に鑑みてなされたものであり、医療分野など専門性の高い分野の専門用語を解析して、文書検索の検索キーや文書分類に用いるインデックス等、文書処理に適用する言語単位としての形態素を効率的にかつ高精度に抽出する文書解析システム、および文書解析方法、並びにコンピュータ・プログラムを提供することを目的とする。   The present invention has been made in view of the above-described problems, and is applied to document processing such as a search key for document search and an index used for document classification by analyzing technical terms in a highly specialized field such as the medical field. An object of the present invention is to provide a document analysis system, a document analysis method, and a computer program that efficiently and accurately extract morphemes as language units.

本発明の第1の側面は、
文書中の用語の抽出処理を実行する用語抽出手段であり、用語の長さに依存した評価を行い、長さ重視の用語候補抽出処理を実行する第一用語抽出手段と、
文書データベースに格納された文書集合を検索し、前記第一用語抽出手段の抽出した用語候補と同じ用語の出現回数をカウントし、出現回数に応じた用語の複製を含む用語テキストを生成する用語再構成手段と、
前記用語再構成手段の生成した用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択する第二用語抽出手段と、
を有することを特徴とする文書解析システムにある。
The first aspect of the present invention is:
A term extraction unit that executes a process for extracting a term in a document, performs an evaluation depending on the length of the term, and executes a term candidate extraction process that emphasizes the length;
Search the document set stored in the document database, count the number of occurrences of the same term as the term candidate extracted by the first term extraction means, and generate a term text including a copy of the term according to the number of occurrences. Configuration means;
A second term extracting means for performing an evaluation depending on the appearance frequency of the term with the term text generated by the term reconfiguring means being analyzed, and selecting a term having a high appearance frequency as an output term;
In a document analysis system characterized by having

本構成によれば、長さ重視の用語抽出の後、抽出した用語に対応する用語の出現頻度に応じた複製テキストを生成して生成テキストに基づいて頻度重視の用語抽出を実行する構成としたので、専門用語を高精度に抽出することが可能となる。   According to this configuration, after extracting the term with emphasis on length, a duplicate text is generated according to the appearance frequency of the term corresponding to the extracted term, and the term emphasizing frequency is executed based on the generated text. Therefore, it becomes possible to extract technical terms with high accuracy.

さらに、本発明の文書解析システムの一実施態様において、前記第一用語抽出手段は、特定の専門分野、例えば医療分野の文書を解析対象とした用語抽出処理を実行する構成であり、前記用語再構成手段は、前記特定の専門分野の文書を格納した文書データベースに格納された文書集合の検索による出現回数のカウント処理を実行し、前記第二用語抽出手段は、医療分野の用語としての形態素の抽出を行なう構成であることを特徴とする。   Furthermore, in one embodiment of the document analysis system of the present invention, the first term extracting means is configured to execute a term extracting process for analyzing a document in a specific specialized field, for example, a medical field, The configuration means executes a process of counting the number of appearances by searching a document set stored in a document database storing documents of the specific specialized field, and the second term extracting means is a morpheme as a term in the medical field. It is the structure which performs extraction.

本構成によれば、医療分野などの専門分野に多く見られる複合名詞としての専門用語を高精度に抽出することが可能となる。   According to this configuration, technical terms as compound nouns frequently found in specialized fields such as the medical field can be extracted with high accuracy.

さらに、本発明の文書解析システムの一実施態様において、前記文書解析システムは、さらに、前記用語再構成手段の生成した用語テキストから、前記第二用語抽出手段の抽出した用語を削除した更新用語テキストを生成する用語テキスト更新手段を有し、前記第二用語抽出手段は、前記用語テキスト更新手段の生成した更新用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択する構成であることを特徴とする。   Furthermore, in one embodiment of the document analysis system of the present invention, the document analysis system further includes an updated term text obtained by deleting the term extracted by the second term extraction unit from the term text generated by the term reconstruction unit. A term text update unit that generates a term, and the second term extraction unit performs an evaluation depending on the appearance frequency of the term using the updated term text generated by the term text update unit as an analysis target, and a term having a high appearance frequency Is selected as an output term.

本構成によれば、長さ重視の用語抽出の後、抽出した用語に対応する用語の出現頻度に応じた複製テキストを生成して生成テキストに基づいて頻度重視の用語抽出を実行し、さらに、第二用語抽出手段の抽出した用語を削除した更新用語テキストを生成して、更新用語テキストを解析対象として、出現頻度の高い用語候補を出力用語として選択する構成としたので、より多くの出力用語を取得することが可能となる。   According to this configuration, after length-oriented term extraction, a duplicate text corresponding to the appearance frequency of the term corresponding to the extracted term is generated, and frequency-oriented term extraction is performed based on the generated text. Since the updated term text is generated by deleting the terms extracted by the second term extraction means, the updated term text is selected for analysis, and the frequently occurring term candidates are selected as output terms. Can be obtained.

さらに、本発明の文書解析システムの一実施態様において、前記文書解析システムは、さらに、前記第二用語抽出手段の抽出した用語から他の抽出用語の組み合わせ構成を持つ用語を選択し、選択した用語の出現頻度が予め定めた閾値以下である場合に出力用語から削除する処理を実行する用語選択手段を有することを特徴とする。   Furthermore, in one embodiment of the document analysis system of the present invention, the document analysis system further selects a term having a combination configuration of other extracted terms from the terms extracted by the second term extracting means, and selects the selected terms. When the frequency of occurrence is equal to or less than a predetermined threshold value, term selection means is provided for executing processing for deletion from the output term.

本構成によれば、長さ重視の用語抽出の後、抽出した用語に対応する用語の出現頻度に応じた複製テキストを生成して生成テキストに基づいて頻度重視の用語抽出を実行し、さらに、第二用語抽出手段の抽出した用語から、不適切に長い用語を削除することが可能となり、適切な長さの用語出力が実現される。   According to this configuration, after length-oriented term extraction, a duplicate text corresponding to the appearance frequency of the term corresponding to the extracted term is generated, and frequency-oriented term extraction is performed based on the generated text. It is possible to delete an inappropriately long term from the term extracted by the second term extracting means, and a term output having an appropriate length is realized.

さらに、本発明の第2の側面は、
文書解析システムにおいて実行する文書解析方法であり、
文書中の用語の抽出処理を実行する第一用語抽出手段が、用語の長さに依存した評価を行い、長さ重視の用語候補抽出処理を実行する第一用語抽出ステップと、
用語再構成手段が、文書データベースに格納された文書集合を検索し、前記第一用語抽出ステップにおいて抽出した用語候補と同じ用語の出現回数をカウントし、出現回数に応じた用語の複製を含む用語テキストを生成する用語再構成ステップと、
第二用語抽出手段が、前記用語再構成ステップにおいて生成した用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択する第二用語抽出ステップと、
を有することを特徴とする文書解析方法にある。
Furthermore, the second aspect of the present invention provides
A document analysis method executed in the document analysis system,
A first term extraction step in which a first term extraction means for executing a term extraction process in a document performs an evaluation depending on the term length and executes a term candidate extraction process focusing on length;
A term including a copy of a term corresponding to the number of occurrences, wherein the term reconstructing means searches the document set stored in the document database, counts the number of occurrences of the same term as the term candidate extracted in the first term extraction step A term restructuring step to generate text;
A second term extraction step, wherein the second term extraction means performs an evaluation depending on the appearance frequency of the term with the term text generated in the term reconstruction step as an analysis target, and selects a term having a high appearance frequency as an output term;
The document analysis method is characterized by comprising:

本構成によれば、長さ重視の用語抽出の後、抽出した用語に対応する用語の出現頻度に応じた複製テキストを生成して生成テキストに基づいて頻度重視の用語抽出を実行する構成としたので、専門用語を高精度に抽出することが可能となる。   According to this configuration, after extracting the term with emphasis on length, a duplicate text is generated according to the appearance frequency of the term corresponding to the extracted term, and the term emphasizing frequency is executed based on the generated text. Therefore, it becomes possible to extract technical terms with high accuracy.

さらに、本発明の文書解析方法の一実施態様において、前記第一用語抽出ステップは、特定の専門分野、例えば医療分野の文書を解析対象とした用語抽出処理を実行するステップであり、前記用語再構成ステップは、前記特定の専門分野の文書を格納した文書データベースに格納された文書集合の検索による出現回数のカウント処理を実行し、前記第二用語抽出ステップは、医療分野の用語としての形態素の抽出を行なうステップであることを特徴とする。   Furthermore, in an embodiment of the document analysis method of the present invention, the first term extraction step is a step of executing a term extraction process for analyzing a document in a specific specialized field, for example, a medical field, The configuration step performs a process of counting the number of occurrences by searching a document set stored in a document database storing documents of the specific specialized field, and the second term extraction step includes the step of morpheme as a medical field term. It is a step for performing extraction.

本構成によれば、医療分野などの専門分野に多く見られる複合名詞としての専門用語を高精度に抽出することが可能となる。   According to this configuration, technical terms as compound nouns frequently found in specialized fields such as the medical field can be extracted with high accuracy.

さらに、本発明の文書解析方法の一実施態様において、前記文書解析方法は、さらに、用語テキスト更新手段が、前記用語再構成ステップにおいて生成した用語テキストから、前記第二用語抽出ステップで抽出した用語を削除した更新用語テキストを生成する用語テキスト更新ステップを有し、前記第二用語抽出ステップは、前記用語テキスト更新ステップにおいて生成した更新用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択するステップであることを特徴とする。   Furthermore, in one embodiment of the document analysis method of the present invention, the document analysis method further includes a term text update unit that extracts the term extracted in the second term extraction step from the term text generated in the term reconstruction step. A term text update step for generating an updated term text from which the term is deleted, and the second term extraction step performs an evaluation depending on the appearance frequency of the term with the updated term text generated in the term text update step as an analysis target In this step, a term having a high appearance frequency is selected as an output term.

本構成によれば、長さ重視の用語抽出の後、抽出した用語に対応する用語の出現頻度に応じた複製テキストを生成して生成テキストに基づいて頻度重視の用語抽出を実行し、さらに、第二用語抽出手段の抽出した用語を削除した更新用語テキストを生成して、更新用語テキストを解析対象として、出現頻度の高い用語候補を出力用語として選択する構成としたので、より多くの出力用語を取得することが可能となる。   According to this configuration, after length-oriented term extraction, a duplicate text corresponding to the appearance frequency of the term corresponding to the extracted term is generated, and frequency-oriented term extraction is performed based on the generated text. Since the updated term text is generated by deleting the terms extracted by the second term extraction means, the updated term text is selected for analysis, and the frequently occurring term candidates are selected as output terms. Can be obtained.

さらに、本発明の文書解析方法の一実施態様において、前記文書解析方法は、さらに、用語選択手段が、前記第二用語抽出ステップにおいて抽出した用語から他の抽出用語の組み合わせ構成を持つ用語を選択し、選択した用語の出現頻度が予め定めた閾値以下である場合に出力用語から削除する処理を実行する用語選択ステップを有することを特徴とする。   Furthermore, in one embodiment of the document analysis method of the present invention, the document analysis method further selects a term having a combination configuration of other extracted terms from the terms extracted by the term selecting means in the second term extracting step. And a term selection step of executing a process of deleting from the output term when the appearance frequency of the selected term is equal to or less than a predetermined threshold value.

本構成によれば、長さ重視の用語抽出の後、抽出した用語に対応する用語の出現頻度に応じた複製テキストを生成して生成テキストに基づいて頻度重視の用語抽出を実行し、さらに、第二用語抽出手段の抽出した用語から、不適切に長い用語を削除することが可能となり、適切な長さの用語出力が実現される。   According to this configuration, after length-oriented term extraction, a duplicate text corresponding to the appearance frequency of the term corresponding to the extracted term is generated, and frequency-oriented term extraction is performed based on the generated text. It is possible to delete an inappropriately long term from the term extracted by the second term extracting means, and a term output having an appropriate length is realized.

さらに、本発明の第3の側面は、
文書解析システムにおいて文書解析処理を実行させるコンピュータ・プログラムであり、
文書中の用語の抽出処理を実行する第一用語抽出手段に、用語の長さに依存した評価を行わせ、長さ重視の用語候補抽出処理を実行させる第一用語抽出ステップと、
用語再構成手段に、文書データベースに格納された文書集合を検索し、前記第一用語抽出ステップにおいて抽出した用語候補と同じ用語の出現回数をカウントさせ、出現回数に応じた用語の複製を含む用語テキストを生成させる用語再構成ステップと、
第二用語抽出手段に、前記用語再構成ステップにおいて生成した用語テキストを解析対象として用語の出現頻度に依存した評価を行わせ、出現頻度の高い用語を出力用語として選択させる第二用語抽出ステップと、
を有することを特徴とするコンピュータ・プログラムにある。
Furthermore, the third aspect of the present invention provides
A computer program for executing document analysis processing in a document analysis system;
A first term extraction step for causing a first term extraction means for performing a term extraction process in a document to perform an evaluation depending on a term length and to execute a term candidate extraction process with emphasis on length;
A term including a copy of a term corresponding to the number of occurrences by causing the term reconstructing means to search the document set stored in the document database, count the number of occurrences of the same term as the term candidate extracted in the first term extraction step A term restructuring step to generate text;
A second term extraction step for causing the second term extraction means to perform an evaluation depending on the appearance frequency of the term with the term text generated in the term reconstructing step as an analysis target, and to select a term having a high appearance frequency as an output term; ,
There is a computer program characterized by comprising:

本構成によれば、長さ重視の用語抽出の後、抽出した用語に対応する用語の出現頻度に応じた複製テキストを生成して生成テキストに基づいて頻度重視の用語抽出を実行する構成としたので、専門用語を高精度に抽出することが可能となる。   According to this configuration, after extracting the term with emphasis on length, a duplicate text is generated according to the appearance frequency of the term corresponding to the extracted term, and the term emphasizing frequency is executed based on the generated text. Therefore, it becomes possible to extract technical terms with high accuracy.

なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能な汎用コンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ・システム上でプログラムに応じた処理が実現される。   The computer program of the present invention is, for example, a computer program that can be provided by a storage medium or a communication medium provided in a computer-readable format to a general-purpose computer system that can execute various program codes. . By providing such a program in a computer-readable format, processing corresponding to the program is realized on the computer system.

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。   Other objects, features, and advantages of the present invention will become apparent from a more detailed description based on embodiments of the present invention described later and the accompanying drawings. In this specification, the system is a logical set configuration of a plurality of devices, and is not limited to one in which the devices of each configuration are in the same casing.

本発明の構成によれば、例えば医療分野などの専門分野における用語、例えば形態素としての用語抽出を行なう構成において、用語の長さに依存した評価を行い、長さ重視の用語候補抽出処理を実行し、文書データベースの格納文書を検索し、抽出した用語候補と同じ用語の出現回数をカウントし、出現回数に応じた用語の複製を含む用語テキストを生成して、生成した用語テキストを解析対象として、第一用語抽出手段の抽出した用語候補の出現頻度に依存した評価を行い、出現頻度の高い用語候補を出力用語として選択する構成としたので、ノイズ成分の少ない形態素として最適な専門用語の抽出を効率的に行なうことが可能となる。   According to the configuration of the present invention, in a configuration for extracting a term in a specialized field such as a medical field, for example, a term as a morpheme, an evaluation depending on the length of the term is performed, and a term candidate extraction process focusing on the length is executed. Search the stored documents in the document database, count the number of occurrences of the same term as the extracted term candidates, generate term text that includes a copy of the term according to the number of occurrences, and use the generated term text as the analysis target The first term extraction means performs an evaluation that depends on the appearance frequency of the extracted term candidates, and selects a candidate word that has a high appearance frequency as the output term. Can be performed efficiently.

以下、図面を参照しながら本発明の実施形態に係る文書解析システム、および文書解析方法、並びにコンピュータ・プログラムの詳細について説明する。   Details of a document analysis system, a document analysis method, and a computer program according to embodiments of the present invention will be described below with reference to the drawings.

[第1実施例]
図1を参照して、本発明の一実施形態に係る文書解析システムの構成および処理について説明する。図1に示すように本発明の一実施形態に係る文書解析システム100は、第一専門用語抽出手段101、専門用語再構成手段102、専門用語テキスト格納手段103、第二専門用語抽出手段104、文書格納手段121を有する。
[First embodiment]
With reference to FIG. 1, the configuration and processing of a document analysis system according to an embodiment of the present invention will be described. As shown in FIG. 1, a document analysis system 100 according to an embodiment of the present invention includes a first technical term extraction unit 101, a technical term reconstruction unit 102, a technical term text storage unit 103, a second technical term extraction unit 104, Document storage means 121 is included.

以下、各手段の構成および処理について、具体的な例を示しながら説明を行なう。なお、本発明の文書解析システムは、専門分野の専門用語を含む文書の解析を行なうシステムであり、以下の実施例では、専門分野の一例として医療分野を取り上げて説明するが、本発明は医療分野に限らず、その他の専門分野、例えば経済、建築、技術などの様々な専門分野の専門用語の解析に適用可能である。   Hereinafter, the configuration and processing of each unit will be described with specific examples. The document analysis system of the present invention is a system that analyzes documents including technical terms in specialized fields. In the following embodiments, the medical field will be described as an example of specialized fields. The present invention can be applied to the analysis of technical terms in various specialized fields such as economics, architecture, and technology.

図1に示す文書解析システム100を構成する各手段について説明する。
[文書格納手段]
文書格納手段121は、専門分野に関する文書、本実施例では医学分野の日本語文書を格納した記憶手段、すなわち文書データベースである。
Each means constituting the document analysis system 100 shown in FIG. 1 will be described.
[Document storage]
The document storage unit 121 is a storage unit that stores a document related to a specialized field, in this embodiment, a Japanese document in the medical field, that is, a document database.

[第一専門用語抽出手段]
第一専門用語抽出手段101は、文書格納手段121の格納文書を解析対象として、解析対象文書から専門用語であると判別される用語の抽出処理を実行する。第一専門用語抽出手段101は、用語の長さに依存した評価を行い、長さ重視の用語候補抽出処理を実行する。具体的には、複合名詞などの用語の長さのパラメータを重視した用語抽出処理を実行する。例えば解析対象とした文書の品詞解析を行い、複数の名詞によって構成される複合名詞などを専門用語として選択して、より長い複合名詞などの用語に高い評価値を設定して評価値の上位の用語を抽出する。なお、第一専門用語抽出手段101の実行する長さのパラメータを重視した用語抽出処理は、先に説明した特許文献1(特開2004−151926号公報)に開示された長さ重視の用語抽出処理と同様の処理として実行可能である。
[First terminology extraction means]
The first technical term extraction unit 101 performs processing for extracting a term that is determined to be a technical term from the analysis target document, with the stored document in the document storage unit 121 as an analysis target. The first technical term extraction unit 101 performs an evaluation depending on the length of the term, and executes a term candidate extraction process that emphasizes the length. Specifically, term extraction processing is performed with emphasis on parameters of term length such as compound nouns. For example, perform part-of-speech analysis of a document to be analyzed, select compound nouns composed of multiple nouns as technical terms, set higher evaluation values for terms such as longer compound nouns, etc. Extract terms. Note that the term extraction process emphasizing the length parameter executed by the first technical term extraction means 101 is the length-oriented term extraction disclosed in Patent Document 1 (Japanese Patent Laid-Open No. 2004-151926) described above. It can be executed as a process similar to the process.

以下、一例として、第一専門用語抽出手段101が文書格納手段121の格納文書を解析対象とした用語抽出処理において、以下の専門用語である複合名詞が抽出されたものとして説明する。
(a)慢性びまん性管状増殖性糸球体リンパ腫
(b)びまん性管内糸球体腎炎ネフローゼ症候群
(c)急性びまん性メサンギウム表層角膜炎
・・・
Hereinafter, as an example, it is assumed that the first technical term extraction unit 101 extracts compound nouns that are the following technical terms in the term extraction processing in which the stored document of the document storage unit 121 is analyzed.
(A) Chronic diffuse tubular proliferative glomerular lymphoma (b) Diffuse intraglomerular nephritis nephrotic syndrome (c) Acute diffuse mesangial superficial keratitis

[専門用語再構成手段]
専門用語再構成手段102は、第一専門用語抽出手段101で抽出された各専門用語候補が、文書格納手段121中に格納されている全文書中に出現する回数をそれぞれカウントし、各専門用語候補を出現回数分だけ複製する。すなわち、専門用語再構成手段102は、特定の専門分野の文書を格納した文書データベースに格納された文書集合を検索し、第一専門用語抽出手段101の抽出した用語候補と同じ用語の出現回数をカウントし、出現回数に応じた用語の複製を含む用語テキストを生成する。
[Technical term reconstruction means]
The technical term reconstruction unit 102 counts the number of times each technical term candidate extracted by the first technical term extraction unit 101 appears in all the documents stored in the document storage unit 121, and each technical term Duplicate candidates as many times as they appear. That is, the technical term reconstruction unit 102 searches a document set stored in a document database storing documents of a specific specialized field, and determines the number of appearances of the same term as the term candidate extracted by the first technical term extraction unit 101. Count and generate term text that includes a copy of the term according to the number of occurrences.

例えば、上記例において、
「慢性びまん性管状増殖性糸球体リンパ腫」の出現回数が5回、
「びまん性管内糸球体腎炎ネフローゼ症候群」の出現回数が4回、
「急性びまん性メサンギウム表層角膜炎」の出現回数が3回、
これらの出現回数であれば、専門用語再構成手段102は、各用語の出現回数(5,4,3・・)に応じて、以下のような複製テキストを生成する。
慢性びまん性管状増殖性糸球体リンパ腫
慢性びまん性管状増殖性糸球体リンパ腫
慢性びまん性管状増殖性糸球体リンパ腫
慢性びまん性管状増殖性糸球体リンパ腫
慢性びまん性管状増殖性糸球体リンパ腫
びまん性管内糸球体腎炎ネフローゼ症候群
びまん性管内糸球体腎炎ネフローゼ症候群
びまん性管内糸球体腎炎ネフローゼ症候群
びまん性管内糸球体腎炎ネフローゼ症候群
急性びまん性メサンギウム表層角膜炎
急性びまん性メサンギウム表層角膜炎
急性びまん性メサンギウム表層角膜炎
・・・
For example, in the above example:
The appearance frequency of “chronic diffuse tubular proliferative glomerular lymphoma” is 5 times,
The appearance frequency of “diffuse intraglomerular nephritis nephrotic syndrome” is 4 times,
The appearance frequency of “acute diffuse mesangial superficial keratitis” is 3 times,
If it is these appearance frequency, the technical term reconstruction means 102 produces | generates the following duplicate texts according to the appearance frequency (5, 4, 3, ...) of each term.
Chronic diffuse tubular proliferative glomerular lymphoma Chronic diffuse tubular proliferative glomerular lymphoma Chronic diffuse tubular proliferative glomerular lymphoma Chronic diffuse tubular proliferative glomerular lymphoma Chronic diffuse tubular proliferative glomerular lymphoma Diffuse intraluminal glomeruli Nephritic nephrotic syndrome Diffuse endoglomerular nephritis nephrotic syndrome Diffuse intraglomerular nephritis nephrotic syndrome Diffuse intraglomerular nephritic nephrotic syndrome Acute diffuse mesangial superficial keratitis Acute diffuse mesangial superficial keratitis Acute diffuse mesangial superficial keratitis・

[専門用語テキスト格納手段]
専門用語テキスト格納手段103は、専門用語再構成手段で作成されたテキストを格納する記憶手段である。
[Technical term text storage means]
The technical term text storage means 103 is a storage means for storing the text created by the technical term reconstruction means.

[第二専門用語抽出手段]
第二専門用語抽出手段104は、専門用語テキスト格納手段103に格納されたテキストを対象として、専門用語候補の抽出を行なう。第二専門用語抽出手段104では、複合名詞の出現頻度のパラメータを重視した用語抽出を行なう。第二専門用語抽出手段104は、専門用語再構成手段103の生成した用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択する。
[Second terminology extraction means]
The second technical term extraction means 104 extracts technical term candidates for the text stored in the technical term text storage means 103. The second technical term extraction means 104 performs term extraction focusing on the parameter of the appearance frequency of compound nouns. The second technical term extraction unit 104 performs an evaluation depending on the appearance frequency of the term using the term text generated by the technical term reconstruction unit 103 as an analysis target, and selects a term having a high appearance frequency as an output term.

第二専門用語抽出手段104は、専門用語テキスト格納手段103に格納されたテキストのみを対象とした解析を行い、その格納テキスト中に含まれる複合名詞などの用語の出現頻度をカウントして出現頻度の高い用語に高い評価値を設定して評価値の上位の用語を抽出する。なお、この出現頻度重視の用語抽出処理は、前述の特許文献1(特開2004−151926号公報)に開示された頻度重視の用語抽出処理と同様の処理として実行可能である。   The second technical term extraction unit 104 analyzes only the text stored in the technical term text storage unit 103 and counts the appearance frequency of terms such as compound nouns included in the stored text. A high evaluation value is set for a high term, and terms having high evaluation values are extracted. Note that this appearance frequency-oriented term extraction processing can be executed as the same processing as the frequency-oriented term extraction processing disclosed in the above-mentioned Patent Document 1 (Japanese Patent Application Laid-Open No. 2004-151926).

上記の例では、専門用語テキスト格納手段103には、
(テキストa)「慢性びまん性管状増殖性糸球体リンパ腫」が5個
(テキストb)「びまん性管内糸球体腎炎ネフローゼ症候群」が4個
(テキストc)「急性びまん性メサンギウム表層角膜炎」が3個
これらのテキストデータが格納されており、第二専門用語抽出手段104は、複合名詞の出現頻度のパラメータを重視した抽出により、上記のテキストから以下のような部分文字列を抽出する。なお、得られた上位N個の部分文字列を最終的な抽出結果とする。Nは予め設定した閾値である。
(1)びまん性
(2)糸球体
・・・
In the above example, the technical term text storage means 103 includes
(Text a) 5 “chronic diffuse tubular proliferative glomerular lymphoma” (text b) 4 “diffuse intraglomerular nephritis nephrotic syndrome” (text c) 3 “acute diffuse mesangial superficial keratitis” These text data are stored, and the second technical term extraction means 104 extracts the following partial character string from the above text by extraction focusing on the appearance frequency parameter of the compound noun. The obtained top N partial character strings are used as final extraction results. N is a preset threshold value.
(1) Diffuse (2) Glomera ...

上記テキストa〜cを解析対象とした場合、
「びまん性」は、テキストaに5個、テキストbに4個、テキストcに3個、検出され、計12回の出現頻度となる。
また、「糸球体」は、テキストaに5個、テキストbに4個検出され、計9回の出現頻度となる。
このように、第二専門用語抽出手段104は、専門用語テキスト格納手段103に格納されたテキストのみを対象とした解析を行い、その格納テキスト中に含まれる複合名詞などの用語の出現頻度をカウントして出現頻度の高い用語に高い評価値を設定して評価値の上位の用語を抽出する。抽出した用語が、文書検索の検索キーや文書分類に用いるインデックス等、文書処理に適用する言語単位としての形態素として辞書に登録される。
When the above texts a to c are analyzed,
“Diffuse” is detected in text a, 5 in text b, and 3 in text c, resulting in a total of 12 occurrences.
In addition, five “globules” are detected in the text “a” and four are detected in the text “b”, and the appearance frequency is 9 times in total.
As described above, the second technical term extraction unit 104 analyzes only the text stored in the technical term text storage unit 103 and counts the appearance frequency of terms such as compound nouns included in the stored text. Then, a high evaluation value is set for terms having a high frequency of appearance, and terms having higher evaluation values are extracted. The extracted terms are registered in the dictionary as morphemes as language units to be applied to document processing, such as a search key for document search and an index used for document classification.

以上のように本発明に従った文書解析システムでは、第一専門用語抽出手段101において、複合名詞などからなる用語の長さのパラメータを重視した専門用語候補抽出を行い、かつ、第二専門用語抽出手段104において、用語の出現頻度のパラメータを重視した専門用語抽出を行なう構成であり、第一専門用語抽出手段101によって、高い確率で複合名詞などの専門用語候補が得られ、それらのみを対象にして第二専門用語抽出手段103が専門用語を抽出するため、「明日手術」「前回実施」等の不適切な専門用語が抽出されることはなく、高い抽出精度を実現することができる。さらに、第二専門用語抽出手段104で抽出される専門用語は、出現頻度のパラメータ重視で抽出されるため、形態素解析用辞書に登録する上で適切な長さの形態素となる。   As described above, in the document analysis system according to the present invention, the first technical term extraction means 101 performs technical term candidate extraction that emphasizes the parameter of the length of a term composed of compound nouns, and the second technical term. The extraction means 104 is configured to extract technical terms with emphasis on the parameter of appearance frequency of terms, and the first technical term extraction means 101 can obtain technical term candidates such as compound nouns with high probability, and only those are targeted. Thus, since the second technical term extraction means 103 extracts technical terms, inappropriate technical terms such as “tomorrow's operation” and “previous execution” are not extracted, and high extraction accuracy can be realized. Furthermore, since the technical terms extracted by the second technical term extraction unit 104 are extracted with emphasis on the appearance frequency parameter, they become morphemes having an appropriate length for registration in the morphological analysis dictionary.

図2に示すフローチャートを参照して本実施例に係る文書解析システムの実行する処理のシーケンスについて説明する。まず、ステップS101において、第一専門用語抽出手段101が、解析対象文書、例えば文書格納手段121の格納文書を解析対象として解析対象文書から複合名詞などからなる用語の長さのパラメータを重視した用語抽出処理を実行する。具体的には、前述したように文書の品詞解析を行い、複数の名詞によって構成される複合名詞などの用語から、より長い用語に高い評価値を設定して評価値の上位の用語を専門用語候補として抽出する。   A sequence of processing executed by the document analysis system according to this embodiment will be described with reference to the flowchart shown in FIG. First, in step S101, the first technical term extraction unit 101 uses an analysis target document, for example, a stored document stored in the document storage unit 121 as an analysis target, and emphasizes a term length parameter including a compound noun from the analysis target document. Execute the extraction process. Specifically, as described above, the part-of-speech analysis of the document is performed, and from terms such as compound nouns composed of multiple nouns, higher terms are set for longer terms, and terms higher in the assessment value are technical terms Extract as a candidate.

次に、ステップS102において、専門用語再構成手段102が、ステップS101において抽出した専門用語の各々について、文書格納手段121中に格納されている全文書中に出現する回数をそれぞれカウントし、各専門用語を出現回数分だけ複製する。複製テキストデータは、専門用語テキスト格納手段103に格納する。   Next, in step S102, the technical term reconstruction unit 102 counts the number of times each technical term extracted in step S101 appears in all the documents stored in the document storage unit 121, and each specialized term is counted. Duplicate the term as many times as it appears. The duplicate text data is stored in the technical term text storage means 103.

次に、ステップS103において、第二専門用語抽出手段104が、専門用語テキスト格納手段103に格納されたテキストを対象として、専門用語候補の抽出を行なう。第二専門用語抽出手段104は、複合名詞などの用語の出現頻度のパラメータを重視した用語抽出を行なう。具体的には、前述したように、専門用語テキスト格納手段103に格納されたテキスト中に含まれる用語の出現頻度をカウントして出現頻度の高い用語に高い評価値を設定して評価値の上位の用語を抽出する。   Next, in step S <b> 103, the second technical term extraction unit 104 extracts technical term candidates for the text stored in the technical term text storage unit 103. The second technical term extraction means 104 performs term extraction focusing on parameters of appearance frequency of terms such as compound nouns. Specifically, as described above, the appearance frequency of terms included in the text stored in the technical term text storage means 103 is counted, and a high evaluation value is set for a term having a high appearance frequency, and the higher evaluation value is set. Extract terms.

これらの処理によって、ノイズの少ない精度の高い専門用語抽出処理が実現される。すなわち、第一の専門用語選択処理として長さ重視による専門用語候補が抽出され、さらに、専門分野の文書を格納した文書データベース(文書格納手段121)に格納された全文書、あるいは複数の文書集合を参照して、抽出した専門用語候補と同じ用語の出現回数をカウントしてカウント数分の複製テキストを生成してこれを一時的に記憶、すなわち、専門用語テキスト格納手段103に格納し、次に、この専門用語テキスト格納手段103に格納したテキストデータを対象として、第二専門用語抽出手段104が、用語の出現頻度のパラメータを重視した用語抽出を行なう。具体的には、前述したように、専門用語テキスト格納手段103に格納されたテキスト中に含まれる複合名詞の出現頻度をカウントして出現頻度の高い複合名詞に高い評価値を設定して評価値の上位の用語を出力用語として抽出する。   With these processes, a highly accurate terminology extraction process with less noise is realized. That is, as a first technical term selection process, technical term candidates based on length are extracted, and all documents stored in a document database (document storage unit 121) storing documents in a specialized field, or a plurality of document sets , The number of occurrences of the same term as the extracted technical term candidate is counted, and duplicate text corresponding to the counted number is generated and temporarily stored, that is, stored in the technical term text storage means 103, In addition, the second technical term extraction unit 104 performs the term extraction focusing on the parameter of the appearance frequency of the term for the text data stored in the technical term text storage unit 103. Specifically, as described above, the appearance frequency of compound nouns included in the text stored in the technical term text storage means 103 is counted, and a high evaluation value is set for the compound noun having a high appearance frequency. The terms above are extracted as output terms.

第一専門用語抽出手段101の長さ重視の用語抽出において、高い確率で専門用語に相当する専門用語候補が得られ、それらをデータベースに格納した文書に出現する回数分の複製テキストを対象にして第二専門用語抽出手段103が頻度重視で専門用語を抽出するため、「明日手術」「前回実施」等の不適切な専門用語が抽出されることはなく、高い抽出精度を実現することができ、第二専門用語抽出手段104で抽出する専門用語は、出現頻度のパラメータ重視での抽出処理として実行されるため適切な長さの形態素の抽出がなされる。   In the term-oriented term extraction of the first technical term extraction means 101, technical term candidates corresponding to technical terms are obtained with high probability, and the duplicated texts corresponding to the number of times appearing in the document stored in the database are targeted. Since the second technical term extraction means 103 extracts technical terms with emphasis on frequency, inappropriate technical terms such as “Tomorrow's operation” and “previous execution” are not extracted, and high extraction accuracy can be realized. The terminology extracted by the second terminology extraction unit 104 is executed as an extraction process with emphasis on the appearance frequency parameter, so that a morpheme having an appropriate length is extracted.

[実施例2]
上述の実施例1において説明した文書解析システムを一部変形した実施例2について図3を参照して説明する。図2に示すように本発明の実施例2に係る文書解析システム200は、図1に示した実施例1の構成と同様の第一専門用語抽出手段101、専門用語再構成手段102、専門用語テキスト格納手段103、第二専門用語抽出手段104、文書格納手段121に、専門用語テキスト更新手段201を加えた構成を持つ。
[Example 2]
A second embodiment obtained by partially modifying the document analysis system described in the first embodiment will be described with reference to FIG. As shown in FIG. 2, the document analysis system 200 according to the second embodiment of the present invention includes a first terminology extraction unit 101, a terminology reconstructing unit 102, and a terminology similar to the configuration of the example 1 shown in FIG. A technical term text update unit 201 is added to the text storage unit 103, the second technical term extraction unit 104, and the document storage unit 121.

本発明の実施例2に係る文書解析システム200において、第一専門用語抽出手段101、専門用語再構成手段102、専門用語テキスト格納手段103、第二専門用語抽出手段104が最初に実行する処理は、実施例1の処理と同様である。   In the document analysis system 200 according to the second embodiment of the present invention, the first technical term extraction unit 101, the technical term reconstruction unit 102, the technical term text storage unit 103, and the second technical term extraction unit 104 perform first processing. This is the same as the processing in the first embodiment.

実施例2では、第二専門用語抽出手段104の生成した専門用語データを適用して、専門用語テキスト更新手段201が、専門用語テキスト格納手段103に格納されたテキストの更新処理を実行し、更新したテキストデータを専門用語テキスト格納手段103に再格納して、第二専門用語抽出手段104は、専門用語テキスト格納手段103に格納された更新テキストデータに基づいて、頻度情報に基づく用語抽出処理を実行する。この専門用語テキスト更新手段201におけるテキスト更新と、第二専門用語抽出手段104による更新テキストに基づく用語抽出を繰り返し実行する構成である。   In the second embodiment, the terminology text update unit 201 applies the terminology data generated by the second terminology extraction unit 104, executes the update process of the text stored in the terminology text storage unit 103, and updates it. The second terminology extraction unit 104 performs term extraction processing based on frequency information based on the updated text data stored in the terminology text storage unit 103. Execute. In this configuration, the text update in the technical term text update unit 201 and the term extraction based on the updated text by the second technical term extraction unit 104 are repeatedly executed.

具体例について説明する。まず、実施例1と同様の処理が実行されたとして、専門用語再構成手段102が、専門用語テキスト格納手段103にテキストを格納したものとする。すなわち、第一専門用語抽出手段101で抽出された各専門用語候補が、文書格納手段121中に格納されている全文書中に出現する回数をそれぞれカウントし、各専門用語候補を出現回数分だけ複製したテキストを格納する。   A specific example will be described. First, it is assumed that the technical term reconstruction unit 102 stores text in the technical term text storage unit 103, assuming that the same processing as in the first embodiment is performed. That is, the number of times each technical term candidate extracted by the first technical term extraction unit 101 appears in all the documents stored in the document storage unit 121 is counted, and each technical term candidate is counted by the number of appearances. Store the duplicated text.

例えば、前述の実施例1と同様において、
「慢性びまん性管状増殖性糸球体リンパ腫」の出現回数が5回、
「びまん性管内糸球体腎炎ネフローゼ症候群」の出現回数が4回、
「急性びまん性メサンギウム表層角膜炎」の出現回数が3回、
これらの出現回数であれば、専門用語再構成手段102は、各用語の出現回数(5,4,3・・)に応じて、以下のような複製テキストを生成して専門用語テキスト格納手段103に格納する。
慢性びまん性管状増殖性糸球体リンパ腫
慢性びまん性管状増殖性糸球体リンパ腫
慢性びまん性管状増殖性糸球体リンパ腫
慢性びまん性管状増殖性糸球体リンパ腫
慢性びまん性管状増殖性糸球体リンパ腫
びまん性管内糸球体腎炎ネフローゼ症候群
びまん性管内糸球体腎炎ネフローゼ症候群
びまん性管内糸球体腎炎ネフローゼ症候群
びまん性管内糸球体腎炎ネフローゼ症候群
急性びまん性メサンギウム表層角膜炎
急性びまん性メサンギウム表層角膜炎
急性びまん性メサンギウム表層角膜炎
・・・
For example, in the same manner as in the first embodiment,
The appearance frequency of “chronic diffuse tubular proliferative glomerular lymphoma” is 5 times,
The appearance frequency of “diffuse intraglomerular nephritis nephrotic syndrome” is 4 times,
The appearance frequency of “acute diffuse mesangial superficial keratitis” is 3 times,
If it is these appearance frequency, the technical term reconstruction means 102 produces | generates the following duplicate texts according to the appearance frequency (5,4,3, ...) of each term, and the technical term text storage means 103. To store.
Chronic diffuse tubular proliferative glomerular lymphoma Chronic diffuse tubular proliferative glomerular lymphoma Chronic diffuse tubular proliferative glomerular lymphoma Chronic diffuse tubular proliferative glomerular lymphoma Chronic diffuse tubular proliferative glomerular lymphoma Diffuse intraluminal glomeruli Nephritic nephrotic syndrome Diffuse endoglomerular nephritis nephrotic syndrome Diffuse intraglomerular nephritis nephrotic syndrome Diffuse intraglomerular nephritic nephrotic syndrome Acute diffuse mesangial superficial keratitis Acute diffuse mesangial superficial keratitis Acute diffuse mesangial superficial keratitis・

第二専門用語抽出手段104は、専門用語テキスト格納手段103に格納されたテキストを対象として、テキスト中に含まれる複合名詞などの用語の出現頻度をカウントして出現頻度の高い用語に高い評価値を設定して評価値の上位の用語を抽出する。
上記の例では、専門用語テキスト格納手段103には、
(テキストa)「慢性びまん性管状増殖性糸球体リンパ腫」が5個
(テキストb)「びまん性管内糸球体腎炎ネフローゼ症候群」が4個
(テキストc)「急性びまん性メサンギウム表層角膜炎」が3個
これらのテキストデータが格納されており、第二専門用語抽出手段104は、複合名詞などの用語の出現頻度のパラメータを重視した抽出により、上記のテキストから以下のような部分文字列を抽出する。なお、得られた上位N個の部分文字列を最終的な抽出結果とする。Nは予め設定した閾値である。
(1)びまん性
(2)糸球体
・・・
The second technical term extraction unit 104 counts the frequency of appearance of terms such as compound nouns included in the text for the text stored in the technical term text storage unit 103, and gives a high evaluation value to terms with high frequency of appearance. To extract terms higher in the evaluation value.
In the above example, the technical term text storage means 103 includes
(Text a) 5 “chronic diffuse tubular proliferative glomerular lymphoma” (text b) 4 “diffuse intraglomerular nephritis nephrotic syndrome” (text c) 3 “acute diffuse mesangial superficial keratitis” These text data are stored, and the second technical term extraction means 104 extracts the following partial character string from the above text by extraction focusing on the parameter of the appearance frequency of terms such as compound nouns. . The obtained top N partial character strings are used as final extraction results. N is a preset threshold value.
(1) Diffuse (2) Glomera ...

[専門用語テキスト更新手段]
専門用語テキスト更新手段201は、専門用語テキスト格納手段103に格納されたテキストから、第二専門用語抽出手段104において抽出された専門用語を削除し、さらに、削除部分に改行を設定し、削除された前後の名詞または名詞群を区分したデータを生成する。具体的には、上記の例では、
(1)びまん性
(2)糸球体
これらの用語が第二専門用語抽出手段104において抽出されているので、これらの用語の削除と改行設定による区分処理を実行する。
[Technical term text update means]
The technical term text update unit 201 deletes the technical term extracted in the second technical term extraction unit 104 from the text stored in the technical term text storage unit 103, and further sets a line break in the deleted portion, and is deleted. Generate data that classifies nouns or groups of nouns. Specifically, in the above example,
(1) Diffuse (2) Glomerulus Since these terms are extracted by the second technical term extraction means 104, the processing is performed by deleting these terms and setting line breaks.

抽出用語の削除と区分処理により、以下のテキストが更新テキストデータとして設定される。
慢性
管状増殖性
リンパ腫
慢性
管状増殖性
リンパ腫
慢性
管状増殖性
リンパ腫
慢性
管状増殖性
リンパ腫
慢性
管状増殖性
リンパ腫
管内
腎炎ネフローゼ症候群
管内
腎炎ネフローゼ症候群
管内
腎炎ネフローゼ症候群
管内
腎炎ネフローゼ症候群
急性
メサンギウム表層角膜炎
急性
メサンギウム表層角膜炎
急性
メサンギウム表層角膜炎
・・・
The following text is set as update text data by deleting the extracted terms and sorting processing.
Chronic Tubular Proliferative Lymphoma Chronic Tubular Proliferative Lymphoma Chronic Tubular Proliferative Lymphoma Chronic Tubular Proliferative Lymphoma Chronic Tubular Proliferative Lymphoma Intraductal Nephritis Nephrotic Syndrome Intravascular Nephritic Nephrotic Syndrome Intracellular Nephritic Nephrotic Syndrome Acute Mesangial Surface Sankeratitis Acute Mesangial Surface Sankeratitis Acute mesangial surface keratitis ...

これらのテキストが更新テキストとして専門用語テキスト格納手段103に再格納される。第二専門用語抽出手段104は、専門用語テキスト格納手段103に格納された更新テキストデータに基づいて、頻度情報に基づく用語抽出処理を実行する。例えば、上記の更新テキストデータから出現頻度の高い用語として、
慢性
管状増殖性
リンパ腫
これらの用語が新たな抽出用語として選択されることになる。抽出した複合名詞(専門用語)が、文書検索の検索キーや文書分類に用いるインデックス等、文書処理に適用する言語単位としての形態素として辞書に登録される。
These texts are re-stored in the technical term text storage means 103 as updated text. The second technical term extraction unit 104 executes a term extraction process based on the frequency information based on the updated text data stored in the technical term text storage unit 103. For example, as a frequently occurring term from the above update text data,
Chronic tubular proliferative lymphoma These terms will be selected as new extracted terms. The extracted compound nouns (technical terms) are registered in the dictionary as morphemes as language units to be applied to document processing, such as search keys for document search and indexes used for document classification.

この専門用語テキスト更新手段201におけるテキスト更新と、第二専門用語抽出手段104による更新テキストに基づく用語抽出は、必要に応じて繰り返し実行する。   The text update in the technical term text update unit 201 and the term extraction based on the updated text by the second technical term extraction unit 104 are repeatedly executed as necessary.

本実施例によれば、既に専門用語として確定された形態素を削除した上で再度専門用語抽出を行なう処理を繰り返すことにより、高精度かつより多くの形態素を抽出することができる。   According to the present embodiment, it is possible to extract more morphemes with high accuracy by repeating the process of extracting technical terms again after deleting morphemes that have already been determined as technical terms.

図4に示すフローチャートを参照して本実施例に係る文書解析システムの実行する処理のシーケンスについて説明する。図4に示すフローチャートは、第二専門用語抽出手段104による抽出用語数がM以上となるまで、専門用語テキスト更新手段201におけるテキスト更新と、第二専門用語抽出手段104による更新テキストに基づく用語抽出処理の繰り返し実行する処理を規定したフローである。   The sequence of processing executed by the document analysis system according to this embodiment will be described with reference to the flowchart shown in FIG. The flowchart shown in FIG. 4 shows the term update based on the text update in the terminology text update unit 201 and the term extraction based on the updated text in the second term term extraction unit 104 until the number of terms extracted by the second terminology extraction unit 104 becomes M or more. It is a flow that defines a process to be repeatedly executed.

まず、ステップS201において、初期設定として、
抽出用語数:i=0
とする設定を行なう。
次に、ステップS202において、第一専門用語抽出手段101が、解析対象文書、例えば文書格納手段121の格納文書を解析対象として解析対象文書から複合名詞などの用語の長さのパラメータを重視した用語抽出処理を実行する。具体的には、前述したように文書の品詞解析を行い、複数の名詞によって構成される複合名詞などの用語を選択し、より長い用語に高い評価値を設定して評価値の上位の専門用語(複合名詞など)を抽出する。
First, in step S201, as an initial setting,
Number of extracted terms: i = 0
Set as follows.
Next, in step S202, the first technical term extraction unit 101 uses the analysis target document, for example, the storage document of the document storage unit 121 as an analysis target, and emphasizes a term length parameter such as a compound noun from the analysis target document. Execute the extraction process. Specifically, as described above, the part-of-speech analysis of a document is performed, a term such as a compound noun composed of a plurality of nouns is selected, and a high evaluation value is set for a longer term, and the technical terms at the top of the evaluation value Extract compound nouns.

次に、ステップS203において、専門用語再構成手段102が、ステップS202において抽出した専門用語候補の各々について、文書格納手段121中に格納されている全文書中に出現する回数をそれぞれカウントし、各専門用語を出現回数分だけ複製する。複製テキストデータは、専門用語テキスト格納手段103に格納する。   Next, in step S203, the technical term reconstructing unit 102 counts the number of times each of the technical term candidates extracted in step S202 appears in all the documents stored in the document storage unit 121, and Duplicate technical terms as many times as they appear. The duplicate text data is stored in the technical term text storage means 103.

次に、ステップS204において、第二専門用語抽出手段104が、専門用語テキスト格納手段103に格納されたテキストを対象として、専門用語候補の抽出を行なう。第二専門用語抽出手段104は、複合名詞などの用語の出現頻度のパラメータを重視した用語抽出を行なう。具体的には、前述したように、専門用語テキスト格納手段103に格納されたテキスト中に含まれる複合名詞の出現頻度をカウントして出現頻度の高い複合名詞に高い評価値を設定して評価値の上位の複合名詞を抽出する。   Next, in step S <b> 204, the second technical term extraction unit 104 extracts technical term candidates for the text stored in the technical term text storage unit 103. The second technical term extraction means 104 performs term extraction focusing on parameters of appearance frequency of terms such as compound nouns. Specifically, as described above, the appearance frequency of compound nouns included in the text stored in the technical term text storage means 103 is counted, and a high evaluation value is set for the compound noun having a high appearance frequency. Extract the compound nouns above.

ステップS205において、ステップS204において、第二専門用語抽出手段104が抽出した用語数が予め設定した規定数[M]以上となったか否かを判定する。[M]以上となった場合は処理を終了する。[M]未満である場合は、ステップS206に進み、専門用語テキスト格納手段103に格納されたテキストの更新処理を実行する。   In step S205, it is determined whether or not the number of terms extracted by the second technical term extraction unit 104 in step S204 is equal to or larger than a predetermined number [M] set in advance. If it is equal to or greater than [M], the process ends. If it is less than [M], the process proceeds to step S206, and the text stored in the technical term text storage means 103 is updated.

すなわち、専門用語テキスト更新手段201が、専門用語テキスト格納手段103に格納されたテキストから、第二専門用語抽出手段104において抽出された専門用語を削除し、さらに、削除部分に改行を設定し、削除された前後の名詞または名詞群を区分したデータを生成する。   That is, the technical term text update unit 201 deletes the technical term extracted in the second technical term extraction unit 104 from the text stored in the technical term text storage unit 103, and further sets a line feed in the deleted portion, Generate data that classifies the nouns or noun groups before and after the deletion.

さらに、ステップS204に戻り、更新テキストを対象として、第二専門用語抽出手段104が、出現頻度のパラメータを重視した用語抽出を行なう。ステップS204〜S206の処理は、ステップS205の判定において、第二専門用語抽出手段104が抽出した用語数が予め設定した規定数[M]以上となったと判定されるまで繰り返される。あるいは予め上限回数を設定して、その上限回数にいたった段階で処理を停止してもよい。   Further, returning to step S204, the second technical term extraction means 104 performs term extraction focusing on the appearance frequency parameter for the updated text. The processing of steps S204 to S206 is repeated until it is determined in step S205 that the number of terms extracted by the second technical term extraction means 104 is equal to or greater than a predetermined number [M] set in advance. Alternatively, the upper limit number may be set in advance, and the process may be stopped when the upper limit number is reached.

これらの処理によって、ノイズの少ない精度の高い専門用語抽出処理が実現され、予め、予定した数の専門用語を抽出することができる。   By these processes, a highly accurate technical term extraction process with less noise is realized, and a predetermined number of technical terms can be extracted in advance.

[実施例3]
さらに、本発明の文書解析システムの実施例3について図5を参照して説明する。図5に示すように本発明の実施例3に係る文書解析システム300は、図1に示した実施例1の構成と同様の第一専門用語抽出手段101、専門用語再構成手段102、専門用語テキスト格納手段103、第二専門用語抽出手段104、文書格納手段121に、専門用語選択手段301を加えた構成を持つ。
[Example 3]
Furthermore, a third embodiment of the document analysis system of the present invention will be described with reference to FIG. As shown in FIG. 5, the document analysis system 300 according to the third embodiment of the present invention includes a first technical term extraction unit 101, a technical term reconstruction unit 102, and a technical term similar to the configuration of the first embodiment shown in FIG. A technical term selection unit 301 is added to the text storage unit 103, the second technical term extraction unit 104, and the document storage unit 121.

本発明の実施例3に係る文書解析システム300において、第一専門用語抽出手段101、専門用語再構成手段102、専門用語テキスト格納手段103、第二専門用語抽出手段104が最初に実行する処理は、実施例1の処理と同様である。   In the document analysis system 300 according to the third embodiment of the present invention, the first technical term extraction unit 101, the technical term reconstruction unit 102, the technical term text storage unit 103, and the second technical term extraction unit 104 perform first processing. This is the same as the processing in the first embodiment.

実施例3では、専門用語選択手段301が、第二専門用語抽出手段104の抽出した専門用語データ形態素として登録するデータを再選択する処理を行なう。   In the third embodiment, the technical term selection unit 301 performs a process of reselecting data to be registered as the technical term data morpheme extracted by the second technical term extraction unit 104.

専門用語選択手段301は、第二専門用語抽出手段104で得られたN個の部分文字列のうち、他のN−1個の部分文字列の組み合わせによって構成される部分文字列Xを全て抽出し、Xの出現頻度が予め設定された閾値以下である場合に、Xをから出力用語から削除する、すなわち専門用語(形態素)リストから削除する。   The technical term selection unit 301 extracts all partial character strings X composed of combinations of other N−1 partial character strings from the N partial character strings obtained by the second technical term extraction unit 104. If the appearance frequency of X is equal to or less than a preset threshold, X is deleted from the output term, that is, deleted from the technical term (morpheme) list.

例えば、第二専門用語抽出手段104で得られたN個の部分文字列として、
びまん性管状
びまん性
管状
・・・
これらの用語が抽出用語として選択されているとする。
For example, as N partial character strings obtained by the second technical term extraction means 104,
Diffuse tubular Diffuse tubular ...
Assume that these terms are selected as extracted terms.

専門用語選択手段301は、例えば、
「びまん性管状」は、
他の抽出用語[びまん性]、[管状]の組み合わせによって構成されると判定し、
[びまん性管状]を、他のN−1個の部分文字列の組み合わせによって構成される部分文字列Xとして抽出する。専門用語選択手段301は、専門用語テキスト格納手段103に格納されたテキストを解析対象として、Xの出現頻度を検証し、Xの出現頻度が、予め設定された閾値以下である場合に、Xを登録する専門用語(形態素)から削除する。
The technical term selection means 301 is, for example,
"Diffuse tubular"
It is determined to be composed of a combination of other extracted terms [diffuse] and [tubular]
[Diffuse tube] is extracted as a partial character string X composed of a combination of other N-1 partial character strings. The technical term selection unit 301 verifies the appearance frequency of X by using the text stored in the technical term text storage unit 103 as an analysis target. If the appearance frequency of X is equal to or lower than a preset threshold, X Delete from registered technical terms (morphemes).

この処理により、出現頻度が多くない不適切に長い形態素が登録候補から削除されることになり、より適切な形態素の登録処理が実行され、形態素解析に適切な形態素リストを得ることができる。   By this process, an inappropriately long morpheme that does not appear frequently is deleted from the registration candidates, a more appropriate morpheme registration process is executed, and a morpheme list suitable for morpheme analysis can be obtained.

最後に、上述した処理を実行する文書解析システムを構成する情報処理装置のハードウェア構成例について、図6を参照して説明する。CPU(Central Processing Unit)501は、OS(Operating System)に対応する処理や、上述の実施例において説明した第一専門用語抽出処理、専門用語再構成処理、第二専門用語抽出処理、専門用語テキスト更新処理、専門用語選択処理などを実行する。これらの処理は、各情報処理装置のROM、ハードディスクなどのデータ記憶部に格納されたコンピュータ・プログラムに従って実行される。   Finally, an example of the hardware configuration of the information processing apparatus constituting the document analysis system that executes the above-described processing will be described with reference to FIG. A CPU (Central Processing Unit) 501 is a process corresponding to an OS (Operating System), a first technical term extraction process, a technical term reconstruction process, a second technical term extraction process, a technical term text described in the above-described embodiment. Update processing, technical term selection processing, etc. are executed. These processes are executed according to a computer program stored in a data storage unit such as a ROM or a hard disk of each information processing apparatus.

ROM(Read Only Memory)502は、CPU501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。   A ROM (Read Only Memory) 502 stores programs used by the CPU 501, calculation parameters, and the like. A RAM (Random Access Memory) 503 stores programs used in the execution of the CPU 501, parameters that change as appropriate during the execution, and the like. These are connected to each other by a host bus 504 including a CPU bus.

ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。   The host bus 504 is connected to an external bus 506 such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge 505.

キーボード508、ポインティングデバイス509は、ユーザにより操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージで表示する。   A keyboard 508 and a pointing device 509 are input devices operated by the user. The display 510 includes a liquid crystal display device, a CRT (Cathode Ray Tube), or the like, and displays various types of information as text and images.

HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、例えば文書の格納手段、専門用語テキスト、例えば、専門用語再構成手段の生成するテキストや、専門用語テキスト更新手段の更新テキストの格納手段、抽出した専門用語の格納手段としても利用される。さらに、データ処理プログラム等、各種コンピュータ・プログラムが格納される。   An HDD (Hard Disk Drive) 511 includes a hard disk, drives the hard disk, and records or reproduces a program executed by the CPU 501 and information. The hard disk is also used as, for example, document storage means, technical term text, for example, text generated by technical term reconstruction means, update text storage means for technical term text update means, and extracted technical term storage means. . Furthermore, various computer programs such as a data processing program are stored.

ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。   The drive 512 reads data or a program recorded on a removable recording medium 521 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and the data or program is read out from the interface 507 and the external bus 506 , And supplied to the RAM 503 connected via the bridge 505 and the host bus 504.

接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続され、各種データベースや他の情報処理装置との通信を実行する。   The connection port 514 is a port for connecting the external connection device 522 and has a connection unit such as USB or IEEE1394. The connection port 514 is connected to the CPU 501 and the like via the interface 507, the external bus 506, the bridge 505, the host bus 504, and the like. The communication unit 515 is connected to a network and executes communication with various databases and other information processing apparatuses.

なお、図6に示す文書解析システムとしての情報処理装置のハードウェア構成例は、PCを適用して構成した装置の一例であり、本発明の文書解析システムは、図6に示す構成に限らず、上述した実施例において説明した処理を実行可能な構成であればよい。   Note that the hardware configuration example of the information processing apparatus as the document analysis system shown in FIG. 6 is an example of an apparatus configured by applying a PC, and the document analysis system of the present invention is not limited to the configuration shown in FIG. Any configuration capable of executing the processing described in the above-described embodiments may be used.

以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。   The present invention has been described in detail above with reference to specific embodiments. However, it is obvious that those skilled in the art can make modifications and substitutions of the embodiments without departing from the gist of the present invention. In other words, the present invention has been disclosed in the form of exemplification, and should not be interpreted in a limited manner. In order to determine the gist of the present invention, the claims should be taken into consideration.

また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。   The series of processing described in the specification can be executed by hardware, software, or a combined configuration of both. When executing processing by software, the program recording the processing sequence is installed in a memory in a computer incorporated in dedicated hardware and executed, or the program is executed on a general-purpose computer capable of executing various processing. It can be installed and run. For example, the program can be recorded in advance on a recording medium. In addition to being installed on a computer from a recording medium, the program can be received via a network such as a LAN (Local Area Network) or the Internet and can be installed on a recording medium such as a built-in hard disk.

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。   Note that the various processes described in the specification are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Further, in this specification, the system is a logical set configuration of a plurality of devices, and the devices of each configuration are not limited to being in the same casing.

以上、説明したように、本発明の構成によれば、例えば医療分野などの専門分野における用語、例えば形態素としての用語抽出を行なう構成において、用語の長さに依存した評価を行い、長さ重視の用語候補抽出処理を実行し、文書データベースの格納文書を検索し、抽出した用語候補と同じ用語の出現回数をカウントし、出現回数に応じた用語の複製を含む用語テキストを生成して、生成した用語テキストを解析対象として、第一用語抽出手段の抽出した用語候補の出現頻度に依存した評価を行い、出現頻度の高い用語候補を出力用語として選択する構成としたので、ノイズ成分の少ない形態素として最適な専門用語の抽出を効率的に行なうことが可能となる。   As described above, according to the configuration of the present invention, for example, in terms of a configuration in which a term is extracted as a morpheme in a specialized field such as a medical field, evaluation is performed depending on the length of the term, and length is emphasized. The term candidate extraction process is executed, the stored document in the document database is searched, the number of occurrences of the same term as the extracted term candidate is counted, and the term text including a copy of the term according to the number of occurrences is generated and generated The term text that has been analyzed is subjected to evaluation depending on the appearance frequency of the term candidate extracted by the first term extraction means, and the term candidate having a high appearance frequency is selected as the output term. As a result, it is possible to efficiently extract optimal technical terms.

本発明の文書解析システムの実施例1の構成例を示す図である。It is a figure which shows the structural example of Example 1 of the document analysis system of this invention. 本発明の実施例1の文書解析システムの実行する処理シーケンスを説明するフローチャートを示す図である。It is a figure which shows the flowchart explaining the process sequence which the document analysis system of Example 1 of this invention performs. 本発明の文書解析システムの実施例2の構成例を示す図である。It is a figure which shows the structural example of Example 2 of the document analysis system of this invention. 本発明の実施例2の文書解析システムの実行する処理シーケンスを説明するフローチャートを示す図である。It is a figure which shows the flowchart explaining the process sequence which the document analysis system of Example 2 of this invention performs. 本発明の文書解析システムの実施例3の構成例を示す図である。It is a figure which shows the structural example of Example 3 of the document analysis system of this invention. 本発明の一実施形態に係る文書解析システムのハードウェア構成例について説明する図である。It is a figure explaining the hardware structural example of the document analysis system which concerns on one Embodiment of this invention.

符号の説明Explanation of symbols

100 文書解析システム
101 第一専門用語抽出手段
102 専門用語再構成手段
103 専門用語テキスト格納手段
104 第二専門用語抽出手段
121 文書格納手段
201 専門用語テキスト更新手段
301 専門用語選択手段
501 CPU(Central Processing Unit)
502 ROM(Read-Only-Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器
DESCRIPTION OF SYMBOLS 100 Document analysis system 101 1st technical term extraction means 102 Technical term reconstruction means 103 Technical term text storage means 104 Second technical term extraction means 121 Document storage means 201 Technical term text update means 301 Technical term selection means 501 CPU (Central Processing) Unit)
502 ROM (Read-Only-Memory)
503 RAM (Random Access Memory)
504 Host bus 505 Bridge 506 External bus 507 Interface 508 Keyboard 509 Pointing device 510 Display 511 HDD (Hard Disk Drive)
512 drive 514 connection port 515 communication unit 521 removable recording medium 522 external connection device

Claims (11)

文書中の用語の抽出処理を実行する用語抽出手段であり、用語の長さに依存した評価を行い、長さ重視の用語候補抽出処理を実行する第一用語抽出手段と、
文書データベースに格納された文書集合を検索し、前記第一用語抽出手段の抽出した用語候補と同じ用語の出現回数をカウントし、出現回数に応じた用語の複製を含む用語テキストを生成する用語再構成手段と、
前記用語再構成手段の生成した用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択する第二用語抽出手段と、
を有することを特徴とする文書解析システム。
A term extraction unit that executes a process for extracting a term in a document, performs an evaluation depending on the length of the term, and executes a term candidate extraction process that emphasizes the length;
Search the document set stored in the document database, count the number of occurrences of the same term as the term candidate extracted by the first term extraction means, and generate a term text including a copy of the term according to the number of occurrences. Configuration means;
A second term extracting means for performing an evaluation depending on the appearance frequency of the term with the term text generated by the term reconfiguring means being analyzed, and selecting a term having a high appearance frequency as an output term;
A document analysis system characterized by comprising:
前記第一用語抽出手段は、特定の専門分野の文書を解析対象とした用語抽出処理を実行する構成であり、
前記用語再構成手段は、前記特定の専門分野の文書を格納した文書データベースに格納された文書集合の検索による出現回数のカウント処理を実行する構成であることを特徴とする請求項1に記載の文書解析システム。
The first term extracting means is configured to execute a term extracting process for analyzing a document of a specific specialized field,
The said term reconstruction means is a structure which performs the count process of the frequency | count of appearance by the search of the document set stored in the document database which stored the document of the said specific field of specialization, The structure of Claim 1 characterized by the above-mentioned. Document analysis system.
前記第一用語抽出手段は、医療分野の文書を解析対象とした用語抽出処理を実行し、
前記用語再構成手段は、医療分野の文書を格納した文書データベースに格納された文書集合の検索による出現回数のカウント処理を実行し、
前記第二用語抽出手段は、医療分野の用語としての形態素の抽出を行なう構成であることを特徴とする請求項1に記載の文書解析システム。
The first term extraction means executes a term extraction process for analyzing a document in the medical field,
The term reconstructing means executes a count process of the number of appearances by searching a document set stored in a document database storing medical field documents,
The document analysis system according to claim 1, wherein the second term extraction unit is configured to extract a morpheme as a term in the medical field.
前記文書解析システムは、さらに、
前記用語再構成手段の生成した用語テキストから、前記第二用語抽出手段の抽出した用語を削除した更新用語テキストを生成する用語テキスト更新手段を有し、
前記第二用語抽出手段は、前記用語テキスト更新手段の生成した更新用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択する構成であることを特徴とする請求項1から3いずれかに記載の文書解析システム。
The document analysis system further includes:
A term text updating unit that generates an updated term text from which the term extracted by the second term extracting unit is deleted from the term text generated by the term reconfiguring unit;
The second term extraction unit is configured to perform an evaluation depending on the appearance frequency of the term with the updated term text generated by the term text update unit being analyzed, and to select a term having a high appearance frequency as an output term. The document analysis system according to claim 1, wherein the document analysis system is a document analysis system.
前記文書解析システムは、さらに、
前記第二用語抽出手段の抽出した用語から他の抽出用語の組み合わせ構成を持つ用語を選択し、選択した用語の出現頻度が予め定めた閾値以下である場合に出力用語から削除する処理を実行する用語選択手段を有することを特徴とする請求項1から4いずれかに記載の文書解析システム。
The document analysis system further includes:
A term having a combination configuration of other extracted terms is selected from the terms extracted by the second term extracting means, and a process of deleting from the output term is executed when the appearance frequency of the selected term is equal to or lower than a predetermined threshold. 5. The document analysis system according to claim 1, further comprising term selection means.
文書解析システムにおいて実行する文書解析方法であり、
文書中の用語の抽出処理を実行する第一用語抽出手段が、用語の長さに依存した評価を行い、長さ重視の用語候補抽出処理を実行する第一用語抽出ステップと、
用語再構成手段が、文書データベースに格納された文書集合を検索し、前記第一用語抽出ステップにおいて抽出した用語候補と同じ用語の出現回数をカウントし、出現回数に応じた用語の複製を含む用語テキストを生成する用語再構成ステップと、
第二用語抽出手段が、前記用語再構成ステップにおいて生成した用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択する第二用語抽出ステップと、
を有することを特徴とする文書解析方法。
A document analysis method executed in the document analysis system,
A first term extraction step in which a first term extraction means for executing a term extraction process in a document performs an evaluation depending on the term length and executes a term candidate extraction process focusing on length;
A term including a copy of a term corresponding to the number of occurrences, wherein the term reconstructing means searches the document set stored in the document database, counts the number of occurrences of the same term as the term candidate extracted in the first term extraction step A term restructuring step to generate text;
A second term extraction step, wherein the second term extraction means performs an evaluation depending on the appearance frequency of the term with the term text generated in the term reconstruction step as an analysis target, and selects a term having a high appearance frequency as an output term;
A document analysis method characterized by comprising:
前記第一用語抽出ステップは、特定の専門分野の文書を解析対象とした用語抽出処理を実行するステップであり、
前記用語再構成ステップは、前記特定の専門分野の文書を格納した文書データベースに格納された文書集合の検索による出現回数のカウント処理を実行するステップであることを特徴とする請求項6に記載の文書解析方法。
The first term extraction step is a step of executing a term extraction process for analyzing a document in a specific specialized field.
7. The term reconstructing step is a step of executing a process of counting the number of appearances by searching a document set stored in a document database storing documents of the specific specialized field. Document analysis method.
前記第一用語抽出ステップは、医療分野の文書を解析対象とした用語抽出処理を実行するステップであり、
前記用語再構成ステップは、医療分野の文書を格納した文書データベースに格納された文書集合の検索による出現回数のカウント処理を実行するステップであり、
前記第二用語抽出ステップは、医療分野の用語としての形態素の抽出を行なうステップであることを特徴とする請求項6に記載の文書解析方法。
The first term extracting step is a step of executing a term extracting process for analyzing a document in the medical field,
The term reconstructing step is a step of executing a process of counting the number of appearances by searching a document set stored in a document database storing medical field documents,
The document analysis method according to claim 6, wherein the second term extraction step is a step of extracting a morpheme as a term in the medical field.
前記文書解析方法は、さらに、
用語テキスト更新手段が、前記用語再構成ステップにおいて生成した用語テキストから、前記第二用語抽出ステップで抽出した用語を削除した更新用語テキストを生成する用語テキスト更新ステップを有し、
前記第二用語抽出ステップは、前記用語テキスト更新ステップにおいて生成した更新用語テキストを解析対象として用語の出現頻度に依存した評価を行い、出現頻度の高い用語を出力用語として選択するステップであることを特徴とする請求項6から8いずれかに記載の文書解析方法。
The document analysis method further includes:
The term text update means has a term text update step for generating an updated term text in which the term extracted in the second term extraction step is deleted from the term text generated in the term reconstruction step,
The second term extraction step is a step in which the updated term text generated in the term text update step is subjected to an evaluation depending on the appearance frequency of the term as an analysis target, and a term having a high appearance frequency is selected as an output term. The document analysis method according to claim 6, wherein the document analysis method is a document analysis method.
前記文書解析方法は、さらに、
用語選択手段が、前記第二用語抽出ステップにおいて抽出した用語から他の抽出用語の組み合わせ構成を持つ用語を選択し、選択した用語の出現頻度が予め定めた閾値以下である場合に出力用語から削除する処理を実行する用語選択ステップを有することを特徴とする請求項6から9いずれかに記載の文書解析方法。
The document analysis method further includes:
Term selection means selects a term having a combination of other extracted terms from the term extracted in the second term extraction step, and deletes it from the output term when the frequency of appearance of the selected term is equal to or lower than a predetermined threshold. The document analysis method according to claim 6, further comprising a term selection step for executing the processing to be performed.
文書解析システムにおいて文書解析処理を実行させるコンピュータ・プログラムであり、
文書中の用語の抽出処理を実行する第一用語抽出手段に、用語の長さに依存した評価を行わせ、長さ重視の用語候補抽出処理を実行させる第一用語抽出ステップと、
用語再構成手段に、文書データベースに格納された文書集合を検索し、前記第一用語抽出ステップにおいて抽出した用語候補と同じ用語の出現回数をカウントさせ、出現回数に応じた用語の複製を含む用語テキストを生成させる用語再構成ステップと、
第二用語抽出手段に、前記用語再構成ステップにおいて生成した用語テキストを解析対象として用語の出現頻度に依存した評価を行わせ、出現頻度の高い用語を出力用語として選択させる第二用語抽出ステップと、
を有することを特徴とするコンピュータ・プログラム。
A computer program for executing document analysis processing in a document analysis system;
A first term extraction step for causing a first term extraction means for performing a term extraction process in a document to perform an evaluation depending on a term length and to execute a term candidate extraction process with emphasis on length;
A term including a copy of a term corresponding to the number of occurrences by causing the term reconstructing means to search the document set stored in the document database, count the number of occurrences of the same term as the term candidate extracted in the first term extraction step A term restructuring step to generate text;
A second term extraction step for causing the second term extraction means to perform an evaluation depending on the appearance frequency of the term with the term text generated in the term reconstructing step as an analysis target, and to select a term having a high appearance frequency as an output term; ,
A computer program characterized by comprising:
JP2007135165A 2007-05-22 2007-05-22 Document analysis system, document analysis method, and computer program Expired - Fee Related JP4985096B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007135165A JP4985096B2 (en) 2007-05-22 2007-05-22 Document analysis system, document analysis method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007135165A JP4985096B2 (en) 2007-05-22 2007-05-22 Document analysis system, document analysis method, and computer program

Publications (2)

Publication Number Publication Date
JP2008293070A JP2008293070A (en) 2008-12-04
JP4985096B2 true JP4985096B2 (en) 2012-07-25

Family

ID=40167758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007135165A Expired - Fee Related JP4985096B2 (en) 2007-05-22 2007-05-22 Document analysis system, document analysis method, and computer program

Country Status (1)

Country Link
JP (1) JP4985096B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6210865B2 (en) * 2013-12-02 2017-10-11 株式会社日立製作所 Data search system and data search method
JP6220767B2 (en) * 2014-12-08 2017-10-25 日本電信電話株式会社 Term extraction device, method, and program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2812509B2 (en) * 1989-09-29 1998-10-22 株式会社リコー Terminology extraction system
JP3573572B2 (en) * 1996-05-23 2004-10-06 株式会社リコー Keyword extraction device and keyword display device
JP2003281159A (en) * 2002-03-19 2003-10-03 Fuji Xerox Co Ltd Document processor, document processing method and document processing program
JP4222811B2 (en) * 2002-10-30 2009-02-12 株式会社リコー Keyword extracting apparatus, program, and recording medium

Also Published As

Publication number Publication date
JP2008293070A (en) 2008-12-04

Similar Documents

Publication Publication Date Title
JP6643555B2 (en) Text processing method and apparatus based on ambiguous entity words
US8938384B2 (en) Language identification for documents containing multiple languages
US20030083862A1 (en) Method for extracting name entities and jargon terms using a suffix tree data structure
CN107463548B (en) Phrase mining method and device
WO2005059771A1 (en) Translation judgment device, method, and program
US20150100308A1 (en) Automated Formation of Specialized Dictionaries
JP2010157178A (en) Computer system for creating term dictionary with named entities or terminologies included in text data, and method and computer program therefor
KR20200038984A (en) Synonym dictionary creation device, synonym dictionary creation program, and synonym dictionary creation method
JP2009514076A (en) Computer-based automatic similarity calculation system for quantifying the similarity of text expressions
JP4979637B2 (en) Compound word break estimation device, method, and program for estimating compound word break position
US20190095525A1 (en) Extraction of expression for natural language processing
JP2020173779A (en) Identifying sequence of headings in document
JP4640593B2 (en) Multilingual document search device, multilingual document search method, and multilingual document search program
JP2020080087A (en) Numerical-value retrieving device, numerical-value retrieving method, and numerical-value retrieving program
JP5447368B2 (en) NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM
JP4985096B2 (en) Document analysis system, document analysis method, and computer program
WO2020157887A1 (en) Sentence structure vectorization device, sentence structure vectorization method, and sentence structure vectorization program
JP4401269B2 (en) Parallel translation judgment device and program
KR102357023B1 (en) Apparatus and Method for restoring Conversation Segment Sentences
JP4426893B2 (en) Document search method, document search program, and document search apparatus for executing the same
JP4360167B2 (en) Keyword extraction device, keyword extraction method, and computer program
JP6181890B2 (en) Literature analysis apparatus, literature analysis method and program
Dave et al. A Systematic Review of Stemmers of Indian and Non-Indian Vernacular Languages
JP2014235584A (en) Document analysis system, document analysis method, and program
US20240086448A1 (en) Detecting cited with connections in legal documents and generating records of same

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120416

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees