JP6782644B2 - Information processing systems, information processing methods, and computer programs - Google Patents
Information processing systems, information processing methods, and computer programs Download PDFInfo
- Publication number
- JP6782644B2 JP6782644B2 JP2017008054A JP2017008054A JP6782644B2 JP 6782644 B2 JP6782644 B2 JP 6782644B2 JP 2017008054 A JP2017008054 A JP 2017008054A JP 2017008054 A JP2017008054 A JP 2017008054A JP 6782644 B2 JP6782644 B2 JP 6782644B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- dictionary
- subject
- character string
- subject word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
本発明はデータ処理技術に関し、特に情報処理システム、情報処理方法、およびコンピュータプログラムに関する。 The present invention relates to data processing techniques, particularly to information processing systems, information processing methods, and computer programs.
多数の文献の中からキーワードに合致する文献を効率的に検索するために、予め検索母集団の文献に対する形態素解析が実行され、検索用のインデックスデータが作成されることがある。 In order to efficiently search a large number of documents that match the keyword, morphological analysis of the documents of the search population may be executed in advance, and index data for search may be created.
形態素解析には単語等が記録された解析用の辞書を予め用意する必要がある。この辞書には単語の漏れが少ないこと、すなわち網羅性が要求される。特に検索対象が特許文献等の技術文書の場合、専門用語が多く記述されることがあり、辞書の網羅性を人手により担保することは容易でなかった。 For morphological analysis, it is necessary to prepare a dictionary for analysis in which words and the like are recorded in advance. This dictionary is required to have few word omissions, that is, completeness. In particular, when the search target is a technical document such as a patent document, many technical terms may be described, and it is not easy to manually guarantee the completeness of the dictionary.
本発明は、上記課題に鑑みてなされたものであり、主な目的は、形態素解析等の自然言語処理のための好適な辞書の実現を支援する技術を提供することにある。 The present invention has been made in view of the above problems, and a main object of the present invention is to provide a technique for supporting the realization of a suitable dictionary for natural language processing such as morphological analysis.
上記課題を解決するために、本発明のある態様の情報処理システムは、コンピュータによる自然言語処理において使用される辞書であって、単体で意味が成立する単語である主体語が格納される辞書を記憶する辞書記憶部と、第1文書の文字列から、少なくとも辞書に格納済の主体語を除外した残りの文字列を句として、複数の句を抽出する句抽出部と、句抽出部により抽出された複数の句のうち所定個数以上の句の先頭部分に同一の文字列が存在する場合、その同一の文字列を主体語として抽出する主体語抽出部と、主体語抽出部により抽出された主体語を辞書へ格納する辞書更新部と、を備える。 In order to solve the above problems, the information processing system of a certain aspect of the present invention is a dictionary used in natural language processing by a computer, and a dictionary in which a subject word, which is a word whose meaning is established by itself, is stored. A dictionary storage unit to store, a phrase extraction unit that extracts a plurality of phrases from the character string of the first document, and the remaining character string excluding at least the main word stored in the dictionary as a phrase, and a phrase extraction unit When the same character string exists at the beginning of a predetermined number or more of the plurality of phrases, the same character string is extracted as the subject word by the subject word extraction unit and the subject word extraction unit. It is equipped with a dictionary update unit that stores the subject word in the dictionary.
本発明の別の態様は、情報処理方法である。この方法は、コンピュータによる自然言語処理において使用される辞書であって、単体で意味が成立する単語である主体語が格納される辞書を記憶する情報処理装置が、第1文書の文字列から、少なくとも辞書に格納済の主体語を除外した残りの文字列を句として、複数の句を抽出する句抽出ステップと、句抽出ステップで抽出された複数の句のうち所定個数以上の句の先頭部分に同一の文字列が存在する場合、その同一の文字列を主体語として抽出する主体語抽出ステップと、主体語抽出ステップで抽出された主体語を辞書へ格納するステップと、を実行する。 Another aspect of the present invention is an information processing method. In this method, an information processing device that stores a dictionary in which a subject word, which is a word whose meaning is established by itself, is stored in a dictionary used in natural language processing by a computer, is used from a character string of the first document. A phrase extraction step that extracts a plurality of phrases using at least the remaining character string excluding the main word stored in the dictionary as a phrase, and the beginning part of a predetermined number or more of the phrases extracted in the phrase extraction step. If the same character string exists in, the subject word extraction step of extracting the same character string as the subject word and the step of storing the subject word extracted in the subject word extraction step in the dictionary are executed.
なお、以上の構成要素の任意の組合せ、本発明の表現を、プログラム、プログラムを格納した記録媒体などの間で変換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above components and the conversion of the expression of the present invention between a program, a recording medium in which the program is stored, and the like are also effective as aspects of the present invention.
本発明によれば、形態素解析等の自然言語処理のための好適な辞書の実現を支援することができる。 According to the present invention, it is possible to support the realization of a suitable dictionary for natural language processing such as morphological analysis.
まず実施例の概要を説明する。実施例の情報処理システムは、様々な言語で記述された特許文献に対する自然言語処理、例えば形態素解析を支援する。コンピュータによる自然言語処理で使用される辞書には、収録する単語に漏れがないこと、すなわち網羅性が要求されるが、特許文献には専門用語が多く記述され、人手により作成された辞書では十分な網羅性を提供することが難しい。そこで実施例では、多数の特許文献に基づいて自然言語処理用の辞書を作成する過程における人の関与をなくし、網羅性の高い辞書を自動的に作成する第1の技術を提案する。さらに実施例では、第1の技術により自動的に作成した辞書を使用した自然言語処理として、特許文献から高精度に単語を抽出する第2の技術も提案する。 First, the outline of the embodiment will be described. The information processing system of the embodiment supports natural language processing, such as morphological analysis, on patent documents written in various languages. Dictionaries used in natural language processing by computers are required to have complete words, that is, completeness, but many technical terms are described in patent documents, and a dictionary created manually is sufficient. It is difficult to provide comprehensiveness. Therefore, in the embodiment, we propose a first technique for automatically creating a highly comprehensive dictionary by eliminating human involvement in the process of creating a dictionary for natural language processing based on a large number of patent documents. Further, in the embodiment, as a natural language processing using a dictionary automatically created by the first technique, a second technique for extracting words from patent documents with high accuracy is also proposed.
図1は、実施例の情報処理システム10の構成を示す。情報処理システム10は、特許文献DB12、辞書作成装置14、自然言語処理装置16を備える。図1の各装置は、LAN・WAN・インターネットを含む通信網18を介して接続される。
FIG. 1 shows the configuration of the
特許文献DB12は、複数の特許文献のデータ、例えば出願公開済の多数の特許文献のデータを保持するデータベースサーバである。辞書作成装置14は、自然言語処理装置16による形態素解析処理で使用される辞書(以下「形態素辞書」とも呼ぶ。)を作成する情報処理装置であり、例えばPC・サーバ等であってもよい。
The patent document DB 12 is a database server that holds data of a plurality of patent documents, for example, data of a large number of patent documents whose applications have been published. The
自然言語処理装置16は、辞書作成装置14により作成された形態素辞書を使用して、特許文献DB12に保持された特許文献データに対する形態素解析処理を実行する。具体的には、自然言語処理装置16は、各特許文献データから単語を抽出し、各特許文献から抽出した単語のリストを含む抽出単語データを所定の外部装置(不図示)へ送信する。
The natural
抽出単語データの送信先となる装置は、各特許文献の抽出単語データに基づいて特許検索用のインデックスデータを作成する装置であってもよい。また、そのインデックスデータを用いて特許検索サービスを不図示のユーザ端末へ提供する装置であってもよい。なお、自然言語処理装置16は、インデックスデータの作成機能および/または特許検索サービスの提供機能をさらに備えてもよく、例えば特許検索装置として実装されてもよい。
The device to which the extracted word data is transmitted may be a device that creates index data for patent search based on the extracted word data of each patent document. Further, the device may be a device that provides a patent search service to a user terminal (not shown) using the index data. The natural
なお、図1に示す各装置の物理的な個数に制限はない。例えば、実施例の辞書作成装置14の機能は複数台の装置が分散実行してもよく、同様に辞書作成装置14の機能も複数台の装置が分散実行してもよい。また、実施例の辞書作成装置14の機能と自然言語処理装置16の機能の両方を1台の情報処理装置が一括して提供してもよい。
There is no limit to the physical number of each device shown in FIG. For example, the functions of the
図2は、図1の辞書作成装置14の機能構成を示すブロック図である。辞書作成装置14は、制御部20、記憶部22、通信部24を備える。制御部20は、形態素辞書を作成するための各種データ処理を実行する。記憶部22は、制御部20により更新または参照されるデータの記憶領域である。通信部24は、所定の通信プロトコルにしたがって外部装置と通信する。制御部20は、通信部24を介して、特許文献DB12および自然言語処理装置16とデータを交換する。
FIG. 2 is a block diagram showing a functional configuration of the
本明細書のブロック図で示す各ブロックは、ハードウェア的には、コンピュータのCPUやメモリをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。例えば、制御部20内の各ブロックに対応するモジュールを含むコンピュータプログラムが、所定の記録媒体またはネットワークを介して、辞書作成装置14のストレージへインストールされてもよい。そして、辞書作成装置14のCPUが、ストレージからメインメモリへコンピュータプログラムを適宜読み出し、実行することにより、制御部20内の各ブロックに対応する機能を発揮してもよい。
Each block shown in the block diagram of the present specification can be realized by an element or a mechanical device such as a CPU or a memory of a computer in terms of hardware, and can be realized by a computer program or the like in terms of software. , Draws a functional block realized by their cooperation. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by combining hardware and software. For example, a computer program including a module corresponding to each block in the
記憶部22は、辞書記憶部26を含む。辞書記憶部26は、2種類の形態素辞書として主体語辞書と付随語辞書を記憶する。主体語辞書には、単体で意味が成立する単語(以下「主体語」とも呼ぶ。)が格納される。主体語は、典型的には自立語(名詞、動詞、形容詞等)であり、例えば「食堂」、「特許」、「国家」等の文字列を含む。なお、実施例における主体語は2文字以上に制限される。
The
付随語辞書には、主体語に付随して使用される単語(以下「付随語」とも呼ぶ。)が格納される。付随語は、典型的には付属語(助詞、助動詞)である。例えば付随語は、「を」、「は」、「です」、「開発部」の「部」、「懇談会」の「会」、「貴方の」の「の」を含む。付随語は、主体語と結合して初めて文節が成立する単語であってもよい。また、付随語は、主体語と結合して初めて意味が成立する(言い換えれば意味が確定する)単語であってもよい。 The incidental word dictionary stores words used in association with the subject word (hereinafter, also referred to as "accompanying words"). Accompanying words are typically particles (particles, auxiliary verbs). For example, incidental words include "o", "ha", "desu", "department" of "development department", "kai" of "advisory panel", and "no" of "your". The contingent word may be a word whose phrase is established only when it is combined with the subject word. Further, the incidental word may be a word whose meaning is established (in other words, the meaning is determined) only when it is combined with the subject word.
制御部20は、句読込部28、句分割部30、主体語抽出部32、辞書更新部34、付随語抽出部36、辞書出力部38を含む。句読込部28と句分割部30は、互いに連携して句抽出部として機能し、特許文献に記載された文字列から、少なくとも主体語辞書に格納されている主体語を除外した残りの文字列を句と識別し、複数の句を抽出する。
The
句読込部28は、特許文献DB12に格納された複数の特許文献から、各特許文献に記載された文字列を読み込む。句読込部28は、文字列中の処理対象位置(初期状態では例えば先頭文字)から、所定の区切り文字(句点、読点、ピリオド、カンマ等)までの文字列を第1の句として抽出する処理と、抽出した句の分だけ処理対象位置を先に進める処理とを繰り返す。
The
句分割部30は、主体語辞書と付随語辞書を参照して、句読込部28により抽出された第1の句から、当該第1の句を分割した複数の第2の句を抽出する。句分割部30は、少なくとも主体語辞書に格納済の主体語を除外した残りの文字列を第2の句として識別し、複数の第2の句を抽出する。実施例の句分割部30は、主体語辞書に格納済の主体語を示す句と、その主体語を除外した残りの文字列の両方を第2の句として出力する。
The
句分割部30の処理を図3を参照しつつ説明する。図3の1つの箱は1文字を示す。Xは某かの文字であり、bは主体語辞書に格納された主体語の各文字であり、Cは付随語辞書に格納された付随語の文字である。(1)句分割部30は、次の検索位置集合Ps(初期は先頭位置0)を保持する。Psは、主体語か否かを判定すべき位置を示す情報の集合である。Psの要素(すなわち位置を示す情報)は、文書全体の何バイト目かを示す情報でもよく、第1の句の先頭からの距離(文字単位、バイト単位等)を示す情報でもよい。図3ではPs={P0,P1}とする。
The process of the
(2)句分割部30は、Psの最小位置(図3ではP0)から次の単語を探す。図3では主体語「bbbb」が見つかる。(3)句分割部30は、P0から、見つかった主体語までの文字列(図3では「XX」)を句として出力するとともに、見つかった主体語「bbbb」を句として出力する。図3の例では、「XX」が、第1の句から主体語を除外した文字列に該当する。
(2) The
上記(2)で1つ以上の主体語が見つかった場合、全ての主体語に対して以下の(4)(5)を順次もしくは並行して実行する。(4)句分割部30は、1つの主体語(図3では「bbbb」の終了直後の位置(図3の例では文字「C」の位置であり、すなわちP2)をPsを入れる。(5)上記(4)における主体語の直後が付随語である場合、その付属語の終了直後の位置(図3の例では文字「X」)の位置であり、すなわちP3)をPsに入れる。(6)上記(2)で主体語が見つからなかった場合、そのときの処理位置(例えばP0)から文字列の最後までを句として出力する。(7)Psがからになるまで、上記(2)〜(6)を繰り返す。例えば、P0の処理が終了すると、PS={P1,P2,P3}となり、次の(2)ではP1から次の単語を探す。
When one or more subject words are found in the above (2), the following (4) and (5) are executed sequentially or in parallel for all the subject words. (4) The
図4(a)、図4(b)、図4(c)は句の分割の例を示す。ここでは、主体語辞書に「日本」、「振興」が記録され、付随語辞書に「語」、「会」が記録されているとする。図4(a)は、分割前の元データである第1の句を示している。句分割部30は、「日本」と「振興」は主体語辞書に存在するため主体語として認識し、第2の句として出力する。また、句分割部30は、「語」の位置から探索し、直後の主体語の開始は「振」であるため、「語」から「振」の前までの文字列、すなわち「語」を第2の句として出力する。「語」は付随語であるため、「語」の位置と「振」の位置の両方から次の主体語を探す。同様に「会」は付随語であるため、「会」の位置と「日」の位置の両方から次の主体語を探す(図4(b))。
4 (a), 4 (b), and 4 (c) show examples of phrase division. Here, it is assumed that "Japan" and "promotion" are recorded in the subject word dictionary, and "word" and "kai" are recorded in the accompanying word dictionary. FIG. 4A shows the first phrase which is the original data before division. The
「会」から後の文字列には辞書登録済みの主体語がないため、探索位置から文字列の最後までを第2の句として出力する。図4(c)は、句分割部30から出力された5個の第2の句を示している。なお、同一位置から複数の主体語を検出した場合、句分割部30は、検出した全単語に対して上記処理を実行する。この場合、一部が重複する第2の句を含む複数の第2の句が抽出されることになる。
Since there is no subject word registered in the dictionary in the character string after "kai", the second phrase is output from the search position to the end of the character string. FIG. 4C shows five second phrases output from the
図2に戻り、主体語抽出部32は、句分割部30から出力された複数の第2の句のうち所定個数以上の句の先頭部分に同一の文字列が存在する場合、その同一の文字列を主体語の候補として抽出する。具体的には、主体語抽出部32は、句分割部30から出力された複数の第2の句を文字コード順に並べる。主体語抽出部32は、複数の第2の句に亘って先頭の文字列が共通する場合にその先頭の文字列を主体語の候補として出力する。言い換えれば、複数の第2の句それぞれの先頭から、同一の文字コード値が2文字分以上連続している場合、その同一の文字コード値が示す文字列を主体語の候補とする。
Returning to FIG. 2, when the same character string exists at the beginning of a predetermined number or more of the plurality of second phrases output from the
図5は、句分割部30から出力された複数の第2の句の例を示す。図5の例では、「日本」「日本大学」「日本料理」のいずれも、予め定められた閾値(実施例では5個)以上の句の先頭部分に繰り返し出現している。したがって、主体語抽出部32は、「日本」「日本大学」「日本料理」を主体語の候補として抽出する。上記の閾値は、システム開発者の知見や、情報処理システム10を用いた実験等に基づいて適切な値に設定されればよい。例えば、主体語の網羅性を強く求める場合、閾値を小さくしてもよく、網羅性とともにある程度の正確性を求める場合、閾値を大きくしてもよい。
FIG. 5 shows an example of a plurality of second phrases output from the
なお、句分割部30または主体語抽出部32は、複数の第2の句を示す情報(ここでは「抽出句リスト」と呼ぶ。)を、記憶部22に永続的に記憶させてもよい。抽出句リストには、複数の辞書作成タイミングおよび複数の特許文献に亘って抽出された第2の句が蓄積されてもよい。主体語抽出部32は、句分割部30から出力された第2の句を抽出句リストへ追加した上で、その抽出句リストに記録された所定個数以上の第2の句の先頭部分に同一の文字列が存在すれば、その同一の文字列を主体語の候補として抽出してもよい。この態様によると、複数の辞書作成タイミングおよび複数の特許文献に亘って抽出された第2の句に基づいて、一層精度よく主体語を抽出できる。
The
また、句分割部30は、第1の句から、主体語辞書に格納済の主体語を第2の句として抽出することを抑制してもよい。また、主体語抽出部32は、句分割部30から出力された複数の第2の句のうち、主体語辞書に格納済の主体語を示す第2の句を、主体語抽出処理の対象から除外してもよい。
Further, the
図2に戻り、辞書更新部34は、主体語抽出部32により抽出された主体語を辞書記憶部26の主体語辞書へ格納する。辞書更新部34は、主体語抽出部32により抽出された1つの主体語の候補における先頭を含む一部が、他の主体語として成立することがなければ、この候補を主体語と確定して主体語辞書へ登録する。辞書更新部34は、第1の文字列と、その第1の文字列を含む第2の文字列の両方が主体語として抽出された場合、第1の文字列を主体語辞書へ格納する一方、第2の文字列を主体語辞書へ格納することを抑制する。言い換えれば、辞書更新部34は、主体語抽出部32により抽出された主体語の候補うち、複数の主体語の組み合わせにより構成された候補(以下「複合語」とも呼ぶ。)については主体語辞書へ格納することを抑制する。既述したように検索の網羅性を向上させるため、実施例の主体語辞書には相対的に短い主体語が優先して格納される。
Returning to FIG. 2, the
例えば、「日本」と「日本料理」の両方が主体語の候補として抽出された場合、辞書更新部34は、「日本」を主体語辞書へ格納する一方、「日本料理」を主体語辞書へ格納せず廃棄し、言い換えれば無視する。なお、「料理」は別途主体語辞書へ登録されることが期待できる。また、主体語辞書に「日本料理」が格納済で、新たに「日本」が主体語の候補として抽出された場合、辞書更新部34は、「日本」を主体語辞書へ格納するとともに、「日本料理」を主体語辞書から削除してもよい。この場合、後述の出現回数については「日本料理」の出現回数を「日本」の出現回数として引き継いでもよい。
For example, when both "Japan" and "Japanese food" are extracted as candidates for the subject word, the
図6は主体語辞書の例を示す。実施例の主体語辞書では、複数の主体語と、各主体語が複数の文書に亘って出現した回数とが対応付けて記録される。辞書更新部34は、主体語の候補のうち主体語辞書に未格納の候補(すなわち新たな主体語の候補)を主体語辞書へ新たに格納し、その出現回数に1を設定する。また、辞書更新部34は、主体語の候補のうち主体語辞書に格納済の候補(すなわち過去に検出済の主体語)については主体語辞書へ重複して格納することを抑制しつつ、当該主体語の出現回数をインクリメントする。変形例として、出現回数そのものを記録することに代えて、出現回数に基づく出現頻度の指標値を記録してもよい。
FIG. 6 shows an example of a subject word dictionary. In the subject word dictionary of the embodiment, a plurality of subject words and the number of times each subject word appears in a plurality of documents are recorded in association with each other. The
図2に戻り、付随語抽出部36は、複数の特許文献から読み込まれた文字列から、主体語辞書に格納された主体語を除外した残りの文字列のうち、文字数が所定の閾値以下の文字列を付随語の候補として抽出する。言い換えれば、付随語抽出部36は、複数の特許文献から読み込まれた文字列において、2つの主体語に挟まれた文字列のうち、長さが所定の閾値以下の文字列を付随語の候補として抽出する。また付随語抽出部36は、文字列における最後の主体語以降の部分文字列の長さが所定の閾値以下であれば、その部分文字列を付随語の候補として抽出する。実施例における上記閾値は「2」である。特許文献から読み込まれた文字列は、句読込部28により読み込まれた第1の句であってもよい。
Returning to FIG. 2, the accompanying
付随語抽出部36は、抽出した付随語の候補のうち、候補としての抽出回数が所定順位以上の文字列を付随語と判定する。具体的には、付随語抽出部36は、複数の付随語の候補と、各候補の抽出回数とを対応付けたテーブルを保持し、付随語の候補を抽出する都度、その候補に対応付けられた抽出回数をインクリメントする。抽出回数は、複数の文書に亘る付随語候補の出現回数または出現頻度を示す値と言える。付随語抽出部36は、抽出回数が上位5%の候補を付随語と判定する。なお、付随語を判定するタイミングは、1つまたは複数の特許文献に対する主体語抽出処理または主体語辞書更新処理の完了時点でもよい。
The incidental
このように、付随語の長さの閾値(2文字等)と付随語判定閾値(上位5%等)を設けることにより、付随語抽出の網羅性を高めることができる。これらの閾値は、システム開発者の知見や、情報処理システム10を用いた実験等に基づいて適切な値に設定されればよい。例えば、付随語の網羅性を強く求める場合、付随語判定閾値を大きく(例えば上位10%)してもよく、網羅性とともにある程度の正確性を求める場合、付随語判定閾値を小さく(例えば上位3%)してもよい。
In this way, by providing the threshold value for the length of the incidental word (two characters, etc.) and the threshold value for determining the incidental word (upper 5%, etc.), the comprehensiveness of the incidental word extraction can be enhanced. These threshold values may be set to appropriate values based on the knowledge of the system developer, experiments using the
辞書更新部34は、付随語抽出部36により付随語と判定された候補文字列を付随語辞書へ格納する。図7は付随語辞書の例を示す。実施例の付随語辞書では、複数の付随語と、各付随語が複数の文書に亘って出現した回数とが対応付けて記録される。辞書更新部34は、付随語の候補のうち付随語辞書に未格納の候補(すなわち新たな付随語の候補)を付随語辞書へ新たに格納し、その出現回数に1を設定する。その一方、辞書更新部34は、付随語の候補のうち付随語辞書に格納済の候補(すなわち過去に検出済の付随語)については付随語辞書へ重複して格納することを抑制しつつ、当該付随語の出現回数をインクリメントする。
The
辞書出力部38は、辞書更新部34により主体語辞書と付随語辞書の少なくとも一方が更新された場合に、少なくとも更新された辞書データを所定の外部装置へ出力する。実施例では、更新された最新の辞書データを自然言語処理装置16へ送信するが、変形例として、他の種類のサーバやストレージへ最新の主体語辞書と付随語辞書を出力してもよい。
The
図8は、図1の自然言語処理装置16の機能構成を示すブロック図である。自然言語処理装置16は、辞書作成装置14の制御部20、記憶部22、通信部24に対応する制御部40、記憶部42、通信部44を備える。制御部40は、通信部44を介して、特許文献DB12および辞書作成装置14とデータを交換する。
FIG. 8 is a block diagram showing a functional configuration of the natural
記憶部42は、辞書記憶部46と解析結果記憶部48を含む。辞書記憶部46は、辞書作成装置14の辞書記憶部26に対応し、辞書作成装置14により作成された主体語辞書および付随語辞書を保持する。解析結果記憶部48は、制御部40による自然言語処理の結果を示すデータを保持する。具体的には、複数の特許文献のそれぞれから抽出された単語のリストを含む特許文献ごとの抽出単語データを保持する。
The
制御部40は、文書読込部50、スコア設定部52、単語抽出部54、解析結果提供部56を含む。文書読込部50は、自然言語処理の対象となる文書(実施例では特許文献DB12に格納された特許文献)から、当該文書に記載された文字列を読み込む。例えば、句点・ピリオド等をデリミタとして文単位で文字列を読み込んでもよく、句読込部28と同様に句単位で文字列を読み込んでもよい。
The
スコア設定部52は、文書読込部50により読み込まれた文字列中の各文字から始まる主体語を辞書記憶部46の主体語辞書を参照して特定する。スコア設定部52は、主体語辞書、付随語辞書、および予め定められたスコア付与基準にしたがって、各文字から始まる各主体語に対して、各主体語の属性に応じたスコアを付与する。実施例のスコア付与基準は、人間から見て自然な単語の抽出であることを目的としており、以下に示す3つの基準の組み合わせである。変形例として、いずれか1つの基準または2つの基準を用いてもよい。
The
(基準1)文字列中の各文字から始まる主体語のうち、内包する付随語の個数が相対的に少ない主体語のスコアを、内包する付随語の個数が相対的に多い主体語のスコアより大きくする。内包する付随語の個数が少ない主体語ほど、スコアを大きくするよう調整してもよい。多くの付随語を内包する主体語は、本来複合語である可能性が高く、単語として抽出することが好ましくないと考えられるからである。 (Criteria 1) Of the subject words starting with each character in the character string, the score of the subject word with a relatively small number of concomitant words is higher than the score of the subject word with a relatively large number of concomitant words. Enlarge. The score may be adjusted to increase as the number of accompanying words included is smaller. This is because the subject word containing many incidental words is likely to be a compound word by nature, and it is considered that it is not preferable to extract it as a word.
(基準2)文字列中の各文字から始まる主体語のうち、文字数が相対的に多い主体語のスコアを、文字数が相対的に少ない主体語のスコアより大きくする。文字数が多い主体語ほど大きなスコアになるよう調整してもよい。文字数が多い主体語は、文書内で特徴的な単語と考えられ、抽出対象として適切と考えられるからである。 (Criteria 2) Among the subject words starting with each character in the character string, the score of the subject word having a relatively large number of characters is made higher than the score of the subject word having a relatively small number of characters. The subject word with a large number of characters may be adjusted so that the score becomes larger. This is because a subject word having a large number of characters is considered to be a characteristic word in a document and is considered to be an appropriate extraction target.
(基準3)文字列中の各文字から始まる主体語のうち、主体語辞書で対応付けられた出現回数が相対的に多い主体語のスコアを、出現回数が相対的に少ない主体語のスコアより大きくする。出現回数が多い主体語ほど大きなスコアになるよう調整してもよい。出現回数が多い主体語は、多くの文献で使用されたものであり、抽出対象として適切と考えられるからである。 (Criteria 3) Of the subject words starting with each character in the character string, the score of the subject word associated with the subject word dictionary with a relatively large number of occurrences is higher than the score of the subject word with a relatively small number of occurrences. Enlarge. The score may be adjusted so that the subject word that appears more frequently has a higher score. This is because the subject words that appear frequently are those used in many documents and are considered to be appropriate as extraction targets.
実施例のスコア設定部52は、文書読込部50により読み込まれた文字列中の文字ごとに1つの候補エントリを作成する。図9は候補エントリの例を示す。同図の位置「e0」は、読み込まれた文字列中の処理対象位置(言い換えれば現在処理位置)を示す。同図の「e0+n」(nは正の整数)は、処理対象位置からの距離(例えば文字数)を示している。スコア設定部52は、各文字から始まる主体語(ここでは「単語候補」と呼ぶ。)を特定し、各単語候補の文字数を候補エントリへ設定する。またスコア設定部52は、単語候補ごとに算出したスコアを候補エントリへ設定する。
The
スコアの算出方法を説明する。スコア設定部52は、上記の基準1にしたがって、各単語候補の中に含まれる付随語の個数が多いほど単語候補のスコア要素(P)を小さくする。さらにスコア設定部52は、単語候補の1文字目が付随語に該当する場合、スコア要素(P)をさらに小さくする。スコア要素(P)の算出式を以下に示す。
式1の「W」は単語候補の文字列である。式1および式2の「L」は全付随語の集合である。式1の「C」は、文字a、bの付随語としての出現回数を付随語辞書から取得する関数である。したがって、「C(a)」、「C(b)」はそれぞれ、文字a、bの付随語としての出現回数である。式2の「P0」は、単語候補の1文字目(W0)が付随語(L)である場合の特別ペナルティ値であり、0<P0<1の範囲で設定される。式1のβは定数である。式1内の分数は、単語候補内の付随語ごとに評価され、内包する付随語の個数が多いほどPは小さくなり、1文字目が付随語であればPはさらに小さくなる。また、単語候補内の付随語に対応付けられた出現回数(C(a))が大きいほど、言い換えれば、使用頻度が高い付随語が内包されているほどPは小さくなる。スコア要素(P)は、付随語を内包したことに基づくペナルティを反映した値になる。
“W” in
次に、スコア設定部52は、式1で求めた単語候補のP(W)、単語候補の文字数(r)、単語候補の出現回数(t)に基づいて単語候補のスコア(Q)を決定する。スコア(Q)の算出式を以下に示す。
式3の関数fは、3つのパラメータ、すなわち単語候補のP(W)、単語候補の文字数(r)、単語候補の出現回数(t)と、単語候補のスコア(Q)とが正相関するように単語候補のスコア(Q)を決定する関数である。スコア設定部52は、式3にしたがって、単語候補のP(W)が大きいほど、かつ、単語候補の文字数(r)が多いほど、かつ、単語候補の出現回数(t)が多いほど、単語候補のスコア(Q)を大きく算出する。例えば、式3の関数fは、単語候補のP(W)、単語候補の文字数(r)、単語候補の出現回数(t)を乗じる関数であってもよい。すなわち「Q = P(W)×r×t」であってもよい。
In the function f of
単語抽出部54は、スコア設定部52により設定された各単語候補のスコアを参照して、文字列中の処理対象位置から始まる第1の単語候補に付与されたスコアと、第1の単語候補の中の2文字目以降から始まる第2の単語候補に付与されたスコアとの大小関係に応じて、第1の単語候補を単語として抽出する。実施例の単語抽出部54は、大小関係の比較対象として、第1の単語候補の直後の文字から始まる第3の単語候補に付与されたスコアも使用する。
The
具体的には、単語抽出部54は、文字列中の処理対象位置から始まる単語候補(ここでは「現在候補」と呼ぶ。)に付与されたスコアを「現在候補スコア」として識別する。また、単語抽出部54は、文字列中において現在候補の直後の文字から始まる単語候補(ここでは「次回候補」と呼ぶ。)に付与されたスコアを「次回候補スコア」として識別する。さらに、現在候補内の2文字目以降から始まる単語候補(ここでは「中間候補」と呼ぶ。)に付与されたスコアを「中間候補スコア」(ν)として識別する。
Specifically, the
現在候補スコアと次回候補スコアは、スコア設定部52により算出されているため、単語抽出部54は、中間候補スコアνを新たに算出する。中間候補スコアνの算出式を以下に示す。
式4のe0は処理対象位置の候補エントリ(すなわち現在候補)であり、|e0|は現在候補の文字数である。Tは現在候補以降の全候補エントリである。Sは、(処理対象位置+1)から、(処理対象位置+|e0|−1)までを単語の開始位置(i)として、Tを複数の単語に分解し、各単語のスコアを合算する。式4の関数Sは、処理対象位置(すなわちe0)の単語を抽出しない場合の中間候補スコアを提供する関数と言える。
E0 in the
単語抽出部54は、現在候補スコアが0の場合、処理対象位置の文字が主体語を構成しないと認識し、処理対象位置の1文字を捨てて、処理対象位置を1つ進める。なお、現在候補スコアが0の場合、処理対象位置の文字を単語(例えば付随語)と認識して、処理対象位置の1文字を単語として抽出してもよい。
When the current candidate score is 0, the
単語抽出部54は、現在候補スコアが0より大きい場合、式4にしたがってνを算出する。ν≦現在候補スコアまたはν≦次回候補スコアが成立する場合、単語抽出部54は、処理対象位置から始まる単語(すなわち現在候補)を抽出し、現在候補の文字数分、処理対象位置を進める。一方、ν>現在候補スコアかつν>次回候補スコアが成立する場合、単語抽出部54は、処理対象位置の1文字を捨てて、処理対象位置を1つ進める。現在候補の途中の文字から始まる単語を抽出した方がスコアが大きいからである。
If the current candidate score is greater than 0, the
図10は、単語抽出処理対象の文字列の例を示す。同図は、図9に対応し、処理対象位置をe0で示している。単語抽出部54は、図9のe0の候補エントリのスコア「15」を現在候補スコアとして識別し、図9のe0+5(e0の単語候補の文字数が5であるため)の候補エントリのスコア「11」を次回候補スコアとして識別する。そして、図10では、図9のe0+1の候補エントリのスコア「8」と、図9のe0+3の候補エントリのスコア「10」との合算値「18」を中間候補スコア(ν)として識別する。図10の例では、ν>現在候補スコアかつν>次回候補スコアが成立するため、単語抽出部54は、処理対象位置の文字「新」を捨てて、処理対象位置を1つ進める。
FIG. 10 shows an example of a character string to be processed for word extraction. The figure corresponds to FIG. 9, and the processing target position is indicated by e0. The
実際には、単語抽出部54は、現在候補の3文字目から始まる中間候補と、その中間候補の直後から始まる単語のスコアの合算値、および、現在候補の4文字目から始まる中間候補と、その中間候補の直後から始まる単語のスコアの合算値も算出する。そして式4で示すように、複数種類の合算値の中で最大の値をνの値として採用する。
Actually, the
単語抽出部54は、或る特許文献から読み込まれた文字列から抽出した複数の単語をその特許文献に対応付けて、解析結果記憶部48の抽出単語データの中へ記録する。解析結果提供部56は、解析結果記憶部48に記憶された抽出単語データであり、すなわち、各特許文献の文字列を単語に分解したデータを、定期的または要求に応じて、予め定められた外部装置(例えば特許文献の検索装置)へ送信する。
The
以上の構成による情報処理システム10の動作を説明する。
図11は、辞書作成装置14の動作を示すフローチャートである。辞書作成装置14は、ユーザからの指示を受け付けた場合、および/または、予め定められたタイミングで定期的に、図11に示す辞書作成処理を実行する。辞書作成処理の開始時点では、辞書記憶部26の主体語辞書と付随語辞書はいずれも空である。すなわち、辞書作成処理の初期状態において、主体語と付随語を予め定めた辞書は不要である。
The operation of the
FIG. 11 is a flowchart showing the operation of the
辞書作成装置14の句読込部28は、特許文献DB12から複数の特許文献を取得し、それぞれの特許文献から第1の句を読み込む(S10)。句分割部30は、第1の句が示す文字列を、辞書記憶部26の主体語辞書に格納済の主体語を示す文字列と、その主体語を除外した文字列とに分割することにより複数の第2の句を抽出する(S12)。なお、主体語辞書が空の場合等、第1の句において主体語が未検出であれば、句分割部30は、第1の句をそのまま第2の句として出力する。
The
所定個数以上の第2の句において先頭から始まる文字列(すなわち第2の句の少なくとも一部の文字列)が共通する場合(S14のY)、主体語抽出部32は、その先頭文字列を主体語の候補として抽出する(S16)。辞書更新部34は、主体語抽出部32により抽出された主体語の候補のうち、複合語を除外した候補であり、かつ、主体語辞書に未格納の新たな主体語を示す候補を主体語辞書へ格納する(S18)。その際に辞書更新部34は、各主体語に対応付けられた出現回数も更新する。所定個数以上の第2の句において先頭から始まる共通文字列が存在しない場合(S14のN)、S16とS18の処理をスキップする。
When the character strings starting from the beginning (that is, at least a part of the character strings of the second phrase) are common in the predetermined number or more of the second phrases (Y in S14), the subject word extraction unit 32 uses the first character strings. It is extracted as a candidate for the subject word (S16). The
付随語抽出部36は、主体語辞書を参照して、第1の句において2つの主体語間に2文字以下の文字列(すなわち主体語を構成しない文字列)が存在する場合(S20のY)、その文字列を付随語の候補として抽出し、各候補の抽出回数を加算する(S22)。付随語抽出部36は、複数の付随語の候補のうち抽出回数が相対的に上位の候補を付随語と判定する。辞書更新部34は、付随語抽出部36により付随語と判定された候補文字列を付随語辞書へ格納する(S24)。第1の句において2つの主体語間に2文字以下の文字列が存在しなければ(S20のN)、S22とS24の処理をスキップする。
The incidental
文字列読み込みが未完了の特許文献が残存すれば(S26のN)、S10に戻り、全ての特許文献からの文字列読み込みが完了すれば(S26のY)、辞書出力部38は、辞書記憶部26に記憶された主体語辞書と付随語辞書を自然言語処理装置16へ送信する(S28)。なお、付随語抽出処理は、複数の特許文献それぞれの主体語抽出処理が終了する都度実行してもよく、全ての特許文献の主体語抽出処理が終了した後に実行してもよい。また、辞書出力部38は、主体語辞書と付随語辞書を所定のサーバへアップロードしてもよく、自然言語処理装置16は、主体語辞書と付随語辞書をそのサーバからダウンロードしてもよい。
If the patent document in which the character string reading is not completed remains (N in S26), the process returns to S10, and if the character string reading from all the patent documents is completed (Y in S26), the
図12は、自然言語処理装置16の動作を示すフローチャートである。自然言語処理装置16は、ユーザからの指示を受け付けた場合、および/または、予め定められたタイミングで定期的に、図12に示す自然言語処理を実行する。実施例での自然言語処理は、特許文献に記載された文字列から単語(特に主体語)を抽出する処理である。
FIG. 12 is a flowchart showing the operation of the natural
不図示の外部装置(ここでは特許検索装置とする。)における検索インデックスデータの更新タイミングに達したことを検出すると(S30のY)、自然言語処理装置16の文書読込部50は、特許文献DB12から複数の特許文献を取得し、それぞれの特許文献の文字列を読み込む(S32)。スコア設定部52は、読み込まれた文字列中の各文字から始まる主体語を特定する。スコア設定部52は、所定のスコア付与基準にしたがって、各文字から始まる主体語それぞれのスコアを導出し、複数の文字に対応する複数の候補エントリを作成する(S34)。
When it is detected that the update timing of the search index data in the external device (referred to as the patent search device here) (not shown) has been reached (Y in S30), the
単語抽出部54は、各候補エントリのスコアを大小比較し、その結果に基づいて特許文献の文字列から単語を抽出して、解析結果記憶部48の抽出単語データを更新する(S36)。単語抽出処理が未完了の特許文献が残存すれば(S38のN)、S32に戻る。全ての特許文献からの単語抽出処理が終了すれば(S38のY)、解析結果提供部56は、解析結果記憶部48の抽出単語データを特許検索装置へ送信する(S40)。特許検索装置は、例えば、自然言語処理装置16から提供された抽出単語データを使用して、特許文献検索用のインデックスデータを更新する。特許検索装置における検索インデックスデータの更新タイミングでなければ(S30のN)、以降の処理をスキップして、本図のフローを終了する。
The
実施例の情報処理システム10によると、主体語および付随語を予め定めたデータがなくても、主体語および付随語を自動的に抽出し、主体語辞書および付随語辞書を自動作成することができる。また、複数の句に亘り共通する先頭文字列を主体語として自動抽出するとともに、主体語間の短い文字列を付随語として自動抽出することにより、網羅性の高い主体語辞書および付随語辞書を作成できる。例えば、誤った綴りの文字列は通常辞書から除外されるが、実施例の情報処理システム10では、実際に文献に記載されていれば主体語または付随語として抽出でき、網羅性の高い形態素辞書を提供できる。また、新たな文献が追加された場合(例えば新たに特許公開公報が発行された場合)に、迅速かつ効率的に主体語辞書および付随語辞書を更新することができる。
According to the
また、実施例の情報処理システム10によると、文献の文字列から単語を抽出する処理において、文字列の各文字から始まる各主体語にスコアを付与する。そして、処理対象位置から始まる第1の主体語のスコアと、第1の主体語の中の2文字目以降から始まる第2の主体語のスコアとの大小関係に応じて、第1の主体語を抽出するか否かを決定する。これにより、適切な位置からの単語の切り出しを実現しやすくなる。さらに実施例では、第1の主体語の直後の文字から始まる第3の主体語のスコアも比較対象に含めることで、より一層適切な位置で単語を抽出することができる。
Further, according to the
以上、本発明を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。 The present invention has been described above based on examples. This embodiment is an example, and it is understood by those skilled in the art that various modifications are possible for each of these components and combinations of each processing process, and that such modifications are also within the scope of the present invention. ..
第1変形例を説明する。第1変形例では、複数の主体語の組み合わせにより構成された複合語を辞書へ登録することを許可する。具体的には、辞書作成装置14の辞書更新部34は、第1の文字列(例えば「日本」)と、その第1の文字列を含む第2の文字列(例えば「日本料理」)が主体語の候補として抽出された場合、第1の文字列と第2の文字列の両方を主体語辞書へ格納してもよい。この結果、主体語辞書には複合語も収録される。
The first modification will be described. In the first modification, it is permitted to register a compound word composed of a combination of a plurality of subject words in a dictionary. Specifically, the
自然言語処理装置16が処理対象とする文字列では、「日本」と「日本料理」のように、特定の処理対象位置から始まる主体語(すなわち現在候補e0)が複数存在しうる。自然言語処理装置16のスコア設定部52は、文字列中の各文字から始まる1つ以上の主体語(例えば「日本」、「日本料理」)のそれぞれに対してスコアを算出する。
In the character string to be processed by the natural
自然言語処理装置16の単語抽出部54が用いる中間候補スコアνの算出式を以下に示す。
式5のD0は、Tの先頭に存在する1つ以上の現在候補e0の集合である。単語抽出部54は、1つ以上の現在候補のそれぞれについて実施例の式4と同じ計算を実行して関数Sの最大値を求め、さらに1つ以上の現在候補に跨っての関数Sの最大値を中間候補スコアνとする。例えば、2つの現在候補(現在候補1、現在候補2)があり、2つの次回候補(次回候補1、次回候補2)があるとする。単語抽出部54は、ν>現在候補1スコア、ν>次回候補1スコア、ν>現在候補2スコア、ν>次回候補2スコアが成立する場合、処理対象位置の1文字を捨てて、処理対象位置を1つ進めてもよい。また、上記の条件が成立せず、現在候補1スコア≧現在候補2スコアであれば、現在候補1を単語として抽出し、現在候補1スコア<現在候補2スコアであれば、現在候補2を単語として抽出してもよい。
D0 in
第1変形例によると、複合語としての単語の抽出に対応することができる。なお、第1変形例においても、複合語でない主体語が主体語辞書に登録されることは実施例と同様であり、辞書の網羅性は低下しない。 According to the first modification, it is possible to correspond to the extraction of a word as a compound word. In the first modification, the subject word that is not a compound word is registered in the subject word dictionary as in the embodiment, and the completeness of the dictionary is not deteriorated.
第2変形例を説明する。辞書作成装置14の句読込部28は、特許文献から読み込んだ文字列の文字コード値が該当する文字コード区分(例えば、ラテン文字、CJK文字、アラビア文字、ロシア文字等)を対象言語として識別してもよい。例えば、特許文献の文字コードがUNICODEの場合、句読込部28は、UNICODEのコード表を参照して、特許文献から読み込んだ文字列の文字コード区分を識別してもよい。第2変形例の一態様として、句読込部28は、対象言語の連続文字列を句として読み込む一方、対象言語に該当しない文字(文字コード値)を無視してもよく、空白等の意味を持たない文字に置き換えて読み込んでもよい。
A second modification will be described. The
第2変形例の別の態様として、辞書作成装置14の句読込部28は、複数の文字コード区分を許容してもよい。例えば、句読込部28は、複数の文字コード区分に亘る文字列を第1の句として読み込んでもよい。この場合、句読込部28は、特許文献の文字列の途中で文字コード区分が第1の区分から第2の区分に変わる場合に、第1の区分に属する文字列と第2の区分に属する文字列を異なる第1の句として抽出してもよい。または、句分割部30は、句読込部28により抽出された第1の句を既知の主体語に基づいて分割しつつ、さらに、第1の句の途中で文字コード区分が第1の区分から第2の区分に変わる場合に、第1の区分に属する文字列と第2の区分に属する文字列を異なる第2の句として抽出してもよい。
As another aspect of the second modification, the
第3変形例を説明する。上記実施例では言及していないが、特許文献への検索履歴を辞書へフィードバックしてもよい。具体的には、辞書作成装置14の主体語辞書では、各主体語に、検索に使用された頻度を示す指標値(以下「検索頻度値」と呼ぶ。)が対応付けて記録される。辞書作成装置14は、特許検索に使用されたキーワードまたはキーフレーズを示すデータ(以下「検索履歴」と呼ぶ。)を特許検索装置(不図示)から定期的に取得して、記憶部22の検索履歴記憶部へ格納する検索履歴取得部をさらに備える。辞書作成装置14の辞書更新部34は、検索履歴記憶部に記憶された検索履歴と、主体語辞書とを参照して検索履歴に含まれる主体語を特定し、検索履歴における各主体語の検索回数を特定する。辞書更新部34は、各主体語の検索回数に基づいて各主体語の検索頻度値(検索回数そのものでもよい)を導出し、主体語辞書へ格納する。
A third modification will be described. Although not mentioned in the above embodiment, the search history of the patent document may be fed back to the dictionary. Specifically, in the subject word dictionary of the
主体語辞書には、特許文献DB12の特許文献における各主体語の出現回数とともに検索頻度値が格納されもよく、出現回数に代えて検索頻度値が格納されてもよい。自然言語処理装置16のスコア設定部52は、読み込まれた文字列内の各文字から始まる単語のスコアを決定する際に、実施例の出現回数に代えて検索頻度値を使用してもよく、実施例の出現回数とともに検索頻度値を使用してもよい。例えば、スコア設定部52は、検索頻度値が相対的に大きい単語のスコアが、検索頻度値が相対的に小さい単語のスコアより大きくなるように調整してもよい。
In the subject word dictionary, the search frequency value may be stored together with the number of occurrences of each subject word in the patent document of the
第4変形例を説明する。上記実施例では言及していないが、特許文献の単語化における各単語の使用頻度を辞書へフィードバックしてもよい。具体的には、辞書作成装置14は、特許文献の単語化における各単語の使用回数または使用頻度を示す単語化履歴を自然言語処理装置16から取得して、記憶部22の単語化履歴記憶部へ格納する単語化履歴取得部をさらに備える。辞書作成装置14の辞書更新部34は、単語化履歴記憶部に記憶された単語化履歴を参照して、単語化履歴における各主体語の使用回数または使用頻度を特定する。辞書更新部34は、各主体語の使用回数または使用頻度を主体語辞書へ格納する。自然言語処理装置16のスコア設定部52は、読み込まれた文字列内の各文字から始まる単語のスコアを決定する際に、実施例に記載の辞書作成時の出現回数に代えて、単語化における使用回数または使用頻度を使用してもよい。例えば、スコア設定部52は、使用頻度値が相対的に高い単語のスコアが、使用頻度が相対的に低い単語のスコアより大きくなるように調整してもよい。
A fourth modification will be described. Although not mentioned in the above embodiment, the frequency of use of each word in the wording of the patent document may be fed back to the dictionary. Specifically, the
第5変形例を説明する。上記実施例では、辞書作成の初期状態において、主体語辞書と付随語辞書が空であるとし、すなわち、主体語と付随語が予め登録されていない構成とした。変形例として、辞書作成の初期状態において、辞書作成装置14の辞書記憶部26に既存辞書(例えば予め人手で作成された主体語辞書および付随語辞書)を格納してもよい。人手で作成された辞書は、収録単語の正確性・精度は高いが網羅性が低い。辞書作成装置14の辞書更新部34は、主体語抽出部32により自動抽出された主体語を既存の主体語辞書へ追加し、付随語抽出部36により自動抽出された付随語を既存の付随語辞書へ追加する。これにより、正確性と網羅性の両方に優れる辞書を作成でき、自然言語処理装置16における自然言語処理の正確性と網羅性を一層向上させることができる。
A fifth modification will be described. In the above embodiment, it is assumed that the subject word dictionary and the incidental word dictionary are empty in the initial state of dictionary creation, that is, the subject word and the incidental word are not registered in advance. As a modification, an existing dictionary (for example, a subject word dictionary and an incidental word dictionary manually created in advance) may be stored in the
第6変形例を説明する。上記実施例では形態素解析を支援する技術を提案したが、ここでは他の利用例を挙げる。実施例に記載の技術は(1)タグクラウドに適用できる。例えば、多数の文献に基づいて辞書作成装置14が作成した辞書であり、単語(主体語および/または付随語)と出現回数を対応付けた辞書を参照して、複数の単語を、文献での出現回数に応じた態様(形状、模様、色彩等)で表現した画像を生成することができる。
A sixth modification will be described. In the above embodiment, a technique for supporting morphological analysis was proposed, but here, other usage examples are given. The techniques described in the examples can be applied to (1) tag cloud. For example, it is a dictionary created by the
また、実施例に記載の技術は、(2)単語の変動に関するレポート作成に適用できる。例えば、特定分野の多数の文献に基づいて辞書作成装置14が作成した辞書であり、単語(主体語および/または付随語)と出現回数を対応付けた辞書を参照して、一定期間において、単語の出現回数の変動等をグラフ化することにより、上記特定分野のトレンドや変化を示す情報を生成できる。また、実施例に記載の技術は、(3)各国語辞書の作成に適用できる。例えば、辞書作成装置14は、各国語で書かれた文献に基づいて、各国語の主体語辞書および付随語辞書を自動生成することができる。
In addition, the techniques described in the examples can be applied to (2) creating a report on word variation. For example, a dictionary created by the
第7変形例を説明する。上記実施例では、特許文献に基づいて主体語辞書および付随語辞書を作成したが、様々な種類、様々な分野の文献、文書データに基づいて主体語辞書および付随語辞書を作成可能であることはもちろんである。なお、自然言語処理装置16が、特定分野の文献に対する自然言語処理を実行する場合、辞書作成装置14は、その特定分野の文献から主体語および付随語を抽出することにより、その特定分野の文献に対する自然言語処理に好適な主体語辞書および付随語辞書を作成してもよい。
A seventh modification will be described. In the above embodiment, the subject word dictionary and the incidental word dictionary are created based on the patent documents, but the subject word dictionary and the incidental word dictionary can be created based on the documents and document data of various types and various fields. Of course. When the natural
上述した実施の形態および変形例の任意の組み合わせもまた本発明の実施の形態として有用である。組み合わせによって生じる新たな実施の形態は、組み合わされる実施の形態および変形例それぞれの効果をあわせもつ。また、請求項に記載の各構成要件が果たすべき機能は、実施の形態および変形例において示された各構成要素の単体もしくはそれらの連携によって実現されることも当業者には理解されるところである。 Any combination of the embodiments and modifications described above is also useful as an embodiment of the present invention. The new embodiments resulting from the combination have the effects of the combined embodiments and variants. It is also understood by those skilled in the art that the functions to be fulfilled by each of the constituent elements described in the claims are realized by a single component or a combination thereof shown in the embodiments and modifications. ..
10 情報処理システム、14 辞書作成装置、16 自然言語処理装置、 26 辞書記憶部、 32 主体語抽出部、 34 辞書更新部、 36 付随語抽出部、 46 辞書記憶部、 52 スコア設定部、 54 単語抽出部。 10 Information processing system, 14 Dictionary creation device, 16 Natural language processing device, 26 Dictionary storage unit, 32 Subject word extraction unit, 34 Dictionary update unit, 36 Accompanying word extraction unit, 46 Dictionary storage unit, 52 Score setting unit, 54 words Extraction unit.
Claims (10)
第1文書の文字列から、少なくとも前記辞書に格納済の主体語を除外した残りの文字列を句として、複数の句を抽出する句抽出部と、
前記句抽出部により抽出された複数の句のうち所定個数以上の句の先頭部分に同一の文字列が存在する場合、その同一の文字列を主体語として抽出する主体語抽出部と、
前記主体語抽出部により抽出された主体語を前記辞書へ格納する辞書更新部と、
を備えることを特徴とする情報処理システム。 A dictionary storage unit that stores a dictionary that stores the main word, which is a dictionary used in natural language processing by a computer and whose meaning is established by itself.
A phrase extraction unit that extracts a plurality of phrases from the character string of the first document, using at least the remaining character string excluding the main word stored in the dictionary as a phrase.
When the same character string exists at the beginning of a predetermined number or more of the plurality of phrases extracted by the phrase extraction unit, the subject word extraction unit that extracts the same character string as the subject word and
A dictionary update unit that stores the subject words extracted by the subject word extraction unit in the dictionary, and
An information processing system characterized by being equipped with.
前記辞書記憶部は、前記主体語が格納される辞書である主体語辞書と、前記主体語に付随して使用される単語である付随語が格納される辞書である付随語辞書を記憶し、
前記付随語抽出部は、前記第1文書の文字列から前記主体語辞書に格納された主体語を除外した残りの文字列のうち、文字数が所定値以下の文字列を付随語として抽出し、
前記辞書更新部は、前記付随語抽出部により抽出された付随語を前記辞書へ格納することを特徴とする請求項1または2に記載の情報処理システム。 With an additional word extraction section,
The dictionary storage unit stores a subject word dictionary, which is a dictionary in which the subject word is stored, and an incidental word dictionary, which is a dictionary in which incidental words, which are words used in association with the subject word, are stored.
The incidental word extraction unit extracts, as an incidental word, a character string having a predetermined number of characters or less from the remaining character strings excluding the subject word stored in the subject word dictionary from the character string of the first document.
The information processing system according to claim 1 or 2, wherein the dictionary update unit stores the incidental words extracted by the incidental word extraction unit in the dictionary.
前記辞書記憶部は、前記主体語が格納される辞書である主体語辞書と、前記主体語に付随して使用される単語である付随語が格納される辞書である付随語辞書を記憶し、
前記スコア設定部は、自然言語処理の対象となる第2文書から読み込まれた文字列中の各文字から始まる主体語を前記主体語辞書を参照して特定し、各文字から始まる主体語のうち、内包する付随語の個数が相対的に少ない主体語に、内包する付随語の個数が相対的に多い主体語よりも大きなスコアを付与し、
前記単語抽出部は、前記第2文書から読み込まれた文字列中の処理対象位置から始まる第1の主体語に付与されたスコアと、前記第1の主体語の中の2文字目以降から始まる第2の主体語に付与されたスコアとの大小関係に応じて、前記第1の主体語を単語として抽出することを特徴とする請求項1に記載の情報処理システム。 It also has a score setting section and a word extraction section.
The dictionary storage unit stores a subject word dictionary, which is a dictionary in which the subject word is stored, and an incidental word dictionary, which is a dictionary in which incidental words, which are words used in association with the subject word, are stored.
The score setting unit identifies a subject word starting with each character in the character string read from the second document to be processed in natural language by referring to the subject word dictionary, and among the subject words starting with each character. , A subject word with a relatively small number of concomitant words is given a larger score than a subject word with a relatively large number of concomitant words.
The word extraction unit starts from the score given to the first subject word starting from the processing target position in the character string read from the second document, and the second and subsequent characters in the first subject word. The information processing system according to claim 1, wherein the first subject word is extracted as a word according to a magnitude relationship with a score given to the second subject word.
前記スコア設定部は、自然言語処理の対象となる第2文書から読み込まれた文字列中の各文字から始まる主体語を前記辞書を参照して特定し、各文字から始まる主体語のうち、文字数が相対的に多い主体語に、文字数が相対的に少ない主体語よりも大きなスコアを付与し、
前記単語抽出部は、前記第2文書から読み込まれた文字列中の処理対象位置から始まる第1の主体語に付与されたスコアと、前記第1の主体語の中の2文字目以降から始まる第2の主体語に付与されたスコアとの大小関係に応じて、前記第1の主体語を単語として抽出することを特徴とする請求項1に記載の情報処理システム。 It also has a score setting section and a word extraction section.
The score setting unit identifies the subject word starting with each character in the character string read from the second document to be processed in natural language by referring to the dictionary, and the number of characters among the subject words starting with each character. Gives a higher score to a subject word with a relatively large number of characters than a subject word with a relatively small number of characters.
The word extraction unit starts from the score given to the first subject word starting from the processing target position in the character string read from the second document, and the second and subsequent characters in the first subject word. The information processing system according to claim 1, wherein the first subject word is extracted as a word according to a magnitude relationship with a score given to the second subject word.
前記辞書更新部は、前記第1文書における各主体語の出現回数を前記辞書に記録し、
前記スコア設定部は、自然言語処理の対象となる第2文書から読み込まれた文字列中の各文字から始まる主体語を前記辞書を参照して特定し、各文字から始まる主体語のうち、前記出現回数が相対的に多い主体語に、前記出現回数が相対的に少ない主体語よりも大きなスコアを付与し、
前記単語抽出部は、前記第2文書から読み込まれた文字列中の処理対象位置から始まる第1の主体語に付与されたスコアと、前記第1の主体語の中の2文字目以降から始まる第2の主体語に付与されたスコアとの大小関係に応じて、前記第1の主体語を単語として抽出することを特徴とする請求項1に記載の情報処理システム。 It also has a score setting section and a word extraction section.
The dictionary update unit records the number of occurrences of each subject word in the first document in the dictionary.
The score setting unit identifies a subject word starting with each character in a character string read from a second document to be processed in natural language by referring to the dictionary, and among the subject words starting with each character, the above-mentioned A subject word with a relatively large number of occurrences is given a higher score than the subject word with a relatively small number of appearances.
The word extraction unit starts from the score given to the first subject word starting from the processing target position in the character string read from the second document, and the second and subsequent characters in the first subject word. The information processing system according to claim 1, wherein the first subject word is extracted as a word according to a magnitude relationship with a score given to the second subject word.
第1文書の文字列から、少なくとも前記辞書に格納済の主体語を除外した残りの文字列を句として、複数の句を抽出する句抽出ステップと、
前記句抽出ステップで抽出された複数の句のうち所定個数以上の句の先頭部分に同一の文字列が存在する場合、その同一の文字列を主体語として抽出する主体語抽出ステップと、
前記主体語抽出ステップで抽出された主体語を前記辞書へ格納するステップと、
を実行することを特徴とする情報処理方法。 An information processing device that stores a dictionary that stores a subject word, which is a dictionary used in natural language processing by a computer and whose meaning is established by itself.
A phrase extraction step of extracting a plurality of phrases from the character string of the first document, using at least the remaining character string excluding the subject word stored in the dictionary as a phrase.
When the same character string exists at the beginning of a predetermined number or more of the plurality of phrases extracted in the phrase extraction step, the subject word extraction step for extracting the same character string as the subject word and
A step of storing the subject word extracted in the subject word extraction step in the dictionary, and
An information processing method characterized by executing.
第1文書の文字列から、少なくとも前記辞書に格納済の主体語を除外した残りの文字列を句として、複数の句を抽出する句抽出機能と、
前記句抽出機能により抽出された複数の句のうち所定個数以上の句の先頭部分に同一の文字列が存在する場合、その同一の文字列を主体語として抽出する主体語抽出機能と、
前記主体語抽出機能により抽出された主体語を前記辞書へ格納する機能と、
を実現させるためのコンピュータプログラム。 An information processing device that stores a dictionary that stores a subject word that is a word whose meaning is established by itself, which is a dictionary used in natural language processing by a computer.
A phrase extraction function that extracts a plurality of phrases from the character string of the first document by using at least the remaining character string excluding the main word stored in the dictionary as a phrase.
When the same character string exists at the beginning of a predetermined number or more of the plurality of phrases extracted by the phrase extraction function, the subject word extraction function for extracting the same character string as the subject word and
A function to store the subject words extracted by the subject word extraction function in the dictionary, and
A computer program to realize.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017008054A JP6782644B2 (en) | 2017-01-20 | 2017-01-20 | Information processing systems, information processing methods, and computer programs |
CN201780084260.3A CN110235127B (en) | 2017-01-20 | 2017-08-07 | Information processing system, information processing method, and computer program |
PCT/JP2017/028632 WO2018135023A1 (en) | 2017-01-20 | 2017-08-07 | Information processing system, information processing method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017008054A JP6782644B2 (en) | 2017-01-20 | 2017-01-20 | Information processing systems, information processing methods, and computer programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018116591A JP2018116591A (en) | 2018-07-26 |
JP6782644B2 true JP6782644B2 (en) | 2020-11-11 |
Family
ID=62907865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017008054A Active JP6782644B2 (en) | 2017-01-20 | 2017-01-20 | Information processing systems, information processing methods, and computer programs |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6782644B2 (en) |
CN (1) | CN110235127B (en) |
WO (1) | WO2018135023A1 (en) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05225174A (en) * | 1992-02-07 | 1993-09-03 | Nippon Telegr & Teleph Corp <Ntt> | Kanji reading adding device |
JP2002297589A (en) * | 2001-03-30 | 2002-10-11 | Ricoh Co Ltd | Collecting method for unknown word |
JP2010140107A (en) * | 2008-12-09 | 2010-06-24 | Nippon Telegr & Teleph Corp <Ntt> | Method, apparatus, program, and computer readable recording medium for registering unknown word |
JP6554791B2 (en) * | 2014-03-14 | 2019-08-07 | オムロン株式会社 | Information processing system and information processing method for character input prediction |
JP6277921B2 (en) * | 2014-09-25 | 2018-02-14 | 京セラドキュメントソリューションズ株式会社 | Glossary management device and glossary management program |
CN105095665B (en) * | 2015-08-13 | 2018-07-06 | 易保互联医疗信息科技(北京)有限公司 | A kind of natural language processing method and system of Chinese medical diagnosis on disease information |
-
2017
- 2017-01-20 JP JP2017008054A patent/JP6782644B2/en active Active
- 2017-08-07 CN CN201780084260.3A patent/CN110235127B/en active Active
- 2017-08-07 WO PCT/JP2017/028632 patent/WO2018135023A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN110235127B (en) | 2023-05-26 |
JP2018116591A (en) | 2018-07-26 |
CN110235127A (en) | 2019-09-13 |
WO2018135023A1 (en) | 2018-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102268875B1 (en) | System and method for inputting text into electronic devices | |
US8612206B2 (en) | Transliterating semitic languages including diacritics | |
CN106649783B (en) | Synonym mining method and device | |
JP4986919B2 (en) | Full-form lexicon with tagged data and method for constructing and using tagged data | |
KR100999488B1 (en) | Method and apparatus for detecting document plagiarism | |
JP2000514218A (en) | Word recognition of Japanese text by computer system | |
KR20120129906A (en) | Compound splitting | |
US20140289238A1 (en) | Document creation support apparatus, method and program | |
JP2008083952A (en) | Dictionary creation support system, method and program | |
JP2006215717A (en) | System, method, and program for information retrieval | |
US20190303437A1 (en) | Status reporting with natural language processing risk assessment | |
Saharia et al. | Analysis and evaluation of stemming algorithms: a case study with Assamese | |
Alhawiti | Adaptive models of Arabic text | |
JP6867963B2 (en) | Summary Evaluation device, method, program, and storage medium | |
JP5204203B2 (en) | Example translation system, example translation method, and example translation program | |
CN109923538B (en) | Text search device, text search method, and computer program | |
JP6782644B2 (en) | Information processing systems, information processing methods, and computer programs | |
US10572592B2 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
JP2009093581A (en) | Control system for synonym search | |
JP2011138365A (en) | Term extraction device, method, and data structure of term dictionary | |
Gurusamy et al. | Stemming techniques for Tamil language | |
Phillips et al. | Improving example-based machine translation through morphological generalization and adaptation | |
Demir | Context tailoring for text normalization | |
JP4253483B2 (en) | Different notation dictionary creation device, different notation dictionary creation method, and program for causing computer to execute the method | |
JP7022789B2 (en) | Document search device, document search method and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190918 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201013 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201020 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6782644 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |