JP4838743B2 - Similar text search program - Google Patents
Similar text search program Download PDFInfo
- Publication number
- JP4838743B2 JP4838743B2 JP2007046926A JP2007046926A JP4838743B2 JP 4838743 B2 JP4838743 B2 JP 4838743B2 JP 2007046926 A JP2007046926 A JP 2007046926A JP 2007046926 A JP2007046926 A JP 2007046926A JP 4838743 B2 JP4838743 B2 JP 4838743B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- search
- compound word
- similar
- compound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、データベースに蓄積された文章データの中から、利用者が入力した文章に類似する文章を検索するコンピュータプログラムに関する。 The present invention relates to a computer program for searching a sentence similar to a sentence input by a user from sentence data stored in a database.
コンピュータの普及やデータの電子化の進展に伴い、膨大なデータベースから効率的に文書検索を行う必要が増大している。文書検索技術としては、利用者の入力キーワードに基づいてデータベースの文書のテキスト検索を行う技術が知られているが、検索される文書数が多過ぎたり、まったく検索されないという不具合がある。
このようなことから、利用者にキーワードと共にそのキーワードの品詞を指定して入力させ、キーワードと品詞を組合わせた検索条件でデータベースの検索を行い、検索精度や効率を向上させる技術が開示されている(特許文献1参照)。
With the spread of computers and the progress of computerization of data, the need to efficiently retrieve documents from a huge database is increasing. As a document search technique, a technique for performing a text search of a document in a database based on a user input keyword is known, but there is a problem that the number of documents to be searched is too many or not searched at all.
For this reason, a technique has been disclosed that allows a user to specify and input a part of speech of a keyword together with a keyword, perform a database search under a search condition that combines the keyword and the part of speech, and improve search accuracy and efficiency. (See Patent Document 1).
一方、キーワード検索においては、利用者がキーワードを設定する作業が必要であると共に、キーワードに該当しない限り検索されないという本質的な問題がある。そこで、利用者が自然文や単語列を入力すると、その文の形態素解析を行い、予め単語毎に設定した意味カテゴリに基づいて入力文中の単語の意味カテゴリを抽出し、その単語と意味カテゴリをキーとしてデータベースに蓄積された検索文(類似文章)を検索する技術が開示されている(特許文献2参照)。 On the other hand, in keyword search, there is an essential problem that a user needs to set a keyword and that the keyword is not searched unless it corresponds to the keyword. Therefore, when the user inputs a natural sentence or a word string, morphological analysis of the sentence is performed, and the semantic category of the word in the input sentence is extracted based on the semantic category set for each word, and the word and the semantic category are extracted. A technique for searching for search sentences (similar sentences) stored in a database as a key is disclosed (see Patent Document 2).
しかしながら、上記した特許文献1記載の技術の場合、利用者がキーワードと共に品詞を設定する作業が必要であると共に、これらの設定が不適切な場合、検索される文書数が多過ぎたり、まったく検索されないという不具合が解消されない。
又、特許文献2記載の技術の場合、予め単語毎に意味カテゴリを設定しているが、文章中での単語の位置や前後の単語との関係によって意味が変わることがあり、入力文の内容を解析する点で精度や利用勝手が充分とはいえない。例えば、利用者にとっては、入力した文章中の単語の前後関係をシステム側で判断し、その文章に適切に類似した文章をあいまい的に検索(以降、あいまい検索と称する)できる方が便利である。
However, in the case of the technique described in Patent Document 1 described above, it is necessary for the user to set the part of speech together with the keyword. If these settings are inappropriate, the number of documents to be searched is too many or no search is performed. The problem of not being done is not resolved.
In the case of the technique described in Patent Document 2, a semantic category is set for each word in advance, but the meaning may change depending on the position of the word in the sentence and the relationship with the preceding and following words. The accuracy and usability are not sufficient in terms of analysis. For example, it is more convenient for a user to determine the context of words in an input sentence on the system side and to search a sentence appropriately similar to that sentence (hereinafter referred to as an ambiguous search). .
本発明は、前述の課題に鑑みてなされたもので、利用者がキーワードを意識することなく文章を入力しても、文章中の単語(品詞)の位置や前後関係に基づいて、精度よくかつ柔軟に類似文章を検索できる類似文章検索プログラムの提供を目的とする。 The present invention has been made in view of the above-described problems. Even if a user inputs a sentence without being aware of the keyword, the present invention can accurately and based on the position and context of words (parts of speech) in the sentence. The purpose is to provide a similar text search program that can search for similar text flexibly.
上記した目的を達成するため、本発明の類似文章検索プログラムは、入力された文章に類似する文章を検索する処理を実行し、前記入力された文章を形態素解析して文節を判定すると共に各文節毎に係り受けを解析する解析過程と、前記文節を出現順に並べ、動詞又は係り先のない文節が出現した場合に、当該動詞又は文節を含みそれ以前のすべての文節をグループとする複合語を作成する複合語作成過程と、前記入力された文章に前記複合語を関連付けて文章データベースに記録する文章データベース記録過程と、新たに任意の原文が入力された場合に、前記解析過程と前記複合語作成過程とを実行し、前記原文に対して得られた複合語をキーとして、前記文章データベースから前記キーとなる複合語を含む文章を検索する類似文章検索過程と、前記検索された文章を出力する出力過程とを有することを特徴とする。 In order to achieve the above-described object, the similar sentence search program of the present invention executes a process of searching for a sentence similar to the input sentence, determines a phrase by performing morphological analysis on the input sentence, and sets each phrase. Analyzing the dependency for each dependency, and arranging the clauses in the order of appearance, and when a verb or a clause with no dependency appears, a compound word that includes all the clauses including and including the verb or clause A compound word creation process to be created; a sentence database recording process in which the compound word is associated with the input sentence and recorded in a sentence database; and when an arbitrary original sentence is newly input, the analysis process and the compound word A similar sentence search process for searching a sentence including the compound word as the key from the sentence database using the compound word obtained for the original sentence as a key. When, and having an output step of outputting the retrieved text.
この類似文章検索プログラムでは、利用者がキーワードを意識することなく文章を入力しても、文章中の単語の位置や前後関係に基づいた意味内容を反映した1以上の文節をグループとし、当該グループに含まれる単語を有する複合語を作成するので、この複合語をキーとして精度よくかつ柔軟に類似文章を検索できる。 In this similar sentence search program, even if a user inputs a sentence without being aware of the keyword, one or more clauses reflecting the meaning contents based on the position and context of the word in the sentence are grouped, and the group Since a compound word having a word included in is created, similar sentences can be searched with high accuracy and flexibility using this compound word as a key.
また、本発明の類似文章検索プログラムは、前記複合語作成過程において、前記複合語に含まれる品詞のうち、所定の品詞を削除し及び/又は動詞の活用形を統一することが好ましい。
この類似文章検索プログラムでは、複合語における余分な品詞を削除するので、あいまい検索が実行され易くなる。
Moreover, it is preferable that the similar sentence search program of this invention deletes a predetermined part of speech and / or unifies the utilization form of a verb among the parts of speech contained in the said compound word in the said compound word preparation process.
In this similar sentence search program, since an extra part of speech in a compound word is deleted, an ambiguous search is easily performed.
また、本発明の類似文章検索プログラムは、前記原文の複合語が複数個ある場合に、前記類似文章検索過程において、前記原文の複合語のすべてを持つ第1の文章と、前記原文の複合語のうち少なくとも1つを持つ第2の文章とを前記文章データベースからそれぞれ検索し、前記第1及び第2の文章とに所定の重み付けを付与することが好ましい。
この類似文章検索プログラムでは、キーとなる複合語の数に応じて種々の検索結果が得られ、それらを重み付けして出力することにより、検索の精度と柔軟性のバランスをとったあいまい検索を行うことができる。特に、利用者の入力する文章に個人差があっても、柔軟に検索を実行することができ、厳密な検索によって結果が得られない不具合が解消される。
Further, the similar sentence search program of the present invention provides a first sentence having all of the compound words of the original sentence and the compound words of the original sentence in the similar sentence search process when there are a plurality of compound words of the original sentence. It is preferable that a second sentence having at least one of them is searched from the sentence database, and a predetermined weight is given to the first sentence and the second sentence.
In this similar sentence search program, various search results can be obtained according to the number of key compound words, and the results are weighted and output to perform an ambiguous search that balances the accuracy and flexibility of the search. be able to. In particular, even if there are individual differences in the text input by the user, the search can be executed flexibly, and the problem that the result cannot be obtained by a strict search is solved.
また、本発明の類似文章検索プログラムは、前記入力された文章を所定のカテゴリーに分類し、同一のカテゴリー内に属する類似する前記文章を上位化した統合文章を作成する統合文章作成過程と、得られた統合文章に対し、前記解析過程及び前記複合語作成過程とを実行して得られた複合語を、前記統合文章に関連付けて文章データベースに記録する統合文章管理過程とをさらに有し、前記類似文章検索過程において、前記原文から得られた複合語をキーとして、前記文章データベースに記録された前記統合文章を検索することが好ましい。
この類似文章検索プログラムでは、文章データベース内の原文を集約した統合文章についても検索の対象となるので、多様な検索結果が得られ、あいまい検索が実行し易くなる。
Further, the similar sentence search program of the present invention includes an integrated sentence creation process for classifying the inputted sentences into a predetermined category and creating an integrated sentence in which the similar sentences belonging to the same category are upgraded. An integrated sentence management process that records the compound word obtained by executing the analysis process and the compound word creation process on the integrated sentence, and records it in the sentence database in association with the integrated sentence, In the similar text search process, it is preferable to search the integrated text recorded in the text database using a compound word obtained from the original text as a key.
In this similar sentence search program, since an integrated sentence obtained by collecting original sentences in a sentence database is also a search target, various search results can be obtained and an ambiguous search can be easily performed.
また、本発明の類似文章検索プログラムは、前記類似文章検索過程において、前記複合語に含まれる品詞に割当てられた重み付けに応じて検索結果に順位付けをすることが好ましい。
この類似文章検索プログラムでは、例えば、検索された複合語に品詞が多数含まれる場合や、重要語句として指定した品詞を含む複合語の検索順位を高め、検索精度を向上させることができる。
The similar sentence search program of the present invention preferably ranks the search results in accordance with the weight assigned to the part of speech included in the compound word in the similar sentence search process.
In this similar sentence search program, for example, when the searched compound word includes many parts of speech, or the search order of compound words including the part of speech designated as an important phrase is increased, the search accuracy can be improved.
さらに、本発明の類似文章検索プログラムは、前記類似文章検索過程において、前記カテゴリーに割当てられた重み付けに応じて検索結果に順位付けをすることが好ましい。
この類似文章検索プログラムでは、文章データベース内のカテゴリーについても検索の対象となるので、多様な検索結果が得られ、あいまい検索が実行し易くなる。
Furthermore, the similar text search program of the present invention preferably ranks the search results according to the weight assigned to the category in the similar text search process.
In this similar text search program, since the category in the text database is also a search target, various search results can be obtained and an ambiguous search can be easily performed.
本発明によれば、以下の効果を奏する。
すなわち、本発明の類似文章検索プログラムによれば、利用者がキーワードを意識することなく文章を入力しても、文章中の単語(品詞)の位置や前後関係に基づいて、精度よくかつ柔軟に類似文章を検索できる。
The present invention has the following effects.
That is, according to the similar sentence search program of the present invention, even if a user inputs a sentence without being aware of the keyword, it is accurate and flexible based on the position and context of the word (part of speech) in the sentence. Search for similar sentences.
以下、本発明に係る類似文章検索プログラムの一実施形態を、添付した図面に基づき説明する。
図1は、本発明の類似文章検索プログラムをコンピュータ上で実行するための検索システムを示すブロック図である。
Hereinafter, an embodiment of a similar text search program according to the present invention will be described with reference to the accompanying drawings.
FIG. 1 is a block diagram showing a search system for executing a similar text search program of the present invention on a computer.
検索システム100は、Webサーバ等であってよく、CPU等のプロセッサ101、本発明の類似文章検索プログラムを格納するプログラム格納部103、同義語辞書104及び文章DB(データベース)部105を備える。プログラム格納部103に格納されたプログラムは、図示しないメモリ(ROM,RAM等)に格納されてプロセッサ101により実行される。 The search system 100 may be a Web server or the like, and includes a processor 101 such as a CPU, a program storage unit 103 that stores a similar text search program of the present invention, a synonym dictionary 104, and a text DB (database) unit 105. The program stored in the program storage unit 103 is stored in a memory (ROM, RAM, etc.) (not shown) and executed by the processor 101.
検索システム100は、インターネット等のネットワーク400を介して利用者端末200及びサンプル文章DB部300に接続されている。利用者は、利用者端末200から検索システム100にアクセスして検索を希望する原文(例えば、日本語自由文)を入力して、検索システム100からは検索結果が利用者端末200に送信される。
サンプル文章DB部300は、データベースサーバ等であってよく、文章DB105に蓄積するための様々な日本語文章データが蓄積され、必要に応じて文章DB105にデータ転送される。
The search system 100 is connected to the user terminal 200 and the sample sentence DB unit 300 via a network 400 such as the Internet. The user accesses the search system 100 from the user terminal 200 and inputs the original text (for example, Japanese free text) desired to be searched, and the search result is transmitted from the search system 100 to the user terminal 200. .
The sample sentence DB unit 300 may be a database server or the like, and various Japanese sentence data to be accumulated in the sentence DB 105 are accumulated and transferred to the sentence DB 105 as necessary.
検索システム100において、ハードディスクドライブ等の記録媒体からなるプログラム格納部103は、分類化プログラム1031、統合化プログラム1032、形態素解析プログラム1033、係り受け解析プログラム1034、複合語作成プログラム1035、スコア(重み付け)指定プログラム1036、類似文章検索プログラム1037、出力プログラム1038を備える。又、プログラム部103は、前述の各プログラム以外に、本発明の日本語自由文検索方式を実行するための他のプログラムを適宜備える。 In the search system 100, a program storage unit 103 made up of a recording medium such as a hard disk drive includes a classification program 1031, an integration program 1032, a morpheme analysis program 1033, a dependency analysis program 1034, a compound word creation program 1035, and a score (weight). A designation program 1036, a similar sentence search program 1037, and an output program 1038 are provided. In addition to the above-described programs, the program unit 103 appropriately includes other programs for executing the Japanese free text search method of the present invention.
分類化プログラム1031は、サンプル文章DB部300に蓄積された文章を、所定のカテゴリ(大分類・中分類・小分類・細分類)に分類化する。
統合化プログラム1032は、分類化プログラム1031によって分類化された文章のうち、同一のカテゴリー内に属する類似する前記文章を上位化(統合化)して簡素な統合文章を作成する。
The classification program 1031 classifies the sentences stored in the sample sentence DB unit 300 into predetermined categories (major classification, middle classification, small classification, and fine classification).
The integrated program 1032 creates a simple integrated sentence by superimposing (integrating) similar sentences belonging to the same category among sentences classified by the classification program 1031.
形態素解析プログラム1033は、文章の形態素解析を実行する。ここで、形態素とは、文字列をこれ以上に細かくすると意味をなさなくなる最小の文字列(品詞)をいい、形態素解析は日本語検索技術において公知の解析手法である。本発明においては、例えば品詞を予め同義語辞書104に設定しておき、同義語辞書104を参照しながら文章を品詞に分解することにより形態素解析を行うことができる。
形態素解析プログラム1033の解析対象となる文章としては、1)サンプル文章DB部300に蓄積されたもとの文章(原文)、2)統合化プログラム1032により統合化された統合文章と、3)利用者端末から入力された文章の原文、が挙げられる。
なお、本発明において、「原文」とは、統合化される前のもとの文章をいう。
The morpheme analysis program 1033 executes morphological analysis of sentences. Here, the morpheme refers to the minimum character string (part of speech) that does not make sense if the character string is made finer than this, and the morpheme analysis is a well-known analysis method in the Japanese search technology. In the present invention, for example, a part of speech is set in the synonym dictionary 104 in advance, and the morphological analysis can be performed by decomposing the sentence into parts of speech while referring to the synonym dictionary 104.
The sentences to be analyzed by the morphological analysis program 1033 include 1) the original sentence (original sentence) accumulated in the sample sentence DB unit 300, 2) the integrated sentence integrated by the integrated program 1032, and 3) the user terminal. The original text of the text entered from.
In the present invention, the “original text” refers to the original text before being integrated.
係り受け解析プログラム1034は、形態素解析を基に文節を判定すると共に各文節毎に係り受けを解析する。文節は、日本語において定義される単位であり、自立語、又は自立語とそれに後続する付属語からなる。又、係り受けは、文節間の関係を定義する。文節及び係り受けの判定は日本語検索技術や言語処理(かな漢字変換等)において公知の手法である。 The dependency analysis program 1034 determines a phrase based on morphological analysis and analyzes the dependency for each phrase. A phrase is a unit defined in Japanese and consists of an independent word or an independent word followed by an attached word. A dependency defines a relationship between phrases. Determination of clauses and dependency is a well-known method in Japanese search technology and language processing (kana-kanji conversion, etc.).
本発明においては、例えば形態素解析によって得られた品詞の種類毎に自立語か付属語かを予め同義語辞書104に設定しておき、これを参照して文節を解析することができる。又、本発明においては、品詞の種類毎に後節に係るか係らないかを予め同義語辞書104に設定しておき、これを参照して文節間の係り受けを解析することができる。 In the present invention, for example, an independent word or an attached word is set in advance in the synonym dictionary 104 for each type of part of speech obtained by morphological analysis, and a phrase can be analyzed with reference to this. Further, in the present invention, whether or not the latter clause is related to each type of part of speech is set in advance in the synonym dictionary 104, and the dependency between phrases can be analyzed with reference to this.
複合語作成プログラム1035は、係り受け解析プログラム1034による解析結果を基に、文節を出現順に並べ、動詞又は係り先のない文節が出現した場合に、当該動詞又は文節を含みそれ以前のすべての文節をグループとする複合語を作成する。また、複合語作成プログラム1035は、後述する複合語の簡素化を実行する。 The compound word creation program 1035 arranges the clauses in the order of appearance based on the analysis result by the dependency analysis program 1034, and when a verb or an unrelated clause appears, all the clauses including the verb or the clause before it are included. Create a compound word that groups The compound word creation program 1035 executes compound word simplification described later.
スコア(重み付け)指定プログラム1036は、利用者により文章DB部105から類似文章を検索する際、文章DB部105に記録されている文章データに予めスコア(重み付け)を指定する、これにより、検索結果に優劣を付け、検索の適合性(フィット性)を向上させることができる。 The score (weighting) designation program 1036 designates a score (weighting) in advance in the sentence data recorded in the sentence DB unit 105 when the user searches for similar sentences from the sentence DB unit 105, whereby the search result It is possible to improve the suitability (fitness) of search by giving superiority to inferiority.
類似文章検索プログラム1037は、利用者が検索システム100にアクセスして検索を行う場合に、文章DB部105を基に検索処理を実行する。
出力プログラム1038は、検索結果を利用者端末200に送信する。
The similar text search program 1037 executes a search process based on the text DB unit 105 when the user accesses the search system 100 to perform a search.
The output program 1038 transmits the search result to the user terminal 200.
文章DB部105は、複合語作成プログラム1035により作成された複合語を、解析もとの文章に関連付けて記録する。又、必要に応じ、文章DB部105はさらに、統合化プログラム1032によって統合化された統合文、および上記カテゴリを、上記した複合語に関連付けて記録する。
なお、文章DB部105に上記データを記録するタイミングとしては、サンプル文章DB部300から文章データが転送された時点の他、利用者端末200から検索対象となる文章が入力された際に直ちにその文章の複合語を作成することにより動的(リアルタイム)に記録することもできる。
The sentence DB unit 105 records the compound word created by the compound word creation program 1035 in association with the sentence to be analyzed. If necessary, the sentence DB unit 105 further records the integrated sentence integrated by the integrated program 1032 and the category in association with the compound word.
The timing of recording the data in the sentence DB unit 105 is not limited to the point in time when the sentence data is transferred from the sample sentence DB unit 300, but immediately when a sentence to be searched is input from the user terminal 200. It can also be recorded dynamically (in real time) by creating compound words of sentences.
<文章DBへの記録>
次に、本発明のプログラムを実行して行われる文章DBへの記録処理について、図2〜図7を参照して説明する。図2は、文章DBへの記録手順を示すフローチャートである。
図2において、まず、分類化プログラム1031は、サンプル文章DB部102に蓄積されている文章の分類化を実行する(ステップ210)。分類化とは、文章を所定のカテゴリーに分類することをいう。
<Record to text DB>
Next, the recording process to the sentence DB performed by executing the program of the present invention will be described with reference to FIGS. FIG. 2 is a flowchart showing a procedure for recording in the sentence DB.
In FIG. 2, first, the classification program 1031 executes classification of sentences accumulated in the sample sentence DB unit 102 (step 210). Categorization means classifying sentences into predetermined categories.
カテゴリーとしては、例えば図3に示すように「大分類、中分類、小分類及び細分類」のような複数の上位及び下位概念からなるものが挙げられる。例えば、大分類及び中分類は「外来」いうキーワードの集まりとし、小分類及び細分類は「外来」に関する単語、文節、短文又は文章として分類する。 Examples of categories include those composed of a plurality of upper and lower concepts such as “major category, middle category, minor category and fine category” as shown in FIG. For example, the major classification and middle classification are a collection of keywords “foreign”, and the minor classification and fine classification are classified as words, phrases, short sentences, or sentences relating to “foreign”.
なお、これらの各分類に対応づけられたキーワード、短文又は文章のうち少なくともいずれかは予め同義語辞書104に設定されており、同義語辞書104を参照することにより、入力された文章をカテゴリーに分類し、分類した結果を文章DB部105に記録する。又、例えば、大分類、中分類に対応するキーワードを同義語辞書104に設定しておき、同義語辞書104に基づいて入力された文章を中分類まで分類した後、文章中の文節を小分類や細分類に割当てることによって、小分類や細分類に属する単語や文節等を動的に記録してもよい。 It should be noted that at least one of keywords, short sentences, or sentences associated with each of these classifications is set in the synonym dictionary 104 in advance, and by referring to the synonym dictionary 104, the inputted sentences are classified into categories. The result of classification is recorded in the sentence DB unit 105. Also, for example, keywords corresponding to the major classification and middle classification are set in the synonym dictionary 104, and the sentence input based on the synonym dictionary 104 is classified to the middle classification, and then the clauses in the sentence are subclassified. By assigning to or sub-category, words or phrases belonging to the sub-category or sub-category may be recorded dynamically.
ステップ210を実行した後、統合化プログラム1032は、同一のカテゴリー内に属する類似する前記文章を上位化(統合化)して簡素な統合文章を作成する(ステップ220)。この処理は、例えば図4のようにして行われる。
図4において、同一のカテゴリー(大分類:外来、中分類:病院・医師の選択)に属する文章(原文)A、Bがあるものとする。統合化プログラム1032は、大分類と中分類が一致する原文A,Bを類似する文章と判定し、次に各原文A,Bの形態素解析の結果から、「相談」、「悩む」、「迷った」という品詞を取得する。これらの品詞が出現した場合に対応する模範文「これから治療を受けるためにはどの病院や医師がよいか選択に悩んだ」が予め同義語辞書104に設定されており、これらの品詞が取得されると、統合化プログラム1032は同義語辞書104を参照して模範文を抽出し、統合文として出力する。
After executing Step 210, the integration program 1032 creates a simple integrated sentence by upgrading (integrating) similar sentences belonging to the same category (Step 220). This process is performed as shown in FIG. 4, for example.
In FIG. 4, it is assumed that there are sentences (original texts) A and B belonging to the same category (major classification: outpatient, middle classification: selection of hospital / doctor). The integrated program 1032 determines that the original texts A and B whose major classification and middle classification match are similar texts, and then, from the result of the morphological analysis of each original text A and B, “consultation”, “worried”, “stray” Part of speech. The model sentence corresponding to the appearance of these parts of speech “I was worried about choosing which hospital or doctor to receive treatment from now on” is set in the synonym dictionary 104 in advance, and these parts of speech are acquired. Then, the integrated program 1032 extracts a model sentence with reference to the synonym dictionary 104, and outputs it as an integrated sentence.
次に、形態素解析プログラム1033は、各カテゴリー、統合文章及び原文に対して、形態素解析を実行し、文節を判定する(ステップ230)。次に、係り受け解析プログラム1034は、形態素解析を基に文節を判定すると共に各文節毎に係り受けを解析する(ステップ240)。形態素解析や文節判定については既に説明したとおりであり、公知の形態素解析や文節判定の手法を採用することができる。 Next, the morpheme analysis program 1033 performs morpheme analysis on each category, integrated sentence, and original sentence, and determines a phrase (step 230). Next, the dependency analysis program 1034 determines a phrase based on morphological analysis and analyzes the dependency for each phrase (step 240). Morphological analysis and phrase determination are as described above, and known morphological analysis and phrase determination methods can be employed.
例えば、原文が「腰椎と脊椎に骨転移が認められ医師から手術不可能と告げられた。」である場合を例にとり、具体的にこれらの手法を説明する。
まず、形態素解析により原文を品詞に分類すると、図5のようになる。
次に、分類した品詞をさらに自立語と付属語に分類する。ここで、自立語は、文中で単独でも文節を構成できる語であり、例文の「腰椎」、「脊髄」、「骨転移」である。また、付属語は、単独では文節を構成することができず、常に自立語の下について文節の一部として用いられる語であり、例文の「と」、「に」、「が」などである。
このようにして、自立語と付属語に分類することにより、文節を判定することができる。例文では、「腰椎と/脊椎に/骨転移が/認められ/医師から/手術不可能と/告げられた。」の位置(/)で文節に区切られる。
For example, taking the case where the original text is “A bone metastasis was recognized in the lumbar spine and spine and the doctor told me that surgery was not possible.”, These methods will be explained specifically.
First, when the original text is classified into parts of speech by morphological analysis, it is as shown in FIG.
Next, the classified parts of speech are further classified into independent words and adjunct words. Here, independent words are words that can constitute a phrase even in a sentence alone, and are “lumbar spine”, “spinal cord”, and “bone metastasis” in the example sentences. An adjunct is not a word that can form a phrase by itself, but is always used as part of a phrase under an independent word, such as “to”, “ni”, “ga”, etc. .
In this way, the clauses can be determined by classifying into independent words and attached words. In the example sentence, it is divided into clauses at the position (/) of “Lumbar vertebrae / vertebrae / bone metastasis / recognized / physician / inoperable / notified”.
次に、係り受け解析においては、品詞の種類毎に後節に係るか係らないかを同義語辞書104を参照して判定する。例えば、文節「腰椎と」における助詞「と」は後ろの文節に係るものであると設定されているので、文節「腰椎と」(文節番号0)は後節「脊椎に」」(文節番号1)に係ると判定される。又、文節「告げられた。」は句読点を含むので、係り先のないと判定される。このようにして、上記例文を係り受け解析した結果は、図6のようになる。 Next, in dependency analysis, it is determined with reference to the synonym dictionary 104 whether the part of speech is related to the latter section or not. For example, the particle “to” in the phrase “lumbar vertebra” is set to relate to the subsequent phrase, so the phrase “lumbar vertebra” (phrase number 0) is the posterior section “to the spine” (phrase number 1). ). Moreover, since the phrase “telled” includes punctuation marks, it is determined that there is no dependency. The result of the dependency analysis of the above example sentence is as shown in FIG.
次に、複合語作成プログラム1035は、係り受け解析プログラム1034による結果に応じて複合語を作成する(ステップ250)。すなわち、複合語作成プログラム1035は、文節を出現順に並べ、動詞又は係り先のない文節が出現した場合に、当該動詞又は文節を含みそれ以前のすべての文節をグループとする複合語を作成する。 Next, the compound word creation program 1035 creates a compound word according to the result of the dependency analysis program 1034 (step 250). That is, the compound word creation program 1035 arranges clauses in the order of appearance, and when a verb or an unrelated clause appears, creates a compound word including all the clauses including and including the verb or clause as a group.
上記例文の場合、文節「認められ」は動詞であり、又、文節「告げられた。」は係り先のないため、これらの前の文節を含むグループをそれぞれ複合語1,2として作成することとなる。例えば、複合語1は文節「認められ」を含みそれ以前の文節を包含する4つの文節からなる。
複合語1: 腰椎と 脊椎に 骨転移が 認められ
複合語2: 医師から 手術 不可能と 告げられた。
In the case of the above example sentence, the phrase “recognized” is a verb, and the phrase “spoken” has no relation, so a group including these previous phrases should be created as compound words 1 and 2, respectively. It becomes. For example, compound word 1 is composed of four clauses including the clause “recognized” and including previous clauses.
Compound Word 1: Bone metastasis was found in the lumbar spine and spine. Compound Word 2: The doctor told me that surgery was impossible.
上記した複合語は、文章中の動詞や係り先のない文節を区切り位置として1以上の文節をグループ化するので、単語の位置や前後関係に基づいた意味内容を反映したグループが得られる。そして、当該グループに含まれる単語から複合語が構成されるので、この複合語をキーとすることにより、検索の精度と柔軟性(あいまい検索)を両立でき、容易に類似文章を検索できる。 The above-mentioned compound word groups one or more clauses by using a verb or unrelated clause in the sentence as a break position, so that a group reflecting the semantic content based on the position and context of the word can be obtained. And since a compound word is comprised from the word contained in the said group, by using this compound word as a key, the precision and flexibility (fuzzy search) of search can be made compatible, and a similar sentence can be searched easily.
つまり、本発明は、文章中の意味内容毎にキーワードをグループ化したものであり、後述するように、利用者が入力した原文中の複合語のうち、すべての複合語を検索キーとするだけでなく、そのうち少なくとも1つを検索キーとする検索も同時に行う場合、検索結果が多様となり、検索の柔軟性(あいまい性)がさらに向上する。 In other words, the present invention is a grouping of keywords for each semantic content in a sentence. As will be described later, all compound words in a compound word input by a user are used as search keys. In addition, when a search using at least one of them as a search key is performed at the same time, search results are diversified, and search flexibility (ambiguity) is further improved.
なお、このようにして作成された複合語には、助詞や副詞・接続詞等、検索を複雑にする要素が含まれる。このため、複合語作成プログラム1035は、複合語に含まれる品詞のうち、所定の品詞を削除し及び/又は動詞の活用形を統一し、複合語を簡素化することが好ましい(ステップ260)。 The compound word created in this way includes elements that complicate the search, such as particles, adverbs and conjunctions. For this reason, it is preferable that the compound word creation program 1035 simplifies the compound word by deleting a predetermined part of speech and / or unifying the utilization form of the verb among the parts of speech included in the compound word (step 260).
削除する品詞としては、感動詞、記号、形容詞−接尾、形容詞−非自立、助詞、助動詞、接続詞、動詞−接尾、副詞、名詞−非自立、名詞−数、名詞−接尾、名詞−代名詞、名詞−副詞可能、連体詞、動詞−非自立、動詞(ある、いる、おる、する、なる、思う)などの品詞又は品詞分類が該当する。上記例文の場合、「認め+られ」の「られ」は動詞であるが接尾語であるため削除する。
又、動詞の活用形を統一する場合としては、例えば「認め」を基本形「認める」に統一することが該当する。
The part of speech to be deleted is a moving verb, symbol, adjective-suffix, adjective-non-independent, particle, auxiliary verb, conjunction, verb-suffix, adverb, noun-independent, noun-number, noun-suffix, noun-pronoun, noun -Part-of-speech classification or part-of-speech classification such as adverbial possible, conjunction, verb-non-independent, verb (some are, is, is, is, thinks). In the case of the above example sentence, “re” in “acknowledgment + reed” is a verb but is deleted because it is a suffix.
In addition, in order to unify the utilization form of the verb, for example, it is applicable to unify “acknowledgement” to the basic form “acknowledgement”.
上記例文の場合、簡素化された複合語は、以下のようになる。
複合語1: 腰椎 脊椎 骨 転移 認める
複合語2: 医師 手術 不可能 告げる
以上のようにして、各カテゴリー、統合文章及び原文に対してそれぞれ作成された複合語は、各カテゴリー、統合文章及び原文にそれぞれ関連付けられて文章DB部105に記録される。
In the case of the above example sentence, the simplified compound word is as follows.
Compound word 1: Lumbar spine Bone metastasis Acknowledgment Compound word 2: Doctor Surgery Impossible Tell As described above, compound words created for each category, integrated sentence, and original sentence respectively are classified into each category, integrated sentence, and original sentence. They are associated with each other and recorded in the sentence DB unit 105.
次に、スコア(重み付け)指定プログラム1036は、文章DB部105に記録された文章データに含まれる単語のスコア(重み付け)を自動的に決定する(ステップ270)。スコアとしては、文章中での単語の使用頻度に応じた重み付けや、単語の重要度に応じた重み付けがある。 Next, the score (weighting) designation program 1036 automatically determines the score (weighting) of words included in the sentence data recorded in the sentence DB unit 105 (step 270). As the score, there are weighting according to the frequency of use of the word in the sentence and weighting according to the importance of the word.
使用頻度に応じた重み付けの決定方法としては、例えばステップ260で簡素化された複合語に含まれる各単語の使用回数をカウントし、各単語の使用頻度に応じて、図7に示すようにスコアを自動的に配点する方法がある。
単語の重要度に応じた重み付けの決定方法としては、例えば重要度が高い特定の単語をカウントし、上記使用頻度によって自動的に配点されたスコアに重要度のカウント分を上書きする方法がある。単語の重要度に応じた方法によれば、特定分野のキーワードのスコア配点を上げ、利用者が希望する分野の検索結果のマッチングを向上させることができる。
As a weighting determination method according to the frequency of use, for example, the number of times of use of each word included in the compound word simplified in step 260 is counted, and according to the frequency of use of each word, as shown in FIG. There is a method of automatically assigning points.
As a method for determining the weight according to the importance of the word, for example, there is a method of counting a specific word having a high importance and overwriting the count of the importance on the score automatically assigned according to the use frequency. According to the method according to the importance of the word, the score score of the keyword in the specific field can be raised, and the matching of the search result in the field desired by the user can be improved.
<利用者によるDBの利用と検索>
次に、利用者が検索システム100にアクセスして文章DB部105を利用し、検索を行う場合の、本発明のプログラムの実行処理について、図8〜図12を参照して説明する。図8は、検索処理手順を示すフローチャートである。
図8において、まず、利用者端末200から日本語自由文(原文)が入力されると、類似文章検索プログラム1037は形態素解析プログラム1033、係り受け解析プログラム1034、複合語作成プログラム1035を実行させ、図2で説明したような処理手順により、入力された日本語自由文の複合語を作成する(ステップ510)。
<Use and search of DB by users>
Next, the execution processing of the program of the present invention when a user accesses the search system 100 and uses the text DB unit 105 to perform a search will be described with reference to FIGS. FIG. 8 is a flowchart showing a search processing procedure.
In FIG. 8, first, when a Japanese free sentence (original sentence) is input from the user terminal 200, the similar sentence search program 1037 executes a morphological analysis program 1033, a dependency analysis program 1034, and a compound word creation program 1035. A compound word of the input Japanese free sentence is created by the processing procedure described with reference to FIG. 2 (step 510).
次に、類似文章検索プログラム1037は、ステップ510で作成された複合語をキーとして、文章DB部105にこの複合語があるか否かを検索する。ステップ510で作成された複合語が複数個ある場合、この検索は、次の2つの手順で行うことができる。
まず、類似文章検索プログラム1037は、ステップ510で作成された複数個の複合語をすべて含む文章(原文、統合文章)又はカテゴリーが文章DB部105にあるか否かを検索する(全複合語検索;ステップ520)。例えば、複合語1,2を有する原文を利用者が入力した場合、文章DB部105に記録された文章のうち、複合語1,2を有するもののみが検索される。
Next, the similar sentence search program 1037 searches the sentence DB unit 105 for the presence of this compound word using the compound word created in step 510 as a key. If there are a plurality of compound words created in step 510, this search can be performed by the following two procedures.
First, the similar sentence search program 1037 searches the sentence DB unit 105 for a sentence (original sentence, integrated sentence) or a category including all of the plurality of compound words created in step 510 (all compound word search). Step 520). For example, when the user inputs an original sentence having compound words 1 and 2, only sentences having compound words 1 and 2 are retrieved from sentences recorded in the sentence DB unit 105.
次に、類似文章検索プログラム1037は、ステップ510で作成された複数個の複合語のうち、少なくとも1つを含む文章(原文、統合文章)又はカテゴリーが文章DB部105にあるか否かを検索する(個別複合語検索;ステップ530)。例えば、複合語1,2を有する原文を利用者が入力した場合、文章DB部105に記録された文章のうち、複合語1のみを有するものや、複合語2のみを有するものも検索される。 Next, the similar sentence search program 1037 searches the sentence DB unit 105 for a sentence (original sentence, integrated sentence) or category including at least one of the plurality of compound words created in step 510. (Individual compound word search; step 530). For example, when the user inputs an original sentence having compound words 1 and 2, sentences having only compound word 1 and those having only compound word 2 are retrieved from sentences recorded in sentence DB unit 105. .
ステップ520の処理の概念は図9に示され、この処理は、あいまい検索の全検索度を確保するものである。又、ステップ530の処理の概念は図10に示され、この処理は、あいまい検索の特定度を確保するものである。 The concept of the processing of step 520 is shown in FIG. 9, and this processing ensures the whole search degree of fuzzy search. Further, the concept of the processing in step 530 is shown in FIG. 10, and this processing secures the specificity of the fuzzy search.
次に、類似文章検索プログラム1037は、ステップ520、530で得られた結果にそれぞれスコア(重み付け)を行い、これらを総合したトータルスコアを算出する(ステップ540)。
ステップ540の処理手順は特に限定されないが、例えば、検索キーに対する各複合語の単語一致個数と、一致した単語にそれぞれ付けられたスコア(重み付け)とに基づき、以下の式1〜3で算出される。
Next, the similar sentence search program 1037 performs a score (weighting) on the results obtained in Steps 520 and 530, respectively, and calculates a total score combining them (Step 540).
The processing procedure of step 540 is not particularly limited. For example, it is calculated by the following formulas 1 to 3 based on the number of word matches of each compound word for the search key and the score (weighting) assigned to each matched word. The
まず、式1では、文章DB部に記録されている原文、統合文、カテゴリー(各分類)のそれぞれについて別個に一致スコアを算出する。
一致スコア=(一致単語1のスコア+一致単語2のスコア+…一致単語nのスコア)×一致単語数 (1)
First, in Expression 1, a matching score is calculated separately for each of the original sentence, the integrated sentence, and the category (each classification) recorded in the sentence DB unit.
Match score = (score of match word 1 + score of match word 2 + score of match word n) × number of match words (1)
次に、原文、統合文、カテゴリーのそれぞれについて算出した一致スコアを、原文、統合文、カテゴリー毎の重み付けによって再度スコアする。但し、ステップ530に対しては、文章DB部に記録されているカテゴリー(各分類)による検索結果を反映しない。
全複合語検索結果(ステップ520)のスコア=
(各分類一致スコア×各分類の重み)+(統合文一致スコア×統合文の重み)+(原文一致スコア×原文の重み) (2)
個別複合語検索結果(ステップ530)のスコア=
(統合文一致スコア×統合文の重み)+(原文一致スコア×原文の重み) (3)
Next, the matching score calculated for each of the original sentence, the integrated sentence, and the category is scored again by weighting for each of the original sentence, the integrated sentence, and the category. However, for the step 530, the search result by the category (each classification) recorded in the sentence DB part is not reflected.
Score of all compound word search results (step 520) =
(Each classification match score x Weight of each classification) + (Integrated sentence match score x Integrated sentence weight) + (Original sentence match score x Original sentence weight) (2)
Score of individual compound word search result (step 530) =
(Integrated sentence matching score × Integrated sentence weight) + (Original sentence matching score × Original sentence weight) (3)
そして、類似文章検索プログラム1037は、全複合語検索結果のスコア及び個別複合語検索結果のスコアに基づいて、最終的な検索結果としてのトータルスコアを以下の式4により算出する(ステップ540)。
トータルスコア=(全複合語検索スコア×全複合語検索の重み)+(個別複合語検索スコア×個別複合語検索の重み) (4)
Then, the similar sentence search program 1037 calculates a total score as a final search result based on the score of all the compound word search results and the score of the individual compound word search result by the following Expression 4 (step 540).
Total score = (total compound word search score × total compound word search weight) + (individual compound word search score × individual compound word search weight) (4)
以上のように、全複合語検索と個別複合語検索との2通りの検索を行い、それらの結果を合わせ、類似度順位を決定することにより、あいまい検索の精度と柔軟性を確保することができる。つまり、検索のもれがなく、検索結果が多過ぎることもなくなる。 As described above, it is possible to ensure the accuracy and flexibility of fuzzy search by performing two types of searches, the total compound word search and the individual compound word search, and combining the results and determining the similarity ranking. it can. In other words, there is no leakage of search and there are no too many search results.
なお、あいまい検索の性能を自動的に調整するため、利用者端末側から、各分類、統合文及び原文のスコア配分をダイナミックに変えられるようにしてもよい。スコア配分が変わることにより、検索性能を利用者が希望するレベルに自動的に調整することが可能となる。
例えば、カテゴリー(各分類)を重視する場合、利用者は、キーワード検索により各分類ごとの検索結果を期待することができる。また、統合文を重視する場合、利用者は、標準検索により統合的な検索結果を期待することができる。また、原文を重視する場合、利用者は、詳細検索により詳細な検索結果を期待することができる。
In addition, in order to automatically adjust the performance of the fuzzy search, the score distribution of each classification, integrated sentence, and original sentence may be dynamically changed from the user terminal side. By changing the score distribution, the search performance can be automatically adjusted to a level desired by the user.
For example, when the category (each classification) is emphasized, the user can expect a search result for each classification by keyword search. In addition, when emphasizing an integrated sentence, the user can expect an integrated search result by a standard search. Further, when the original text is important, the user can expect a detailed search result by the detailed search.
最後に、出力プログラム1038は、ステップ540で算出された文章のうち、トータルスコアが高い順に出力する(ステップ550)。 Finally, the output program 1038 outputs the sentences calculated in step 540 in descending order of the total score (step 550).
<検索結果のスコアの際の重複語句の処理>
次に、上記ステップ520及び530の検索処理において、検索した複合語の中に同一の単語(品詞)が複数個含まれる場合の処理について説明する。
<Duplicate word processing when scoring search results>
Next, the processing when a plurality of identical words (parts of speech) are included in the searched compound word in the search processing in steps 520 and 530 will be described.
通常、複合語の中に同一の単語が複数個含まれる場合、その単語が用いられた回数に応じてスコアが増加する。例えば、文章DB部に記録された原文が「医師の診察を受け/医者からの風邪と診断されて/医者の処方箋をもらった。」である場合、複合語は3個あるが、各複合語をすべてスコアすると、「医者」という単語が3回用いられている。仮に「医者」という単語に30点のスコアがあると、利用者が入力した日本語自由文に「医者」という単語があるだけで、これに該当する上記原文のスコアは30点×3回(一致回数)=90点となる。しかしながら、このような場合、他の単語と「医者」との重み付けの関係が失われ、検索がうまく行われなくなることがある。 In general, when a plurality of identical words are included in a compound word, the score increases according to the number of times the word is used. For example, when the original sentence recorded in the sentence DB section is “received medical examination / diagnosed as a cold from a doctor / received a doctor's prescription”, there are three compound words. If all the scores are scored, the word “doctor” is used three times. If the word “doctor” has a score of 30 points, only the word “doctor” is included in the Japanese free text entered by the user, and the score of the corresponding original sentence is 30 points × 3 times ( Number of matches) = 90 points. However, in such a case, the weighting relationship between other words and “doctor” may be lost, and the search may not be performed successfully.
そこで、1つの文章中に同一単語が何度出現しても、1回分しかスコアをカウントしないように処理し、スコアを補正することができる。又、上記原文において、「医者」に対する本来のスコア30点を出現回数(3回)で割り、スコア10点を3回カウントしてもよい。 Therefore, no matter how many times the same word appears in one sentence, the score can be corrected by processing so that the score is counted only once. In the original text, the original score of 30 points for “doctor” may be divided by the number of appearances (3 times), and the score of 10 points may be counted three times.
<実施例>
以下、本発明による検索の一例を示す。
<Example>
Hereinafter, an example of the search according to the present invention will be shown.
(1)文章データベースの文章の分類化と文章の統合化
(文章例1)
大分類:外来
中分類:外来受診
小分類:外来治療
細分類:外来での抗がん剤治療がつらい。
原文1:再発したときは温存手術を選択したからかと悩み、毎週の抗がん剤治療は外来で行われるので体に負担がかかる。
統合文1:毎週の抗がん剤治療は外来で行われるので体に負担がかかる。
(1) Text classification and text integration in text database (sentence example 1)
Major classification: Outpatient Medium classification: Outpatient consultation Small classification: Outpatient treatment Subcategory: Difficult to treat anticancer drugs in the outpatient department.
Original 1: When it recurs, I am worried that I have selected a conservative operation, and weekly anticancer drug treatment is performed in an outpatient setting, which puts a burden on the body.
Integrated sentence 1: Weekly anti-cancer drug treatment is performed in an outpatient department, which puts a burden on the body.
(文章例2)
大分類:外来
中分類:外来受診
小分類:外来治療
細分類:外来での抗がん剤治療がつらい。
原文2 :抗がん剤治療の副作用と通院が大変だった。
統合文2:抗がん剤治療の副作用と通院が大変だった。
(Sentence example 2)
Major classification: Outpatient Medium classification: Outpatient consultation Small classification: Outpatient treatment Subcategory: Difficult to treat anticancer drugs in the outpatient department.
Original 2: Anti-cancer drug side effects and hospital visits were difficult.
Integrated sentence 2: Side effects and visits to anticancer drugs were difficult.
(文章例3)
大分類:症状・副作用・後遺症
中分類:治療による副作用・後遺症
小分類:抗がん剤による副作用の症状
細分類:抗がん剤による脱毛
原文3 :通院による抗がん剤治療が悩むというよりつらかった。病院にいれば同病の人々と話すこともできるが、全身の毛が抜けた時にはショックだったし、その後生えてくるか不安だった。この不安を誰にわかってもらえるのかと思った。
統合文3:通院による抗がん剤治療がつらかった。入院していれば同病の人たちと話すこともできるが、全身の毛が抜けた時のショックやその後生えてくるのかという不安を、誰にわかってもらえるのかと思った。
(Sentence example 3)
Major Category: Symptoms / Side Effects / Sequences Middle Category: Side Effects / Sequences Caused by Treatment Subcategory: Symptoms of Side Effects Caused by Anticancer Agents Subcategory: Hair Loss Caused by Anticancer Agents It was hard. I could talk to people with the disease if I was in the hospital, but I was shocked when I lost my whole body hair, and I was worried if it would grow. I wondered who could understand this anxiety.
Integrated sentence 3: Anticancer drug treatment by hospital was difficult. If you are hospitalized, you can talk to people with the same illness, but I wondered if anyone could understand the shock when the whole body lost hair and the anxiety about whether it will grow later.
(2)文章データベースの形態素解析
例文)外来での抗がん剤治療がつらい。
上記例文を形態素解析した結果を図11に示す。
(2) Morphological analysis of sentence databases eg) Difficult to treat anticancer drugs in outpatient clinics.
FIG. 11 shows the result of morphological analysis of the above example sentence.
(3)文章データベースの係り受け解析
例文)外来での抗がん剤治療がつらい。
上記例文を係り受け解析した結果を図12に示す。
(3) Dependency analysis of sentence databases eg) Difficult to treat anticancer drugs in outpatients.
FIG. 12 shows the result of dependency analysis of the above example sentence.
(4)文章データベースの簡素化複合語作成
例文1)外来での抗がん剤治療がつらい。
(簡素化複合語作成)
複合語1 外来 抗がん剤 治療 つらい
(4) Simplified compound word creation of sentence database Example sentence 1) Difficult to treat anticancer drugs in the outpatient department.
(Simplified compound word creation)
Compound 1 Outpatient anticancer drug treatment painful
例文2)再発したときは温存手術を選択したからかと悩み、毎週の抗がん剤治療は外来で行われるので体に負担がかかる。
(簡素化複合語作成)
複合語1 再発 温存 手術 選択 悩む
複合語2 抗がん剤 治療 外来 行う
複合語3 体 負担 かかる
Example 2) When recurrence occurs, I am worried that I have selected conservative surgery, and weekly anticancer drug treatment is performed in an outpatient department, which puts a burden on the body.
(Simplified compound word creation)
Compound Word 1 Recurrence Preserving Surgery Selection Worried Compound Word 2 Anticancer Treatment Outpatient Compound Word 3 Body Burden
例文3)毎週の抗がん剤治療は外来で行われるので体に負担がかかる。
(簡素化複合語作成)
複合語1 抗がん剤 治療 外来 行う
複合語2 体 負担 かかる
Example sentence 3) Since weekly anticancer drug treatment is performed in an outpatient setting, it is burdensome to the body.
(Simplified compound word creation)
Compound word 1 Anticancer drug Treatment Outpatient Compound word 2 Body Burden
例文4)抗がん剤治療の副作用と通院が大変だった。
(簡素化複合語作成)
複合語1 抗がん剤 治療 副作用 通院 大変
Example sentence 4) The side effects and treatment of anticancer drug treatment were difficult.
(Simplified compound word creation)
Compound 1 Anticancer treatment Treatment Side effects Visit to hospital
例文5)通院による抗がん剤治療が悩むというよりつらかった。病院にいれば同病の人々と話すこともできるが、全身の毛が抜けた時にはショックだったし、その後生えてくるか不安だった。この不安を誰にわかってもらえるのかと思った。
(簡素化複合語作成)
複合語1 通院 抗がん剤 治療 悩む
複合語2 いう つらい
複合語3 病院 同病 人々 話す
複合語4 できる
複合語5 全身 毛 抜ける
複合語6 ショック 生える
複合語7 不安 わかる
Example 5) It was harder than anti-cancer drug treatment by the hospital. I could talk to people with the disease if I was in the hospital, but I was shocked when I lost my whole body hair, and I was worried if it would grow. I wondered who could understand this anxiety.
(Simplified compound word creation)
Compound Word 1 Visiting Anticancer Drug Treatment Annoying Compound Word 2 Annoying Compound Word 3 Hospital Syndrome People Speak Compound Word 4 Can Compound Word 5 Whole Body Hair Loss Compound Word 6 Shock Growing Compound Word 7 Anxiety Knowing
例文6)通院による抗がん剤治療がつらかった。入院していれば同病の人たちと話すこともできるが、全身の毛が抜けた時のショックやその後生えてくるのかという不安を、誰にわかってもらえるのかと思った。
(簡素化複合語作成)
複合語1 通院 抗がん剤 治療 つらい
複合語2 入院 同病 人 話す
複合語3 できる
複合語4 全身 毛 抜ける
複合語5 ショック 生える
複合語6 不安 わかる
Example 6) I was having difficulty with anticancer drug treatment at the hospital. If you are hospitalized, you can talk to people with the same illness, but I wondered if anyone could understand the shock when the whole body lost hair and the anxiety about whether it will grow later.
(Simplified compound word creation)
Compound Word 1 Visiting Anticancer Drug Treatment Hard Compound Word 2 Hospitalized Same Person Speak Compound Word 3 Can Compound Word 4 Whole Body Hair Drop Compound Word 5 Shock Grows Compound Word 6 Anxiety Understand
(5)単語のスコアの自動決定例
外来 使用頻度 81回 スコア 40
抗がん剤 使用頻度 2575回 スコア 40(特定語)
治療 使用頻度 109回 スコア 30
つらい 使用頻度 410回 スコア 30
(5) Example of automatic word score determination Outpatient frequency of use 81 times Score 40
Anticancer drug usage frequency 2575 times score 40 (specific term)
Treatment Frequency of use 109 times Score 30
Hard use frequency 410 times Score 30
(6)利用者が入力した日本語自由文の複合語作成
例文)抗がん剤治療を通院で行っているので、通院や待ち時間、治療の副作用などで体に負担がかかり、つらい。
(簡素化複合語作成)
複合語1 抗がん剤 治療 通院 行う
複合語2 通院 待ち時間 治療 副作用 体 負担 かかる
複合語3 つらい
(6) Creation of compound words in Japanese free sentences entered by the user Example) Since the treatment for anti-cancer drugs is performed at the hospital, it is difficult and painful for the body due to hospital visits, waiting time, and side effects of treatment.
(Simplified compound word creation)
Compound Word 1 Anticancer Agent Treatment Visit Compound Word 2 Visit Waiting Treatment Side Effect Body Burden Compound Word 3 Hard
(7)利用者が入力した日本語自由文の全複合語による検索
(6)に示した全複合語(抗がん剤、治療、通院、行う、通院、待ち時間、治療、副作用、体、負担、かかる、つらい)で検索する。
(7) Search with all compound words of Japanese free text entered by the user All compound words shown in (6) (anticancer drugs, treatment, visit, visit, visit, waiting time, treatment, side effects, body, Search by burden, cost, pain.
(8)利用者が入力した日本語自由文の個別複合語による検索
(6)に示した各複合語ごとにそれぞれ別個検索する。
複合語1 抗がん剤 治療 通院 行う
複合語2 通院 待ち時間 治療 副作用 体 負担 かかる
複合語3 つらい
(8) Retrieval by individual compound words of Japanese free sentences input by the user A separate search is performed for each compound word shown in (6).
Compound Word 1 Anticancer Agent Treatment Visit Compound Word 2 Visit Waiting Treatment Side Effect Body Burden Compound Word 3 Hard
(9)全複合語検索と個別複合語検索のスコアからトータルスコアを算出し順位付けする例
但し、各々の重みや単語スコアを調整するため、スコアの点数は流動的である。
(利用者が入力した日本語自由文)
抗がん剤治療を通院で行っているので、通院や待ち時間、治療の副作用などで体に負担がかかり、つらい。
(9) Example of calculating and ranking total score from scores of all compound word search and individual compound word search However, in order to adjust each weight and word score, the score score is fluid.
(Free Japanese text entered by the user)
Since anticancer drug treatment is performed in the hospital, it is difficult and painful for the body due to hospital visits, waiting time, and side effects of treatment.
(検索1位 トータルスコア:6655)
全複合語検索スコア+個別複合語検索スコア
(分類スコア:2430 原文スコア:1475 統合文スコア:2750)
大分類:外来
中分類:外来受診
小分類:外来治療
細分類:外来での抗がん剤治療がつらい。
原文 :再発したときは温存手術を選択したからかと悩み、毎週の抗がん剤治療は外来で行われるので体に負担がかかる。
統合文:毎週の抗がん剤治療は外来で行われるので体に負担がかかる。
(Search first place total score: 6655)
Total compound word search score + individual compound word search score (Classification score: 2430 Original sentence score: 1475 Integrated sentence score: 2750)
Major classification: Outpatient Medium classification: Outpatient consultation Small classification: Outpatient treatment Subcategory: Difficult to treat anticancer drugs in the outpatient department.
Original: When relapsed, I was worried that I had selected conservative surgery, and weekly anticancer drug treatment was performed outpatiently, which puts a burden on the body.
Integrated sentence: Weekly anticancer drug treatment is performed outpatiently, so it is burdensome to the body.
(検索2位 トータルスコア:6200)
全複合語検索スコア+個別複合語検索スコア
(分類スコア:410 原文スコア:950 統合文スコア:4840)
大分類:症状・副作用・後遺症
中分類:治療による副作用・後遺症
小分類:抗がん剤による副作用の症状
細分類:抗がん剤による脱毛
原文 :通院による抗がん剤治療が悩むというよりつらかった。病院にいれば同病の人々と話すこともできるが、全身の毛が抜けた時にはショックだったし、その後生えてくるか不安だった。この不安を誰にわかってもらえるのかと思った。
統合文:通院による抗がん剤治療がつらかった。入院していれば同病の人たちと話すこともできるが、全身の毛が抜けた時のショックやその後生えてくるのかという不安を、誰にわかってもらえるのかと思った。
(Search 2nd place total score: 6200)
Total compound word search score + individual compound word search score (Classification score: 410 Original sentence score: 950 Integrated sentence score: 4840)
Major classification: Symptoms, side effects, and sequelae Middle classification: Side effects and sequelae caused by treatment Subclassification: Symptoms of side effects caused by anticancer drugs Subclassification: Hair loss caused by anticancer drugs Original: More painful than worrying about anticancer drug treatment by hospital visits It was. I could talk to people with the disease if I was in the hospital, but I was shocked when I lost my whole body hair, and I was worried if it would grow. I wondered who could understand this anxiety.
Integrated text: Anticancer drug treatment by hospital was difficult. If you are hospitalized, you can talk to people with the same illness, but I wondered if anyone could understand the shock when the whole body lost hair and the anxiety about whether it will grow later.
(検索3位 トータルスコア:4970)
全複合語検索スコア+個別複合語検索スコア
(分類スコア:2430 原文スコア:900 統合文スコア:1640)
大分類:外来
中分類:外来受診
小分類:外来治療
細分類:外来での抗がん剤治療がつらい。
原文2 :抗がん剤治療の副作用と通院が大変だった。
統合文2:抗がん剤治療の副作用と通院が大変だった。
(Search 3rd place total score: 4970)
Total compound word search score + individual compound word search score (Classification score: 2430 Original sentence score: 900 Integrated sentence score: 1640)
Major classification: Outpatient Medium classification: Outpatient consultation Small classification: Outpatient treatment Subcategory: Difficult to treat anticancer drugs in the outpatient department.
Original 2: Anti-cancer drug side effects and hospital visits were difficult.
Integrated sentence 2: Side effects and visits to anticancer drugs were difficult.
100…検索システム
101…プロセッサ
103…プログラム格納部
104…同義語辞書
105…文章DB部
200…利用者端末
300…サンプル文章DB部
400…ネットワーク
1031…分類化プログラム
1032…統合化プログラム
1033…形態素解析プログラム
1034…係り受け解析プログラム
1035…複合語作成プログラム
1036…スコア(重み付け)指定プログラム
1037…類似文章検索プログラム
1038…出力プログラム
DESCRIPTION OF SYMBOLS 100 ... Search system 101 ... Processor 103 ... Program storage part 104 ... Synonym dictionary 105 ... Text DB part 200 ... User terminal 300 ... Sample text DB part 400 ... Network 1031 ... Classification program 1032 ... Integrated program 1033 ... Morphological analysis Program 1034 ... Dependency analysis program 1035 ... Compound word creation program 1036 ... Score (weighting) designation program 1037 ... Similar sentence search program 1038 ... Output program
Claims (6)
前記入力された文章を形態素解析して文節を判定すると共に各文節毎に係り受けを解析する解析過程と、
前記文節を出現順に並べ、動詞又は係り先のない文節が出現した場合に、当該動詞又は文節を含みそれ以前のすべての文節をグループとする複合語を作成する複合語作成過程と、
前記入力された文章に前記複合語を関連付けて文章データベースに記録する文章データベース記録過程と、
新たに任意の原文が入力された場合に、前記解析過程と前記複合語作成過程とを実行し、前記原文に対して得られた複合語をキーとして、前記文章データベースから前記キーとなる複合語を含む文章を検索する類似文章検索過程と、
前記検索された文章を出力する出力過程と
を有することを特徴とする類似文章検索プログラム。 A computer program that executes a process of searching for a sentence similar to an inputted sentence,
Analyzing process of analyzing the dependency for each phrase and determining the phrase by morphological analysis of the input sentence,
Arranging the clauses in the order of appearance, and when a verb or an unrelated clause appears, a compound word creating process for creating a compound word including all the clauses including and including the verb or clause; and
A sentence database recording process of associating the compound word with the input sentence and recording it in a sentence database;
When an arbitrary original sentence is newly input, the analysis process and the compound word creation process are executed, and the compound word that becomes the key from the sentence database with the compound word obtained for the original sentence as a key A similar sentence search process for searching sentences including
An output process for outputting the searched sentence. A similar sentence search program characterized by comprising:
前記複合語作成過程において、前記複合語に含まれる品詞のうち、所定の品詞を削除し及び/又は動詞の活用形を統一することを特徴とする類似文章検索プログラム。 The similar sentence search program according to claim 1,
A similar sentence search program characterized in that, in the compound word creation process, a predetermined part of speech is deleted from parts of speech included in the compound word and / or a verb utilization form is unified.
前記原文の複合語が複数個ある場合に、前記類似文章検索過程において、前記原文の複合語のすべてを持つ第1の文章と、前記原文の複合語のうち少なくとも1つを持つ第2の文章とを前記文章データベースからそれぞれ検索し、前記第1及び第2の文章とに所定の重み付けを付与することを特徴とする類似文章検索プログラム。 The similar sentence search program according to claim 1 or 2, wherein when there are a plurality of compound words of the original sentence, the first sentence having all of the compound words of the original sentence in the similar sentence search process, A similar sentence search program, wherein a second sentence having at least one of compound words is searched from the sentence database, and a predetermined weight is given to the first and second sentences.
前記入力された文章を所定のカテゴリーに分類し、同一のカテゴリー内に属する類似する前記文章を上位化した統合文章を作成する統合文章作成過程と、
得られた統合文章に対し、前記解析過程及び前記複合語作成過程とを実行して得られた複合語を、前記統合文章に関連付けて文章データベースに記録することを特徴とする統合文章管理過程とをさらに有し、
前記類似文章検索過程において、前記原文から得られた複合語をキーとして、前記文章データベースに記録された前記統合文章を検索することを特徴とする類似文章検索プログラム。 In the similar sentence search program as described in any one of Claim 1 to 3,
An integrated sentence creating process for classifying the inputted sentences into predetermined categories and creating an integrated sentence in which similar sentences belonging to the same category are upgraded;
An integrated sentence management process characterized in that a compound word obtained by executing the analysis process and the compound word creating process on the obtained integrated sentence is recorded in a sentence database in association with the integrated sentence; Further comprising
In the similar sentence search step, the integrated sentence recorded in the sentence database is searched using a compound word obtained from the original sentence as a key.
前記類似文章検索過程において、前記複合語に含まれる品詞に割当てられた重み付けに応じて検索結果に順位付けをすることを特徴とする類似文章検索プログラム。 The similar sentence search program according to any one of claims 1 to 4,
In the similar sentence search process, the similar sentence search program ranks the search results according to the weight assigned to the part of speech included in the compound word.
前記類似文章検索過程において、前記カテゴリーに割当てられた重み付けに応じて検索結果に順位付けをすることを特徴とする類似文章検索プログラム。 In the similar text search program according to claim 4 or 5,
In the similar sentence search process, the similar sentence search program ranks the search results according to the weight assigned to the category.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007046926A JP4838743B2 (en) | 2007-02-27 | 2007-02-27 | Similar text search program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007046926A JP4838743B2 (en) | 2007-02-27 | 2007-02-27 | Similar text search program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008210206A JP2008210206A (en) | 2008-09-11 |
JP4838743B2 true JP4838743B2 (en) | 2011-12-14 |
Family
ID=39786440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007046926A Expired - Fee Related JP4838743B2 (en) | 2007-02-27 | 2007-02-27 | Similar text search program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4838743B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2450805A4 (en) | 2009-06-26 | 2015-11-04 | Information search device, information search method, information search program, and storage medium on which information search program has been stored | |
JP6333084B2 (en) * | 2014-06-24 | 2018-05-30 | アコスティ株式会社 | Store trust system |
US9436676B1 (en) | 2014-11-25 | 2016-09-06 | Truthful Speaking, Inc. | Written word refinement system and method |
KR102342066B1 (en) | 2017-06-21 | 2021-12-22 | 삼성전자주식회사 | Method and apparatus for machine translation using neural network and method for learning the appartus |
JP6695538B1 (en) * | 2019-07-30 | 2020-05-20 | 株式会社ウェブサークル | Similar sentence retrieval device and program |
KR20210014949A (en) | 2019-07-31 | 2021-02-10 | 삼성전자주식회사 | Decoding method and apparatus in artificial neural network for speech recognition |
KR20210044559A (en) | 2019-10-15 | 2021-04-23 | 삼성전자주식회사 | Method and device for determining output token |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2732661B2 (en) * | 1989-04-28 | 1998-03-30 | 日本電信電話株式会社 | Text type database device |
JP2002163291A (en) * | 2000-11-29 | 2002-06-07 | Toshiba Corp | Similar document retrieving device and method, and recording recording medium |
JP2003167914A (en) * | 2001-11-30 | 2003-06-13 | Fujitsu Ltd | Multimedia information retrieving method, program, recording medium and system therefor |
-
2007
- 2007-02-27 JP JP2007046926A patent/JP4838743B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008210206A (en) | 2008-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nzali et al. | What patients can tell us: topic analysis for social media on breast cancer | |
Demner-Fushman et al. | Answering clinical questions with knowledge-based and statistical techniques | |
Palotti et al. | How users search and what they search for in the medical domain: understanding laypeople and experts through query logs | |
US7548910B1 (en) | System and method for retrieving scenario-specific documents | |
JP4838743B2 (en) | Similar text search program | |
EP1661031A1 (en) | System and method for processing text utilizing a suite of disambiguation techniques | |
Sarkar | A hybrid approach to extract keyphrases from medical documents | |
Zhu et al. | Improving health records search using multiple query expansion collections | |
Alami et al. | Arabic text summarization based on graph theory | |
Yaiprasert et al. | Artificial intelligence for target symptoms of Thai herbal medicine by web scraping | |
Sarkar | Using domain knowledge for text summarization in medical domain | |
KR101375221B1 (en) | A clinical process modeling and verification method | |
Ölçer et al. | Quality assessment of web-based information on type 2 diabetes | |
Xu et al. | Unsupervised method for automatic construction of a disease dictionary from a large free text collection | |
Palotti et al. | Exploiting health related features to infer user expertise in the medical domain | |
Harkema et al. | Information extraction from clinical records | |
Lang et al. | Increasing UMLS Coverage and Reducing Ambiguity via Automated Creation of Synonymous Terms: First Steps toward Filling UMLS Synonymy Gaps | |
Zweigenbaum et al. | The contribution of morphological knowledge to French MeSH mapping for information retrieval. | |
Morato et al. | Experiments in discourse analysis impact on information classification and retrieval algorithms | |
Maria et al. | A new model for Arabic multi-document text summarization | |
Meng et al. | Generating models of surgical procedures using UMLS concepts and multiple sequence alignment | |
Ribaldo et al. | Exploring the subtopic-based relationship map strategy for multi-document summarization | |
Riedl et al. | Using semantics for granularities of tokenization | |
Santini et al. | Designing an extensible domain-specific web corpus for “layfication”: A case study in ecare at home | |
Andrenucci | Automated Question-Answering Techniques and the Medical Domain. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090924 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110908 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110914 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110930 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141007 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |