JP6018932B2 - Example search device, example search method, and example search program - Google Patents

Example search device, example search method, and example search program Download PDF

Info

Publication number
JP6018932B2
JP6018932B2 JP2013010349A JP2013010349A JP6018932B2 JP 6018932 B2 JP6018932 B2 JP 6018932B2 JP 2013010349 A JP2013010349 A JP 2013010349A JP 2013010349 A JP2013010349 A JP 2013010349A JP 6018932 B2 JP6018932 B2 JP 6018932B2
Authority
JP
Japan
Prior art keywords
speech
sentence
word
unit
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013010349A
Other languages
Japanese (ja)
Other versions
JP2014142780A (en
Inventor
環美 大木
環美 大木
高志 末永
高志 末永
高木 徹
徹 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2013010349A priority Critical patent/JP6018932B2/en
Publication of JP2014142780A publication Critical patent/JP2014142780A/en
Application granted granted Critical
Publication of JP6018932B2 publication Critical patent/JP6018932B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書作成支援のための用例検索技術に関する。   The present invention relates to an example search technique for supporting document creation.

近年、オフショア開発が増加している。オフショア開発では、日本語が非母国語である現地の技術者が設計書の作成等を行う場合があり、非母国語話者の日本語における設計書作成支援が必要とされている。日本語に精通していない非母国語話者が設計書を日本語で作成する際、文法上の誤り(特に、日本語特有の“助詞”の使い方の誤り)が含まれる文書を作成してしまうリスクが高く、設計書の品質低下につながっている。日本語の文法に十分精通していない非母国語話者が文法上誤りのない文書を作成するための支援の一つとして、用例検索技術の利用が挙げられる。   In recent years, offshore development has increased. In offshore development, a local engineer whose Japanese is a non-native language may create a design document, etc., and a non-native speaker is required to support design document creation in Japanese. When a non-native speaker who is not familiar with Japanese creates a design document in Japanese, create a document that contains grammatical errors (especially errors in the use of “particles” specific to Japanese). This leads to a reduction in the quality of design documents. One example of support for non-native speakers who are not well-versed in Japanese grammar is to create documents that are grammatically correct.

従来の用例検索技術としては、文章を入力として用例を検索する技術と、単語を入力として用例を検索する技術がある。前者(文章を入力として検索)の例としては、例えば、特許文献1に記載の技術が存在する。特許文献1に記載の技術では、入力された文(検索キーワード文)を格解析し、検索キーワード文中の二つの自立語を含み、かつ同じ格関係を持つ文を優先的に結果表示する。しかし、この技術では、検索キーワード文と検索対象である検索文書内の文との格関係を照合するため、検索時に文法上正しい日本語を入力する必要がある。もし文法上誤りのある検索キーワード文を入力すると、文法上に誤りが含まれた用例が優先的に表示されてしまう。したがって、そもそも文法上正しい日本語を入力することが難しい非母国語話者である利用者が特許文献1に記載の検索技術を利用する場合、結局は、正しい日本語を検索することが難しいという問題がある。   Conventional example search techniques include a technique for searching examples using text as an input and a technique for searching examples using words as input. As an example of the former (searching with text as input), for example, there is a technique described in Patent Document 1. In the technique described in Patent Document 1, an input sentence (search keyword sentence) is case-analyzed, and a sentence including two independent words in the search keyword sentence and having the same case relation is preferentially displayed as a result. However, in this technique, it is necessary to input grammatically correct Japanese at the time of searching in order to collate the case relationship between the search keyword sentence and the sentence in the search document to be searched. If a search keyword sentence having a grammatical error is input, an example containing the grammatical error is preferentially displayed. Therefore, when a user who is a non-native speaker who is difficult to input grammatically correct Japanese in the first place uses the search technology described in Patent Document 1, it is difficult to search for correct Japanese after all. There's a problem.

一方、後者(単語を入力として検索)の場合、日本語の文法に精通していない利用者であっても正しい用例を検索することができるが、利用者の意図に沿わない用法を示す例文(以下、「用例」または「用例文」という。明細書を通じて同様。)が検索結果に含まれてしまうため、検索結果から所望の用例文を選択する際の利用者の負担が増大するという問題がある。具体的には例えば、「画面を遷移する」を採用すべきであるのか、「画面に遷移する」を採用すべきであるのか、利用者が疑問を持った場合、まず、「画面」と「遷移」という単語で検索を行う。結果には、例えば、「画面遷移」のような利用者が用法として所望しない例文も出力されてしまうため、利用者は検索結果から採用すべき例文を自分で選択しなければならない。   On the other hand, in the latter case (searching using words as input), even a user who is not familiar with Japanese grammar can search for a correct example, but an example sentence that shows a usage that does not conform to the user's intention ( Hereinafter, “example” or “example sentence” (the same applies throughout the specification) is included in the search result, which increases the burden on the user when selecting a desired example sentence from the search result. is there. Specifically, for example, if the user has doubts about whether to “transition screen” or “transition to screen” should be adopted, first, “screen” and “ Search by the word “transition”. In the result, for example, an example sentence that the user does not want to use is output, such as “screen transition”, and the user must select an example sentence to be adopted from the search result.

このような利用者の負担を軽減する技術としては、例えば、特許文献2に開示の技術が存在する。この技術では、格パターンを記憶した記憶部を予め保有し、入力された単語をキーとして、検索キー(または「検索キーワード」という場合もある。明細書を通じて同様。)が含まれる格パターンを利用者に表示して絞り込み選択を促す。そして、利用者が表示された格パターンに対して適切な格パターンを指定すると、検索システムはテキストデータベースから、指定された格パターンに合致する用例文を検索して抽出し、利用者に提示する。   As a technique for reducing such a burden on the user, there is a technique disclosed in Patent Document 2, for example. In this technique, a storage unit storing a case pattern is stored in advance, and a case pattern including a search key (or “search keyword” in some cases; the same applies throughout the specification) is used with an input word as a key. Displayed to the user and prompts for selection. When the user specifies an appropriate case pattern for the displayed case pattern, the search system searches the text database for example sentences that match the specified case pattern, and presents them to the user. .

特開平7−244669号公報Japanese Patent Laid-Open No. 7-244669 特開平9−81588号公報JP-A-9-81588

日本語文法に精通していない利用者が日本語用例文を検索するには単語ベースでの検索技術が有効である。しかしながら、検索結果を利用者が使いやすいように分類して表示するためには、特許文献2に開示の技術のように、単語毎の格パターン(意味素性)を検索システム側で予め保有しておく必要がある。しかし、格パターンを付与した辞書を作成する作業は実際には人間が行うのであり、大変な手間と労力がかかる。さらに、検索対象の用例文の中に格パターンが付与されていない単語が存在する場合には、その用例文を処理対象とすることができない。つまり、そのような用例文は分類ができないために結果表示に含めることができない。もし分類された用例文とは別に個別に表示する場合には、表示内容が雑多となり、利用者が検索結果の中から適切な用例文を抽出する手間が増加する、といった問題が生じる。さらに、検索時に利用者が格パターンを選択する必要があるため、文法を正しく理解していない利用者がこの検索技術を利用する場合、意図した検索結果を得ることが難しいという問題が生じてしまう。   A word-based search technique is effective for users who are not familiar with Japanese grammar to search Japanese example sentences. However, in order to classify and display the search results so that the user can easily use them, the search system side holds a case pattern (semantic feature) for each word as in the technique disclosed in Patent Document 2. It is necessary to keep. However, the work of creating a dictionary with a case pattern is actually performed by humans, which takes a lot of labor and effort. Furthermore, if there is a word without a case pattern in the example sentence to be searched, that example sentence cannot be processed. That is, such example sentences cannot be classified and cannot be included in the result display. If the example sentences are displayed separately from the classified example sentences, there is a problem in that the display contents are miscellaneous and the user has to extract troublesome examples from the search results. Furthermore, since it is necessary for the user to select a case pattern at the time of the search, when a user who does not understand the grammar correctly uses this search technology, there arises a problem that it is difficult to obtain an intended search result. .

また、上述した様々な問題は、設計書作成時のみならず、あらゆる書類の作成時における用例検索において発生しうる問題である。   The various problems described above are problems that can occur in example searches not only when creating a design document but also when creating all documents.

そこで、本発明は、上記課題を解決するために、より利用者の意図に合致した用例を容易に検索することが可能な用例検索技術を提供することを目的とする。   Accordingly, an object of the present invention is to provide an example search technique that can more easily search for an example that matches the user's intention in order to solve the above-described problems.

上記課題を解決するために、本発明の一態様は、用例文と、前記用例文を自動的に形態素解析した結果である形態素解析結果および自動的に構文構造解析した結果である構造解析結果とを関連付けて記憶する用例記憶部と、入力された単語に品詞を付与する品詞付与部と、品詞および単語の対応付けが前記入力された単語と同じ組み合わせとなる単語を含む前記用例記憶部に記憶された用例文を、前記入力された単語を含む名詞、助詞、動詞とその活用のパターンに基づき分類する処理部とを備えることを特徴とする用例検索装置である。   In order to solve the above problems, an embodiment of the present invention includes a sample sentence, a morpheme analysis result that is a result of automatically performing morphological analysis on the sample sentence, and a structure analysis result that is a result of automatically performing syntactic structure analysis. Are stored in the example storage unit that includes a word that has a combination of part of speech and a word that is the same combination as the input word. The example search apparatus includes a processing unit that classifies the input example sentences based on the nouns, particles, verbs including the input words, and patterns of their use.

また、本発明の他の態様は、用例文と、前記用例文を自動的に形態素解析した結果である形態素解析結果および自動的に構文構造解析した結果である構造解析結果とを関連付けて記憶する用例記憶部と、品詞付与部と、処理部とを備えるコンピュータ装置が実行する用例検索方法であって、前記品詞付与部が、入力された単語に品詞を付与するステップと、前記処理部が、品詞および単語の対応付けが前記入力された単語と同じ組み合わせとなる単語を含む前記用例記憶部に記憶された用例文を、前記入力された単語を含む名詞、助詞、動詞とその活用のパターンに基づき分類するステップとを含むことを特徴とする用例検索方法である。   In another aspect of the present invention, an example sentence, a morpheme analysis result that is a result of automatic morphological analysis of the example sentence and a structure analysis result that is a result of automatic syntactic structure analysis are stored in association with each other. An example search method executed by a computer device including an example storage unit, a part of speech giving unit, and a processing unit, wherein the part of speech giving unit gives a part of speech to an input word, and the processing unit Example sentences stored in the example storage unit including words whose word-of-speech and word correspondence are the same combination as the input word are used as nouns, particles, verbs including the input word, and patterns of their use. And a step of classifying based on the example search method.

また、本発明の他の態様は、用例文と、前記用例文を自動的に形態素解析した結果である形態素解析結果および自動的に構文構造解析した結果である構造解析結果とを関連付けて記憶する用例記憶部と、品詞付与部と、処理部とを備えるコンピュータ装置に、前記品詞付与部が、入力された単語に品詞を付与するステップと、前記処理部が、品詞および単語の対応付けが前記入力された単語と同じ組み合わせとなる単語を含む前記用例記憶部に記憶された用例文を、前記入力された単語を含む名詞、助詞、動詞とその活用のパターンに基づき分類するステップと、を実行させるための用例検索プログラムである。   In another aspect of the present invention, an example sentence, a morpheme analysis result that is a result of automatic morphological analysis of the example sentence and a structure analysis result that is a result of automatic syntactic structure analysis are stored in association with each other. A computer device comprising an example storage unit, a part-of-speech providing unit, and a processing unit, wherein the part-of-speech providing unit assigns a part-of-speech to an input word; Classifying example sentences stored in the example storage unit including words having the same combination as the input words based on nouns, particles, verbs including the input words, and patterns of their use. It is an example search program for making it happen.

本発明によれば、より利用者の意図に合致した用例を容易に検索することが可能である。   According to the present invention, it is possible to easily retrieve an example that matches the user's intention.

本発明の一実施形態に係る用例検索装置の構成の一例を示す図である。It is a figure which shows an example of a structure of the example search device which concerns on one Embodiment of this invention. 本発明の一実施形態に係る用例検索装置の全体的な処理の流れの一例を示すメインフロー図である。It is a main flowchart which shows an example of the flow of the whole process of the example search device which concerns on one Embodiment of this invention. 本発明の一実施形態に係る用例検索装置の品詞付与部での処理の流れの一例を示すフロー図である。It is a flowchart which shows an example of the flow of a process in the part of speech provision part of the example search apparatus which concerns on one Embodiment of this invention. キーワードの形態素に付与する品詞を決定するためのデータの一例を示す図である。It is a figure which shows an example of the data for determining the part of speech provided to the morpheme of a keyword. キーワードに付与する品詞を決定するためのデータの一例を示す図である。It is a figure which shows an example of the data for determining the part of speech provided to a keyword. 本発明の一実施形態に係る用例検索装置の用例文抽出部での処理の流れの一例を示すフロー図である。It is a flowchart which shows an example of the flow of a process in the example sentence extraction part of the example search device which concerns on one Embodiment of this invention. 本発明の一実施形態に係る用例検索装置の用例文分類部での処理の流れの一例を示すフロー図である。It is a flowchart which shows an example of the flow of a process in the example sentence classification | category part of the example search device which concerns on one Embodiment of this invention. 本発明の一実施形態に係る用例検索装置の用例文並び替え部での処理の流れの一例を示すフロー図である。It is a flowchart which shows an example of the flow of a process in the example sentence rearrangement part of the example search device which concerns on one Embodiment of this invention. 検索キーワードの品詞に応じて、優先して提示すべき用例文の品詞の優先順位を示すデータの一例を示す図である。It is a figure which shows an example of the data which show the priority of the part of speech of the example sentence which should be preferentially shown according to the part of speech of a search keyword. 本発明の一実施形態に係る用例検索装置の結果出力部での処理の流れの一例を示すフロー図である。It is a flowchart which shows an example of the flow of a process in the result output part of the example search device which concerns on one Embodiment of this invention.

以下、本発明の実施形態について説明する。本実施形態に係る用例検索装置は、様々な言語の単語(句、文などであってもよい。以下同様。なお、本実施形態においては、一例として、日本語の場合について説明する。)を検索キーとして用例データベース(DB)からキーとなる単語を含む用例文を抽出する。そして、検索キーを含む「名詞」「助詞」「動詞」「活用(語形変化)」の一部または全部の組み合わせごとに、抽出した用例文を分類して、利用者(以降、「ユーザ」という)に対して検索結果として表示すべき代表文を選定し、選定した代表文をディスプレイ等の出力装置に表示出力する。本実施形態に係る用例検索装置の特徴は、単語をキーとして用例文を抽出した後、単語ごとの格情報を用いることなく、抽出した用例文の中の検索キーの品詞を考慮する点である。日本語は基本的に、「名詞」「助詞」「動詞」「活用」から成り立っていることを利用し、本実施形態の用例検索装置は、検索キーと、同一で品詞が同じ単語を含み、かつその単語に対して係り受け関係にある「名詞」「助詞」「動詞」「活用」(以降、「4つ組」という)の一部または全部の組み合わせ(以下、略して「4つ組の組み合わせ」という)ごとに抽出結果を分類する。ユーザがこの4つ組の使い方の例を把握したい場合、格パターンで用例文を分類する必要はなく、品詞の役割に着目して用例文を分類することで、ユーザに日本語の用法文を提示する。   Hereinafter, embodiments of the present invention will be described. The example search apparatus according to the present embodiment may include words in various languages (phrases, sentences, etc. The same applies hereinafter. In the present embodiment, the case of Japanese will be described as an example). An example sentence including a key word is extracted from the example database (DB) as a search key. Then, the extracted example sentences are classified for each or all combinations of “noun”, “particle”, “verb”, and “utilization (inflection)” including the search key, and the user (hereinafter referred to as “user”). The representative sentence to be displayed as a search result is selected, and the selected representative sentence is displayed and output on an output device such as a display. The feature of the example search device according to the present embodiment is that, after extracting an example sentence using a word as a key, the part of speech of the search key in the extracted example sentence is considered without using case information for each word. . Japanese is basically composed of “noun”, “particle”, “verb”, and “utilization”, and the example search device of this embodiment includes a word that is the same as the search key and has the same part of speech, And a combination of some or all of the “noun”, “particle”, “verb”, “utilization” (hereinafter referred to as “quadruple”) that are in a dependency relationship with the word The extraction results are classified for each combination). If the user wants to understand examples of how to use these quadruples, there is no need to classify the example sentences by case patterns, but by classifying the example sentences by focusing on the role of part of speech, Present.

以下、図面を参照しながら、本実施形態に係る用例検索装置について詳述する。なお、以下の説明において参照する各図では、他の図と同等部分は同一符号によって示される。   Hereinafter, an example search device according to the present embodiment will be described in detail with reference to the drawings. In the drawings referred to in the following description, the same parts as those in the other drawings are denoted by the same reference numerals.

(用例検索装置の構成)
図1は、本実施形態に係る用例検索装置の構成の一例を示す図である。用例検索装置1は、入出力部102、品詞付与部104、用例文抽出部106、用例文分類部108、用例文並び替え部110、結果出力部112、および用例記憶部114を備える。
(Configuration of example search device)
FIG. 1 is a diagram illustrating an example of a configuration of an example search apparatus according to the present embodiment. The example search device 1 includes an input / output unit 102, a part-of-speech adding unit 104, a sample sentence extracting unit 106, a sample sentence classification unit 108, a sample sentence rearranging unit 110, a result output unit 112, and a sample storage unit 114.

入出力部102は、ユーザが入力装置を用いて入力する検索キーワード(単語・句等)を受け付ける。また、結果出力部112が出力する用例文の検索結果をモニタ等の出力装置30に出力する。   The input / output unit 102 accepts a search keyword (word / phrase) input by a user using an input device. Further, the search result of the example sentence output by the result output unit 112 is output to the output device 30 such as a monitor.

品詞付与部104は、ユーザの入力操作によって入力される検索キーワードに品詞を付与する。また、本実施形態においては、用例検索装置1は、形態素の条件と入力された単語に対して付与すべき品詞との対応関係を記憶した品詞情報記憶部116をさらに備え、品詞付与部104は、品詞情報記憶部116を参照して入力された単語に品詞を付与する。   The part-of-speech giving unit 104 gives part-of-speech to a search keyword input by a user input operation. In the present embodiment, the example search device 1 further includes a part-of-speech information storage unit 116 that stores a correspondence relationship between a morpheme condition and a part-of-speech to be assigned to an input word. The part of speech is given to the word input with reference to the part of speech information storage unit 116.

用例文抽出部106は、検索キーワードを含む用例文と、その用例文の形態素解析結果および構造解析結果である構文構造情報と、を用例記憶部114から抽出する。用例記憶部114には、用例文と、用例文の形態素解析結果と、用例文の構造解析結果とが関連付けて記憶されている。   The example sentence extraction unit 106 extracts, from the example storage unit 114, an example sentence including a search keyword and syntax structure information that is a morphological analysis result and a structure analysis result of the example sentence. The example storage unit 114 stores an example sentence, a morphological analysis result of the example sentence, and a structure analysis result of the example sentence in association with each other.

用例文分類部108は、用例文に含まれる検索キーワードについて、名詞、助詞、動詞、および活用の一部または全部の組み合わせを作成し、この組み合わせごとに用例文を用例グループに分類する。   The example sentence classification unit 108 creates a combination of nouns, particles, verbs, and some or all of the utilizations for the search keywords included in the example sentences, and classifies the example sentences into example groups for each combination.

用例文並び替え部110は、検索キーワードの品詞に応じて決定される名詞、助詞、動詞、または活用の優先順位に応じて、用例グループを大グループにグループ化する。   The example sentence rearranging unit 110 groups the example groups into large groups according to nouns, particles, verbs, or usage priority determined according to the part of speech of the search keyword.

結果出力部112は、検索結果の用例文を出力する。   The result output unit 112 outputs an example sentence of the search result.

なお、用例文抽出部106および用例文分類部108は、本発明における「処理部」に対応する。   The example sentence extraction unit 106 and the example sentence classification unit 108 correspond to the “processing unit” in the present invention.

なお、用例検索装置1は、図示しないCPU(Central Processing Unit)、RAM等のメモリ、ハードディスク等の記憶装置、ネットワークインターフェイス等の一般的なコンピュータの構成と同様の構成により実現することが可能である。また、用例検索装置1の各構成の機能は、例えば、CPUがハードディスク等に記憶されているプログラムを読み出して実行することにより、または、例えば、FPGA(Field Programmable Gate Array)においてシーケンサロジックをカスタム設計することに実現される機能である。また、各構成における処理にて用いられるデータは、用例検索装置1のハードディスクやRAM等に記憶されるデータである。   The example search device 1 can be realized by a configuration similar to that of a general computer such as a CPU (Central Processing Unit), a memory such as a RAM, a storage device such as a hard disk, a network interface, etc. (not shown). . The function of each component of the example search device 1 is, for example, when the CPU reads and executes a program stored in a hard disk or the like, or, for example, a custom design of sequencer logic in an FPGA (Field Programmable Gate Array) It is a function that is realized. The data used in the processing in each configuration is data stored in the hard disk or RAM of the example search device 1.

(用例検索方法の処理フロー)
以下、フロー図を用いて、本実施形態に係る用例検索装置における処理フローについて説明する。
(Processing flow of example search method)
Hereinafter, a processing flow in the example search device according to the present embodiment will be described with reference to a flowchart.

(メインフロー)
図2は、本実施形態の用例検索装置における全体的な処理の大まかな流れの一例を示すメインフロー図である。
(Main flow)
FIG. 2 is a main flow diagram showing an example of a rough flow of overall processing in the example search device of the present embodiment.

ユーザが用例文の検索をする際に、検索しようとするキーワード10をキーボード等の入力装置20を操作して入力すると、入出力部102は、このユーザによって入力された1つ以上のキーワード10の入力を受け付ける。   When the user searches for an example sentence, when the keyword 10 to be searched is input by operating the input device 20 such as a keyboard, the input / output unit 102 stores one or more keywords 10 input by the user. Accept input.

品詞付与部104が、入力されたキーワードに適切な品詞を付与する(ステップS10)。これと並列に、またはこの後に、用例文抽出部106が、入力されたキーワードをキーとして用例記憶部114を検索し、キーワードが含まれるような用例文を抽出する(ステップS20)。   The part-of-speech giving unit 104 gives an appropriate part-of-speech to the input keyword (step S10). In parallel with or after this, the example sentence extraction unit 106 searches the example storage unit 114 using the input keyword as a key, and extracts an example sentence that includes the keyword (step S20).

用例文分類部108が、ステップS20で抽出された用例文について検索キーワードにおける4つ組の組み合わせを作成し、作成した4つ組の組み合わせに基づいて、各用例文を用例グループに分類する(ステップS30)。そして、用例文並び替え部110が、ユーザに入力された検索キーワードの品詞に応じて、用例グループを大グループに分類する。そして、大グループ中で用例数の多い順に用例グループを並び替えるとともに、各大グループに含まれる用例グループ中において用例文の並び替えを行う(ステップS40)。最後に、並び替えた用例グループごとに用例文を抽出して、ユーザに用例検索結果として表示する(ステップS50)。   The example sentence classifying unit 108 creates a set of four combinations in the search keyword for the example sentence extracted in step S20, and classifies each example sentence into an example group based on the created combination of the four sets (step S30). Then, the example sentence rearranging unit 110 classifies the example group into a large group according to the part of speech of the search keyword input by the user. Then, the example groups are rearranged in descending order of the number of examples in the large group, and the example sentences are rearranged in the example groups included in each large group (step S40). Finally, an example sentence is extracted for each rearranged example group, and displayed as an example search result to the user (step S50).

以下、ステップS10〜S50の各ステップにおける処理の詳細について、フロー図を用いて説明する。
(ステップS10の処理フロー:品詞付与部の処理)
次に、図2のステップS10における処理の詳細について説明する。図2のステップS10は、品詞付与部104が実行する処理である。図3は、図2のステップS10における処理の詳細を示すフロー図である。
Hereinafter, the details of the processing in each step of Steps S10 to S50 will be described using a flowchart.
(Processing flow of step S10: Processing of part of speech giving unit)
Next, details of the processing in step S10 of FIG. 2 will be described. Step S10 in FIG. 2 is a process executed by the part of speech providing unit 104. FIG. 3 is a flowchart showing details of the processing in step S10 of FIG.

品詞付与部104は、ユーザによって入力された1つ以上のキーワード10を含む入力リスト(入力リストAとする)を入出力部102から受け付け、この入力リストAから、1つのキーワードを抽出する(ステップS101)。キーワードは、単語、句、文であってよい。また、単語間の区切りとしては、カンマ、句点やスペース等の予め定めた記号を使えばよい。実施例ではスペースを単語間の区切りとして用いる例を示す。なお、以降の説明において、「入力リスト」とは、以下に説明する用例検索装置1の各構成が受け付ける1つまたは複数の入力データの集合を意味する。   The part-of-speech providing unit 104 receives an input list (referred to as input list A) including one or more keywords 10 input by the user from the input / output unit 102, and extracts one keyword from the input list A (step) S101). A keyword may be a word, a phrase, or a sentence. Further, as a delimiter between words, a predetermined symbol such as a comma, a punctuation mark or a space may be used. The embodiment shows an example in which a space is used as a break between words. In the following description, the “input list” means a set of one or more input data received by each component of the example search device 1 described below.

ステップS101で抽出したキーワードに対して、既存の形態素解析エンジンを用いて形態素解析を行う(ステップS102)。形態素解析の結果から1つの形態素を抽出する(ステップS103)。   A morphological analysis is performed on the keywords extracted in step S101 using an existing morphological analysis engine (step S102). One morpheme is extracted from the result of morpheme analysis (step S103).

ステップS103で取得した形態素が、図4に示される表1の条件のいずれに合致するか、表1の上位の条件(レコード)から順に判定する(ステップS104)。ここで、表1は、形態素解析して抽出したキーワードの形態素に対して付与すべき品詞の条件を示すデータであって、例えば品詞情報記憶部116に記憶されるデータである。表1のデータは、具体的には例えば、データベース等の形式にて用例検索装置1のハードディスク等の記憶装置に記憶される。   Whether the morpheme acquired in step S103 matches any of the conditions in Table 1 shown in FIG. 4 is determined in order from the higher condition (record) in Table 1 (step S104). Here, Table 1 is data indicating a part-of-speech condition to be given to a keyword morpheme extracted by morphological analysis, and is data stored in the part-of-speech information storage unit 116, for example. Specifically, the data in Table 1 is stored in a storage device such as a hard disk of the example search device 1 in a format such as a database.

処理対象ドキュメントの性質により単語の使われ方が異なる場合があるため、処理対象ドキュメントの性質に合わせた品詞情報記憶部を用いて検索キーワードに付与された品詞を変更(形態素解析で付与された品詞を修正)する処理を追加することにより用例検索時に、より有用な用例文を提示することができる(形態素解析で付与された品詞をそのまま用いても良い)。   Because words may be used differently depending on the nature of the target document, the part of speech assigned to the search keyword is changed using the part of speech information storage unit that matches the nature of the target document (part of speech given by morphological analysis) By adding a process that corrects), it is possible to present more useful example sentences at the time of example search (the part of speech given in the morphological analysis may be used as it is).

品詞情報記憶部116を用いる理由としては、たとえば、設計書の場合には体言止めの表現が多用されることがある。具体例としては、「表示」という単語は「○○を表示する」よりも「○○を表示」という形式で使われることが一般である。「○○を表示」という表現を形態素解析すると、「表示」に付与される品詞は名詞となる。表示の品詞を”名詞”のまま後述の4つ組を抽出するよりも、表示の品詞を”動詞”とみなして、目的語(名詞)と表示(動詞)に着目して後述の4つ組と捉えた方が、本技術を用いて目的語である”○○(名詞)”と体言止めとなっている”表示”との間の助詞のパターンを適切に抽出することができる。そこで、処理対象のドキュメントが設計書である場合、形態素解析での品詞付与結果以外の品詞を付与したい規則や単語を品詞情報記憶部116にあらかじめ記憶しておき、単純に形態素解析を行った結果とは異なる品詞を検索キーワードに付与できるような構成を追加することで、有効な用例文の抽出能力を向上させることができる。   As a reason for using the part-of-speech information storage unit 116, for example, in the case of a design document, the expression of a body stop is often used. As a specific example, the word “display” is generally used in the form of “display XX” rather than “display XX”. When morphological analysis is performed on the expression “display XX”, the part of speech given to “display” becomes a noun. Rather than extracting the quaternary set described later with the displayed part of speech as "noun", the displayed POS is regarded as a "verb" and focusing on the object (noun) and display (verb) Can use this technique to appropriately extract the particle pattern between the object “XX (noun)” and the “indication” that is the body stop. Therefore, when the document to be processed is a design document, a rule or word to be given a part of speech other than the part of speech assignment result in morphological analysis is stored in advance in the part of speech information storage unit 116, and the result of simple morphological analysis The ability to extract effective example sentences can be improved by adding a configuration that allows a part of speech different from that to be given to a search keyword.

図3に戻り、表1に合致する条件がない場合には、ステップS103の形態素解析で得た品詞をそのまま処理対象の形態素に付与する(ステップS105)。合致する条件があった場合は、表1の合致条件に対応する品詞を処理対象の形態素に付与する(ステップS106)。   Returning to FIG. 3, if there is no condition that matches Table 1, the part of speech obtained by the morphological analysis in step S103 is directly applied to the morpheme to be processed (step S105). If there is a matching condition, the part of speech corresponding to the matching condition in Table 1 is assigned to the morpheme to be processed (step S106).

ステップS102で得た形態素の中で未処理の形態素がある場合は(ステップS107:No)、ステップS103に戻る。すべての形態素が処理済の場合(ステップS107:Yes)、処理対象のキーワードの品詞が、図5に示される表2の条件に合致するか否かを、表2の上位の条件(レコード)から順に判定する(ステップS108)。ここで、表2は、キーワードに対して付与すべき品詞の条件を示すデータであって、例えば品詞情報記憶部116に記憶されるデータである。表2のデータは、具体的には例えば、データベース等の形式にて用例検索装置1のハードディスク等の記憶装置に記憶される。   When there is an unprocessed morpheme among the morphemes obtained in step S102 (step S107: No), the process returns to step S103. If all the morphemes have been processed (step S107: Yes), whether or not the part-of-speech of the keyword to be processed matches the conditions in Table 2 shown in FIG. The determination is made in order (step S108). Here, Table 2 is data indicating a part-of-speech condition to be given to a keyword, and is data stored in the part-of-speech information storage unit 116, for example. Specifically, the data in Table 2 is stored in a storage device such as a hard disk of the example search device 1 in a format such as a database.

表2に合致する条件がない場合は、ステップS103〜S107の処理において形態素に付与した品詞を、そのまま処理対象のキーワードに付与する。この時、キーワードが句や文である場合は、単語ごとの品詞を“+”で連結して付与する(ステップS109)。合致する条件がある場合は、表2の合致条件に対応する品詞を処理対象のキーワードに付与する。この時、キーワードが句や文の場合は、キーワードに含まれる単語ごとに表2を参照して品詞を決定し、これらの品詞を“+”で連結して付与する(ステップS110)。   If there is no condition that matches Table 2, the part of speech given to the morpheme in the processing of steps S103 to S107 is given to the keyword to be processed as it is. At this time, if the keyword is a phrase or a sentence, the part of speech for each word is concatenated with “+” (step S109). If there is a matching condition, the part of speech corresponding to the matching condition in Table 2 is assigned to the keyword to be processed. At this time, if the keyword is a phrase or a sentence, the part of speech is determined with reference to Table 2 for each word included in the keyword, and these parts of speech are concatenated with “+” (step S110).

最後に、入力リストAの中で、未処理のキーワードがあるか否かを判定する(ステップS111)。未処理のキーワードがある場合は、ステップS101に戻る。すべてのキーワードが処理済の場合は、用例文分類部108に品詞情報が付与された入力リストAを受け渡して処理を終了する。   Finally, it is determined whether or not there is an unprocessed keyword in the input list A (step S111). If there is an unprocessed keyword, the process returns to step S101. When all the keywords have been processed, the input example list A to which the part-of-speech information is assigned is transferred to the example sentence classifying unit 108, and the process ends.

ここで、未処理のキーワードがあるか否かを判定する方法としては、例えば、入力リストAを受け取った時点で区切り情報(本例ではスペース)をもとにリスト内のキーワードの総数を求めておく(例えば、リストの中にスペースがN個あったら単語の数はN+1個となる)。また、入力個数(処理したキーワードの個数)を記憶するカウンタ(初期値=0)を設けておく。ステップS101で入力リストAの一端から順に、「カウンタの数+1」個目のキーワードを取り出し、キーワードを取り出した後にカウンタの数を1つ増やす。ステップS103において、このカウンタの数が、入力リストA内のキーワードの総数未満の場合、未処理のキーワードがあると判定する。   Here, as a method for determining whether or not there is an unprocessed keyword, for example, when the input list A is received, the total number of keywords in the list is obtained based on delimiter information (space in this example). (For example, if there are N spaces in the list, the number of words is N + 1). In addition, a counter (initial value = 0) for storing the input number (the number of processed keywords) is provided. In step S101, the “number of counters + 1” -th keyword is extracted in order from one end of the input list A, and after the keyword is extracted, the number of counters is incremented by one. In step S103, if the number of counters is less than the total number of keywords in the input list A, it is determined that there are unprocessed keywords.

例えば、品詞付与部104が、入力リストAとして「画面 表示」(スペースを単語の区切りとする)というキーワードを受け付けたとすると、「画面(名詞) 表示(動詞)」というようにそれぞれの単語に品詞が付与される。また、別の例として、入力リストAとして「画面に 表示する」(スペースを単語の区切りとした例)というキーワードを受け付けたとすると、「画面に(名詞+助詞) 表示する(動詞)」という具合に品詞が付与される。   For example, if the part-of-speech assigning unit 104 accepts a keyword “screen display” (with a space as a word break) as the input list A, each part of speech is displayed as “screen (noun) display (verb)”. Is granted. As another example, if the keyword “display on the screen” (example using a space as a word break) is accepted as the input list A, the condition is “display (noun + particle) (verb)”. Is given a part of speech.

(ステップS20の処理フロー:用例文抽出部の処理)
次に、図2のステップS20における処理の詳細について説明する。図2のステップS20は、用例文抽出部106が実行する処理である。図6は、図2のステップS20における処理の詳細を示すフロー図である。
(Processing flow of step S20: processing of example sentence extracting unit)
Next, details of the processing in step S20 of FIG. 2 will be described. Step S20 in FIG. 2 is a process executed by the example sentence extracting unit 106. FIG. 6 is a flowchart showing details of the process in step S20 of FIG.

用例文抽出部106は、品詞付与部104と同様に、ユーザによって入力された1つ以上のキーワード10を含む入力リストAを入出力部102から受け付ける。キーワードは、単語、句、文であってよい。また、本例ではスペースを単語間の区切りとする。そして、入力リストAに含まれるキーワードをすべて含む用例文を用例記憶部114から検索する(ステップS201)。   Similar to the part-of-speech providing unit 104, the example sentence extracting unit 106 receives from the input / output unit 102 an input list A including one or more keywords 10 input by the user. A keyword may be a word, a phrase, or a sentence. In this example, a space is used as a break between words. Then, the example storage unit 114 is searched for example sentences including all the keywords included in the input list A (step S201).

ここで、用例記憶部114は、用例文と、付加情報(形態素解析結果および構文構造情報)とを関連づけて記憶する。より具体的には、例えば、データベース等のデータ形式でデータを保持するハードディスク等の記憶装置に設けられる記憶領域である。また、用例記憶部114に記憶されるデータは、(文法上正しい)手本となる日本語の書類等を既存の形態素解析エンジンを用いて形態素解析した結果と構文構造解析を用いて構文解析した結果に対して、表1(図4)および表2(図5)の規則に基づいて品詞付与したものを、自動的に登録したものであってもよい。既存の形態素解析および構文構造解析エンジンによって自動で解析した結果を自動登録することで、手間がかからずデータを準備することができる。また、用例記憶部114にデータを事前準備する際は、用例検索装置1のユーザが作成しようとしている書類と同種類の書類を形態素解析してデータ登録を行うとより好適である。例えば、ユーザが(日本語ネイティブが記載した)基本設計書に基づく詳細設計書を作成しようとする場合には、この基本設計書やこれに付随する書類を事前に形態素解析および構文構造解析して用例記憶部114に記憶しておくことで、対象とする分野が同じであることにより、ユーザの希望に合致する用例文が抽出される可能性が高くなる。   Here, the example storage unit 114 stores an example sentence and additional information (morpheme analysis result and syntax structure information) in association with each other. More specifically, it is a storage area provided in a storage device such as a hard disk that holds data in a data format such as a database. In addition, the data stored in the example storage unit 114 was parsed using a result of morphological analysis of a Japanese document or the like (grammatically correct) using an existing morphological analysis engine and syntactic structure analysis. The result may be automatically registered with the part of speech given based on the rules of Table 1 (FIG. 4) and Table 2 (FIG. 5). By automatically registering the result automatically analyzed by the existing morphological analysis and syntax structure analysis engine, it is possible to prepare data without taking time and effort. Further, when preparing data in the example storage unit 114 in advance, it is more preferable to perform data registration by performing morphological analysis on a document of the same type as the document to be created by the user of the example search apparatus 1. For example, when a user intends to create a detailed design document based on a basic design document (described by a Japanese native), the basic design document and its accompanying documents are analyzed in advance by morphological analysis and syntactic structure analysis. By storing the example in the example storage unit 114, it is highly possible that an example sentence that matches the user's wish is extracted because the target fields are the same.

図6に戻り、該当する用例文が用例記憶部114に存在しない場合は(ステップS202:No)、ユーザが視認している画面に該当の用例文がない旨をメッセージで表示する(ステップS204)。該当の用例文がある場合は(ステップS202:Yes)、検索結果から用例文と付加情報(形態素解析結果および構文構造情報)とを取得する(ステップS203)。取得後、用例文と付加情報とを、用例文分類部108に受け渡して処理を終了する。   Returning to FIG. 6, when the corresponding example sentence does not exist in the example storage unit 114 (step S202: No), a message indicating that there is no corresponding example sentence on the screen viewed by the user is displayed (step S204). . If there is a corresponding example sentence (step S202: Yes), the example sentence and additional information (morpheme analysis result and syntax structure information) are acquired from the search result (step S203). After the acquisition, the example sentence and the additional information are transferred to the example sentence classification unit 108, and the process is terminated.

以下、具体例を示す。例えば、前述の例と同様に、用例文抽出部106がキーワード10として、「画面 表示」を受け付けたとする。用例文抽出部106は、これらのキーワードを含む用例文を、用例記憶部114を検索して抽出する。例えば、以下のような用例文を抽出したとする。
用例文:「以下の情報をユーザが視認するディスプレイ画面に表示する」
Specific examples are shown below. For example, it is assumed that the example sentence extracting unit 106 receives “screen display” as the keyword 10 as in the above example. The example sentence extraction unit 106 searches the example storage unit 114 to extract example sentences including these keywords. For example, assume that the following example sentences are extracted.
Example sentence: “Display the following information on the display screen that the user can see”

また、用例文抽出部106は、用例記憶部114においてこの用例文に関連付けられている以下のような付加情報を取得する。   Further, the example sentence extracting unit 106 acquires the following additional information associated with the example sentence in the example storage unit 114.

(付加情報の形態)
係り受け情報内に各文節の単語・品詞・開始位置・文字数の情報が付与されている。つまり、以下のようになっている。(単語情報がある場合には、アンダーバー“ _ ”を区切り文字として連結する。)
(係り元の)文節番号:単語情報:品詞情報:開始位置:文字数=>(係り先の)文節番号:単語情報:品詞情報:開始位置:文字数
(Form of additional information)
Information on the word, part of speech, start position, and number of characters of each phrase is given in the dependency information. That is, it is as follows. (If there is word information, the underscore “_” is connected as a delimiter.)
(Relationship source) clause number: Word information: Part of speech information: Start position: Number of characters => (Relationship destination) clause number: Word information: Part of speech information: Start position: Number of characters

(付加情報)
0:以下-+の:名詞+助詞:1-3=>1:情報-+を:名詞+助詞:4-3 1:情報-+を:名詞+助詞:4-3=>3:視認-する:動詞-基本形-する:11-4 2:ユーザ-+が:名詞+助詞:7-3:視認-する:動詞-基本形-する:11-4 3:視認-する:動詞-基本形-する:11-4=>4:ディスプレイ-画面-+に:名詞+助詞:15-9 4:ディスプレイ-画面-+に:名詞+助詞:15-9=> 5:表示-する:動詞-基本形-する:24-4
(Additional information)
0: Below-+: Noun + particle: 1-3 => 1: Information-+: Noun + particle: 4-3 1: Information-+: Noun + particle: 4-3 => 3: Visual Yes: Verb-basic form-Yes: 11-4 2: User-+: Noun + particle: 7-3: Visibility-To do: Verb-Basic form-To: 11-4 3: Visibility-Yes: Verb-Basic form-To : 11-4 => 4: display-screen- +: noun + particle: 15-9 4: display-screen- +: noun + particle: 15-9 => 5: display-verify: verb-basic form- Yes: 24-4

この付加情報の例では、あらかじめ準備された用例文を形態素解析および構文構造解析して、各単語もしくは句に品詞と開始位置、文字の長さを付与している。さらに、係り受けの関係にある単語や句のペアを“ => ”で連結したものである。なお、本例の付加情報はあくまで一例であり、他の表現方法を採用しても構わない。   In this example of additional information, a prepared example sentence is subjected to morphological analysis and syntax structure analysis, and a part of speech, a start position, and a character length are given to each word or phrase. Furthermore, a pair of words or phrases having a dependency relationship is connected by “=>”. Note that the additional information in this example is merely an example, and other expression methods may be adopted.

(ステップS30の処理フロー:用例文分類部の処理)
次に、図2のステップS30における処理の詳細について説明する。図2のステップS30は、用例文分類部108が実行する処理である。図7は、図2のステップS30における処理の詳細を示すフロー図である。
(Processing flow of step S30: processing of example sentence classification unit)
Next, details of the process in step S30 of FIG. 2 will be described. Step S30 in FIG. 2 is a process executed by the example sentence classification unit 108. FIG. 7 is a flowchart showing details of the process in step S30 of FIG.

用例文分類部108は、1つ以上のキーワード10、品詞付与部104で得た各キーワードの品詞、および用例文抽出部106で得た用例文とその付加情報を含む入力リスト(入力リストCとする)を受け付ける。そして、入力リストCから1つの用例文を抽出する(ステップS301)。次に、抽出した用例文の付加情報の単語情報とキーワードとを照合する(ステップS302)。すなわち、付加情報の単語・句にキーワードが含まれているかを判定する。含まれていなければ(ステップS303:No)、ステップS301に戻る(ステップS303)。   The example sentence classification unit 108 includes one or more keywords 10, part of speech of each keyword obtained by the part of speech adding unit 104, an example sentence obtained by the example sentence extracting unit 106 and its additional information (input list C and Accept). Then, one example sentence is extracted from the input list C (step S301). Next, the word information of the additional information of the extracted example sentence and the keyword are collated (step S302). That is, it is determined whether a keyword is included in the word / phrase of the additional information. If not included (step S303: No), the process returns to step S301 (step S303).

付加情報の単語情報にキーワードが含まれている場合は(ステップS303:Yes)、ステップS303で得た付加情報の単語情報の品詞と検索キーワードの品詞とを照合する(ステップS304)。キーワードの品詞と、ステップS303で得た付加情報内の単語情報の品詞が同じかであるかを判定する(ステップS305)。品詞が同じでない場合には、用例グループ「そのほか」に分類して(ステップS306)、ステップS301に戻る。
品詞が同じである場合には、対象のキーワードを含む、このキーワードについての4つ組(「名詞」「助詞」「動詞」「活用」)の(一部または全部の)組み合わせすべてを作成する(具体的には、4つ組の組み合わせを抽出する)(ステップS307)。なお、4つ組の組み合わせは、付加情報の係り受け情報と品詞情報から抽出することができる。
When the keyword is included in the word information of the additional information (step S303: Yes), the part of speech of the word information of the additional information obtained in step S303 is compared with the part of speech of the search keyword (step S304). It is determined whether the part of speech of the keyword and the part of speech of the word information in the additional information obtained in step S303 are the same (step S305). If the parts of speech are not the same, the example group “others” is classified (step S306), and the process returns to step S301.
If the part of speech is the same, create all (partially or all) combinations of the four pairs (“noun”, “particle”, “verb”, “utilization”) for this keyword, including the keyword of interest ( Specifically, a combination of four is extracted) (step S307). The combination of the four sets can be extracted from the dependency information of the additional information and the part of speech information.

例えば、キーワードとして、「画面 表示」を受け付け、「画面」には名詞、「表示」
には動詞の品詞が付与されている場合を例に説明する。上述した“一部または全部の(組み合わせ)”とは、キーワードの一部のみの場合、つまり
(A)「画面(名詞)」のみの場合、
(B)「表示(動詞)」のみの場合、
そして、キーワードすべて、つまり(C)「画面(名詞)」と「表示(動詞)」の双方がそろっている場合、
を示す。
For example, “screen display” is accepted as a keyword, and “screen” is a noun, “display”
A case where the part of speech of the verb is given will be described as an example. The “part or all (combination)” mentioned above is only a part of a keyword, that is, (A) “screen (noun)” only,
(B) In the case of “display (verb)” only,
And if you have all the keywords, that is, (C) both “screen (noun)” and “display (verb)”,
Indicates.

また、上述した“組み合わせすべてを作成する”とは、上記例での(A)、(B)、(C)のそれぞれに対して4つ組を抽出することを示している。例えば、(A)については、「画面(名詞)」を手掛かりとして、用例文の中からこの「画面(名詞)」に付随する「助詞」と、「画面(名詞)」の係り先である「動詞」とその「活用」を抽出して、「画面(名詞)」とあわせて4つ組とする。   Further, “create all combinations” described above indicates that four sets are extracted for each of (A), (B), and (C) in the above example. For example, for (A), “screen (noun)” is used as a clue, and “participant” associated with this “screen (noun)” and “screen (noun)” in the example sentence are related to “screen (noun)”. “Verb” and its “utilization” are extracted and combined with “screen (noun)” into a set of four.

(B)についても、「表示(動詞)」を手掛かりとして、その「活用」と、「表示(動詞)」の係り元である「名詞」およびその「助詞」を抽出して4つ組とする。   Also for (B), using “indication (verb)” as a clue, extract “noun” and its “participant” that are related to “use” and “indication (verb)” into four sets .

(C)については、「画面(名詞)」の係り先が、「表示(動詞)」である係り受け関係を抽出し、「画面(名詞)」に付随する「助詞」と「表示(動詞)」の「活用」を抽出して「画面(名詞)」および「表示(動詞)」とあわせて4つ組とする。なお、キーワードが2つ以上の場合は、(C)が優先的に取得される。(キーワードが1つの場合にはキーワードの品詞に応じて(A)もしくは(B)を実施、キーワードが2つの場合には(C)を実施、3つ以上の場合にはキーワードの中から2つを選び出すすべての組み合わせに対して順次(C)を実施する。)
図7に戻り、ステップS308以降の処理では、ステップS307で作成した4つ組の同一の組み合わせごとに用例文を分類するための用例グループを作成する処理を行う。
For (C), the dependency relationship of “screen (noun)” is “display (verb)”, and the “particle” and “display (verb) associated with“ screen (noun) ”are extracted. The “utilization” of “” is extracted and combined with “screen (noun)” and “display (verb)” to form a set of four. When there are two or more keywords, (C) is acquired preferentially. (If there is one keyword, (A) or (B) will be implemented according to the part of speech of the keyword. If there are two keywords, (C) will be implemented. (Sequentially execute (C) for all combinations selected.)
Returning to FIG. 7, in the processing after step S308, processing for creating an example group for classifying example sentences for each of the same four combinations created in step S307 is performed.

まず、ステップS307で作成された4つ組の組み合わせがすでに用例グループに存在するか(つまり、この4つ組の組み合わせを分類するための用例グループが作成済みであるか)判定する(ステップS308)。この4つ組の組み合わせを分類するための用例グループが存在しない場合には、新たにこの用例グループを作成して、作成した用例グループに処理対象の用例文を格納する(ステップS309)。この4つ組の組み合わせを分類するための用例グループがすでに存在する場合には、その既存の用例グループに処理対象の用例文を格納する(ステップS310)。   First, it is determined whether the combination of the four sets created in step S307 already exists in the example group (that is, whether an example group for classifying the combination of the four sets has been created) (step S308). . If there is no example group for classifying the combination of the four sets, this example group is newly created, and the example sentence to be processed is stored in the created example group (step S309). If an example group for classifying the combination of the four sets already exists, the example sentence to be processed is stored in the existing example group (step S310).

入力リストCの中で未処理の用例文があるか否かを判定する(ステップS311)。未処理の用例文がある場合はステップS301に戻る。すべての用例文が処理済みである場合は、本フローによる分類結果を用例文並び替え部110に受け渡して処理を終了する。   It is determined whether there is an unprocessed example sentence in the input list C (step S311). If there is an unprocessed example sentence, the process returns to step S301. If all the example sentences have been processed, the classification result by this flow is transferred to the example sentence rearranging unit 110, and the process is terminated.

以下、用例文抽出部106の説明で述べた具体例に続けて、用例文分類部108における処理の具体例を示す。例えば、用例文分類部108が、以下の内容の入力リストCを受け付けたとする。   Hereinafter, a specific example of processing in the example sentence classification unit 108 will be described following the specific example described in the explanation of the example sentence extraction unit 106. For example, it is assumed that the example sentence classification unit 108 receives an input list C having the following contents.

[入力リストC]
キーワード(品詞):「画面(名詞)」「表示(動詞)」
用例文(検索結果5つ):
[Input list C]
Keywords (parts of speech): "screen (noun)""display(verb)"
Example sentences (5 search results):

用例文(1)
(用例文)電子決裁画面を別画面で表示する
(付加情報)
0:電子-決済-画面-+を:電子決済画面を:名詞+助詞:1-7=>2:表示-する:表示する:動詞-基本形-する:12-4 1:別-画面-+で:別画面で:名詞+助詞:8-4=>2:表示-する:表示する:動詞-基本形-する:12-4
Example sentences (1)
(Example sentence) Display the electronic approval screen on a separate screen (additional information)
0: e-payment-screen- +: e-payment screen: noun + particle: 1-7 => 2: display-display: display: verb-basic-form: 12-4 1: separate-screen- + In: In another screen: Noun + particle: 8-4 => 2: Display-display: Display: verb-basic-select: 12-4

用例文(2)
(用例文)画面IDより、次画面に表示するボタンタイプを設定する
(付加情報)
0:画面-ID-+より:画面IDより:名詞+助詞:1-6=>4:設定-する:設定する:動詞-基本形-する:23-4 1:次-画面-+に:次画面に:名詞+助詞:8-4=>2:表示-する:表示する:動詞-基本形-する:12-4 2:表示-する:表示する:動詞-基本形-する:12-4=>3:ボタン-タイプ-+を:ボタンタイプを:名詞+助詞:16-7 3:ボタン-タイプ-+を:ボタンタイプを:名詞+助詞:16-7=>4:設定-する:設定する:動詞-基本形-する:23-4
Example sentences (2)
(Example sentence) Set the button type to be displayed on the next screen from the screen ID (additional information)
0: From screen-ID- +: From screen ID: Noun + particle: 1-6 => 4: Setting-setting: Setting: Verb-basic form-: 23-4 1: Next-screen- +: Next On the screen: noun + particle: 8-4 => 2: display-do: display: verb-basic form-do: 12-4 2: display-do: display: verb-basic form-do: 12-4 => 3: button-type- +: button type: noun + particle: 16-7 3: button-type- +: button type: noun + particle: 16-7 => 4: set-set: set : Verb-basic form-to: 23-4

用例文(3)
(用例文)以下の情報を画面に表示する
(付加情報)
0:以下-+の:以下の:名詞+助詞:1-3=>1:情報-+を:情報を:名詞+助詞:4-3 1:情報-+を:情報を:名詞+助詞:4-3=>3:表示-する:表示する:動詞-基本形-する:10-4 2:画面-+に:画面に:名詞+助詞:7-3=>3:表示-する:表示する:動詞-基本形-する:10-4
Example sentences (3)
(Example sentence) Display the following information on the screen (additional information)
0: below- +: below: noun + particle: 1-3 => 1: info- +: info: noun + particle: 4-3 1: info- +: info: noun + particle: 4-3 => 3: display-display: display: verb-basic form-select: 10-4 2: screen- +: on screen: noun + particle: 7-3 => 3: display-display: display : Verb-Basic form-To: 10-4

用例文(4)
(用例文)カレンダー画面で、予定に入力した勤務パターンを表示
(付加情報)
0:カレンダー-画面-+で:カレンダー画面で:名詞+助詞:1-8=>4:表示:表示:動詞-サ変形-表示:23-2 1:予定-+に:予定に:名詞+助詞:9-3=>2:入力-する-た:入力した:動詞-連用形_基本形-した:12-4 2:入力-する-た:入力した:動詞-連用形_基本形-した:12-4=>3:勤務-パターン-+を:勤務パターンを:名詞+助詞:16-7 3:勤務-パターン-+を:勤務パターンを:名詞+助詞:16-7=>4:表示:表示:動詞-サ変形-表示:23-2
Example sentences (4)
(Example sentence) The work pattern entered in the schedule is displayed on the calendar screen (additional information)
0: Calendar-screen- +: On calendar screen: Noun + particle: 1-8 => 4: Display: Display: Verb-sa modification-Display: 23-2 1: Schedule- + To: Schedule: Noun + Particles: 9-3 => 2: Input-do-ta: Entered: verb-consecutive_basic-do: 12-4 2: Input-do-ta: Entered: verb-intermediate_basic-do: 12- 4 => 3: work-pattern- +: work pattern: noun + particle: 16-7 3: work-pattern- +: work pattern: noun + particle: 16-7 => 4: display: display : Verb-Sa deformation-Indication: 23-2

用例文(5)
(用例文)クリックすると決裁文書画面が表示される
(付加情報)
0:クリック:クリック:名詞:1-4_する:する:動詞:5-2_と:と:助詞:7-1=>2:表示-する-れる:表示される:動詞-未然レル接続_基本形-される:15-5 1:決裁-文書-画面-+が:決裁文書画面が:名詞+助詞:8-7=>2:表示-する-れる:表示される:動詞-未然レル接続_基本形-される:15-5
Example sentences (5)
(Example sentence) Click here to display the decision document screen (additional information)
0: Click: Click: Noun: 1-4_To: To: Verb: 5-2_ To: To: Particle: 7-1 => 2: Display-to-re: Displayed: Verb-Nell-rel connection _Basic form-To be: 15-5 1: Final decision-Document-Screen-+: Final decision document screen: Noun + particle: 8-7 => 2: Display-To be displayed: Displayed: Verb-Unreal Connection_Basic form-Done: 15-5

そして、(ステップS302〜S305を通過した場合、)ステップS307において、各用例文についてそれぞれ以下のような4つ組の組み合わせが作成される。このとき、各用例文内で検索キーワードに対して異なる4つ組の組み合わせをすべて抽出する。例えば、用例文(1)では、検索キーワード「画面(名詞)」と「表示(動詞)」について、2つの異なる4つ組([画面,で,表示,する]、[画面,を,表示,する]が存在するため、双方を抽出する。
(1)(i)[画面,で,表示,する] (ii)[画面,を,表示,する]
(2)[画面,に,表示,する]
(3)[画面,に,表示,する]
(4)[画面,で,表示,-]
(5)[画面,が,表示,される]
Then, in step S307 (when passing through steps S302 to S305), the following four combinations are created for each example sentence. At this time, all four different combinations for the search keyword are extracted in each example sentence. For example, in the example sentence (1), for the search keywords “screen (noun)” and “display (verb)”, two different quadruples ([display on, display], [display, display, Yes], both are extracted.
(1) (i) [Display and display on screen] (ii) [Display and display on screen]
(2) [Display on screen]
(3) [Display on screen]
(4) [Display on screen,-]
(5) [Screen is displayed and displayed]

そして、ステップS310では、以下のように用例文が用例グループに分類される。(なお、これらの4つ組の組み合わせがすでに用例グループに存在していた(その4つ組の組み合わせが既出である)場合は、既に存在するグループに格納されていく。)
(a)[画面,で,表示,する]・・・・用例文(1−i)
(b)[画面,に,表示,する]・・・・用例文(2)、用例文(3)
(c)[画面,で,表示,-]・・・・・・用例文(4)
(d)[画面,が,表示,される]・・・用例文(5)
(e)[画面,を,表示,する]・・・・用例文(1−ii)
(なお、本例では、[ ]内の4つ組の組み合わせ自体を、各用例グループを識別するためのグループIDとする。)
In step S310, the example sentences are classified into example groups as follows. (In addition, when the combination of these four groups already exists in the example group (the combination of the four groups already appears), it is stored in the existing group.)
(A) [display on screen, display] ... Example sentence (1-i)
(B) [Display on screen, display] ... Example sentence (2), Example sentence (3)
(C) [screen, display,-] ... Example sentence (4)
(D) [screen, displayed,] example sentence (5)
(E) [display, display screen] .... Example sentence (1-ii)
(In this example, the combination of the four sets in [] is a group ID for identifying each example group.)

(ステップS40の処理フロー:用例文並び替え部の処理)
次に、図2のステップS40における処理の詳細について説明する。図2のステップS40は、用例文並び替え部110が実行する処理である。図8は、図2のステップS40における処理の詳細を示すフロー図である。
(Processing flow of step S40: processing of example sentence rearranging unit)
Next, details of the processing in step S40 of FIG. 2 will be described. Step S40 in FIG. 2 is a process executed by the example sentence rearranging unit 110. FIG. 8 is a flowchart showing details of the process in step S40 of FIG.

用例文分類部108から、1つ以上のキーワード10、品詞付与部104で得た各キーワードの品詞、および用例文分類部108で得た用例グループを含む入力リスト(入力リストDとする)を受け付ける。そして、図9に示される表3と、キーワードの品詞とを照合し、優先順位ごとの品詞を取得する(ステップS401)。ここで、表3は、検索キーワードの品詞に応じて、優先して選択すべき用例文の品詞の優先順位を示すデータである。この表3のデータは、日本語文法に精通していない非母国語話者が執筆した文書から、日本語の文法の誤りやすさの傾向を分析した結果に基づいてあらかじめその内容が決定されるデータである。また、表3のデータは、具体的には例えば、データベース等の形式にて用例検索装置1のハードディスク等の記憶装置に記憶される。   Accepts an input list (referred to as input list D) including one or more keywords 10, part of speech of each keyword obtained by the part of speech providing unit 104, and an example group obtained by the example sentence classification unit 108 from the example sentence classification unit 108. . Then, Table 3 shown in FIG. 9 is compared with the part of speech of the keyword, and the part of speech for each priority order is acquired (step S401). Here, Table 3 is data indicating the priority order of part of speech of an example sentence to be preferentially selected according to the part of speech of the search keyword. The data in Table 3 is determined in advance based on the results of analyzing the tendency of grammatical errors in Japanese from documents written by non-native speakers who are not familiar with Japanese grammar. It is data. The data in Table 3 is specifically stored in a storage device such as a hard disk of the example search device 1 in the form of a database or the like.

次に、グループIDである4つ組の組み合わせに対して、優先順位が1位の品詞の単語ごとにグループを作成する。本例では、説明の便宜上、このグループを「大グループ」と呼ぶことにする(ステップS402)。次に、各大グループのグループ数を算出する(ステップS403)。グループ数が多い大グループから順に並び替える(ステップS404)。並び替えた結果について、(上位から順に)大グループを1つ取り出す(ステップS405)。   Next, a group is created for each part-of-speech word with the highest priority for the combination of four sets of group IDs. In this example, for convenience of explanation, this group is referred to as a “large group” (step S402). Next, the number of groups of each large group is calculated (step S403). Rearrange from the large group with the largest number of groups (step S404). As for the rearranged result, one large group is extracted (in order from the top) (step S405).

次に、取り出した大グループから用例グループを1つ抽出する(ステップS406)。抽出した用例グループ内の用例数を算出する(ステップS407)。また、用例グループから用例文を1つ抽出する(ステップS408)。次に、用例文の文の長さとして、文内の文字数を算出し、用例文と、文の長さとを関連付けて、ハードディスク等の記憶装置に保持しておく(ステップS409)。   Next, one example group is extracted from the extracted large group (step S406). The number of examples in the extracted example group is calculated (step S407). Further, one example sentence is extracted from the example group (step S408). Next, the number of characters in the sentence is calculated as the sentence length of the example sentence, and the example sentence and the sentence length are associated with each other and stored in a storage device such as a hard disk (step S409).

ステップS407で算出した用例数を使用して、対象の用例グループに未処理の用例文があるか否かを判定し(ステップS410)、未処理の用例文があればステップS407に戻る。対象の用例グループ内の用例文がすべて処理済みであれば、用例グループ内において、用例文を文の長さが短い順に並び替える(ステップS411)。ここで、本例では、文の長さが短い順に用例文を並び替えているが、ユーザが用例検索を行う際には、長い用例文よりも短い用例文を手本としたほうが文法的によりシンプルで理解しやすく、用例検索装置1から出力される用例文を応用して使用する場合でも、短い用例文のほうが変形しやすい等のメリットがある。   Using the number of examples calculated in step S407, it is determined whether or not there is an unprocessed example sentence in the target example group (step S410). If there is an unprocessed example sentence, the process returns to step S407. If all the example sentences in the target example group have been processed, the example sentences are rearranged in the example group in ascending order of sentence length (step S411). Here, in this example, the example sentences are rearranged in order from the shortest sentence length. However, when a user searches for an example, it is more grammatically to use a short example sentence than a long example sentence. Even when the example sentence output from the example search apparatus 1 is applied in a simple and easy-to-understand manner, there are merits that a short example sentence is more easily deformed.

大グループから未処理の用例グループがあるか否かを判定し(ステップS412)、あればステップS406に戻る。対象の大グループ内の用例グループがすべて処理済であれば、大グループ内において、用例数が多い順に、用例グループを並び替える(ステップS413)。ここで、本例では、用例数が多い順に用例グループを並び替えている。用例文は用例記憶部114から抽出されたものであり、用例記憶部114に記憶されている用例文は、文法上正しい、手本となる日本語の用例文が記憶されている。また、手本となる日本語の書類等から文章を抽出して形態素解析および構文構造解析して自動登録された場合であれば、用例数が多いということは、使用される頻度が高い文章であるということであるので、よりユーザが所望する用例文である可能性が高くなる。   It is determined whether there is an unprocessed example group from the large group (step S412), and if there is, the process returns to step S406. If all the example groups in the target large group have been processed, the example groups are rearranged in descending order of the number of examples in the large group (step S413). Here, in this example, the example groups are rearranged in descending order of the number of examples. The example sentence is extracted from the example storage unit 114, and the example sentence stored in the example storage unit 114 stores a grammatically correct example sentence in Japanese. In addition, if a sentence is extracted from a Japanese document that serves as an example and is automatically registered through morphological analysis and syntactic structure analysis, the large number of examples means that the sentence is used frequently. This means that there is a higher possibility that the example sentence is desired by the user.

未処理の大グループがあるか否かを判定する(ステップS414)。未処理の大グループがあれば、ステップS405に戻る。なければ、並び替えた結果を結果出力部112に受け渡して処理を終了する。   It is determined whether there is an unprocessed large group (step S414). If there is an unprocessed large group, the process returns to step S405. If not, the rearranged result is transferred to the result output unit 112, and the process ends.

以下、用例文分類部108の説明で述べた具体例に続けて、用例文並び替え部110における処理の具体例を示す。例えば、用例文並び替え部110は、用例文分類部108から以下の内容の出力データ(入力リストD)を受け付けたとする。   Hereinafter, a specific example of processing in the example sentence rearranging unit 110 will be described following the specific example described in the explanation of the example sentence classification unit 108. For example, it is assumed that the example sentence rearranging unit 110 receives output data (input list D) having the following content from the example sentence classification unit 108.

[入力リストD]
キーワード(品詞):「画面(名詞)」「表示(動詞)」
(a)[画面,で,表示,する]・・・・用例文(1−i)
(b)[画面,に,表示,する]・・・・用例文(2)、用例文(3)
(c)[画面,で,表示,-]・・・・・・用例文(4)
(d)[画面,が,表示,される]・・・用例文(5)
(e)[画面,を,表示,する]・・・・用例文(1−ii)
[Input list D]
Keywords (parts of speech): "screen (noun)""display(verb)"
(A) [display on screen, display] ... Example sentence (1-i)
(B) [Display on screen, display] ... Example sentence (2), Example sentence (3)
(C) [screen, display,-] ... Example sentence (4)
(D) [screen, displayed,] example sentence (5)
(E) [display, display screen] .... Example sentence (1-ii)

(なお、各用例文の内容は、以下の通り。)
用例文(1)電子決裁画面を別画面で表示する
用例文(2)画面IDより、次画面に表示するボタンタイプを設定する
用例文(3)以下の情報を画面に表示する
用例文(4)カレンダー画面で、予定に入力した勤務パターンを表示
用例文(5)クリックすると決裁文書画面が表示される
(The contents of each example sentence are as follows.)
Example sentence (1) Example sentence for displaying the electronic decision screen on a separate screen (2) Example sentence for setting the button type to be displayed on the next screen from the screen ID (3) Example sentence for displaying the following information on the screen (4) ) On the calendar screen, click the work pattern entered in the schedule and click on the display example sentence (5) to display the final approval document screen

この場合、ステップS401では以下のような処理が実行される。すなわち、表3を参照すると、上記の入力リストDのキーワードの品詞(名詞、動詞)に対応する優先順位は、
1位:助詞
2位:活用
である。
In this case, the following processing is executed in step S401. That is, referring to Table 3, the priority order corresponding to the part of speech (noun, verb) of the keyword in the input list D is as follows.
1st: Particles 2nd: Utilization.

よって、ステップS402では、「画面」の後の“助詞”によって用例グループを分類する。つまり、本例の場合、以下のような大グループが作成されることになる。
大グループ:
(1)[画面,で,表示,する],[画面,で,表示,-]・・・・(助詞=“で”のグループ)
(2)[画面,に,表示,する]・・・・・(助詞=“に”のグループ)
(3)[画面,が,表示,される]・・・・(助詞=“が”のグループ)
(4)[画面,を,表示,する]・・・・・(助詞=“を”のグループ)
Therefore, in step S402, the example group is classified by “particle” after “screen”. That is, in this example, the following large group is created.
Large group:
(1) [Display and display on screen], [Display and display on screen,-] ... (group of particles = "de")
(2) [Displayed on the screen] (... Particles = "Ni" group)
(3) [Screen, is displayed, ...] (Group of particles = "ga")
(4) [Display, display, display] ... (Particle = "Group")

上記の大グループ(1)のグループ数は2つ、大グループ(2)、(3)、(4)のグループ数はそれぞれ1つであるので(ステップS403)、大グループ(1)、(2)、(3)、(4)の順にグループ数が多いことになる(ステップS404)。   Since the large group (1) has two groups and the large groups (2), (3), and (4) each have one group (step S403), the large groups (1) and (2) ), (3), and (4), the number of groups increases in this order (step S404).

そして、ステップS405からステップS414の処理によって、各大グループにおいて、その大グループに分類された用例グループは用例数が多い順で並び替えられ、さらに、それぞれの用例グループ内では、用例文の長さが短い順に用例文が並び替えられる。   Then, by the processing from step S405 to step S414, in each large group, the example groups classified into the large group are rearranged in descending order of the number of examples. Further, in each example group, the length of the example sentence The example sentences are sorted in ascending order.

以上のような処理を経て、用例文並び替え部110における処理の並び替え結果としては、以下のような結果が得られる。
1.[画面,で,表示,する]・・・・用例文(1−i)
2.[画面,で,表示,-]・・・・・・用例文(4)
3.[画面,に,表示,する]・・・・用例文(3)、用例文(2)
4.[画面,が,表示,される]・・・用例文(5)
5.[画面,を,表示,する]・・・・用例文(1−ii)
Through the processing as described above, the following result is obtained as the processing rearrangement result in the example sentence rearranging unit 110.
1. [Display on screen, display] ... Example sentence (1-i)
2. [Screen, display,-] ... Example sentence (4)
3. [Display on screen, display] ... Example sentence (3), Example sentence (2)
4). [Screen is displayed] ... Example sentence (5)
5. [Display, display, screen] ... Example sentence (1-ii)

なお、上記の例では、表3の優先順位が1位の品詞に基づいて大グループを設定しているが、大グループの中で、さらに優先順位が2位の品詞(上記の例においては「表示」の後の「活用」)に基づいて大グループに従属するグループを設けてもよい。優先順位が3位以下ある場合も同様である。   In the above example, a large group is set based on the part of speech with the first priority in Table 3. However, in the large group, the part of speech with the second highest priority (in the above example, “ A group subordinate to the large group may be provided based on “utilization” after “display”. The same applies when the priority is 3rd or lower.

(ステップS50の処理フロー:結果出力部の処理)
次に、図2のステップS50における処理の詳細について説明する。図2のステップS50は、結果出力部112が実行する処理である。図10は、図2のステップS50における処理の詳細を示すフロー図である。
(Processing flow of step S50: processing of result output unit)
Next, details of the processing in step S50 of FIG. 2 will be described. Step S50 in FIG. 2 is a process executed by the result output unit 112. FIG. 10 is a flowchart showing details of the process in step S50 of FIG.

用例文並び替え部110から、並び替え済みの用例グループを含む入力リスト(入力リストEとする)を受け付ける。入力リストEから、用例グループを1つ抽出する(ステップS501)。抽出した用例グループが、並び替え順番が1位の用例グループであるか否かを判定する(ステップS502)。   From the example sentence order rearranging unit 110, an input list including the rearranged example groups (referred to as an input list E) is received. One example group is extracted from the input list E (step S501). It is determined whether or not the extracted example group is an example group with the first rearrangement order (step S502).

並び替え順番が1位の用例グループであれば、対象の用例グループの未出力用例文から上位3文を出力し、ステップS507に遷移する(ステップS503)。抽出した用例グループが1位の用例グループでないならば、並び替え順番が2位の用例グループであるか否かを判定する(ステップS504)。   If the rearrangement order is the first example group, the top three sentences are output from the unoutput example sentences of the target example group, and the process proceeds to step S507 (step S503). If the extracted example group is not the first example group, it is determined whether the rearrangement order is the second example group (step S504).

並び替え順番が2位の用例グループであれば、対象の用例グループの未出力用例文から上位2文を出力し、ステップS507に遷移する(ステップS505)。抽出した用例グループが2位の用例グループでないならば、対象の用例グループの未出力用例文から上位1文を出力する(ステップS506)。   If the example group has the second order, the upper two sentences are output from the unoutput example sentences of the target example group, and the process proceeds to step S507 (step S505). If the extracted example group is not the second example group, the top one sentence is output from the unoutput example sentences of the target example group (step S506).

すべての用例グループ内の用例文を出力したか否かを判定する(ステップS507)。出力していない用例文がある場合は、ステップS501に戻る。すべての用例文を出力した場合は、処理を終了する。   It is determined whether or not example sentences in all example groups have been output (step S507). If there is an example sentence that has not been output, the process returns to step S501. If all example sentences have been output, the process ends.

また、4つの用例に複数の4つ組が存在する場合がある(例えば、上記の用例文(1−i)(1−ii)の例)。この場合は、付加情報の開始位置と文字数の情報を利用して、4つ組に色づけ(用例グループ毎に用例文を画面表示する際、入力されたキーワードを含む4つ組の文字をハイライト表示)を行うことで、区別することが可能となる。(色づけ、つまりハイライトは画面表示の工夫の一例であり、文字自体の色を目立つ色に変更する、文字のサイズを大きくする等、取得した4つ組を目立たせる様に画面表示を工夫する方法であればどの様な方法であってもよい。色を使う場合、品詞毎に色を変更してもよいし、名詞と動詞を異なる色とし、名詞と助詞を同じ色、動詞とその活用を同じ色としてもよい。)例えば、用例文(1)「電子決済画面を別画面で表示する」では、付加情報「1:別-画面+で:別画面で:名詞+助詞:8-4=>2: 表示-する:表示する:動詞-基本形-する:12-4」から、4つ組[画面,で,表示,する]が作成される。このとき、この付加情報と、検索キーワードの情報および品詞情報とから、以下のような単語と文内の単語記述開始位置および文字数の組み合わせを取得する。   Further, there are cases where a plurality of four sets exist in the four examples (for example, the above example sentences (1-i) and (1-ii)). In this case, using the information on the start position of the additional information and the number of characters, it is colored into four sets (when the example sentence is displayed on the screen for each example group, the four sets of characters including the input keyword are highlighted. It is possible to distinguish by performing (display). (Coloring, that is, highlighting, is an example of screen display. The screen display is devised so that the acquired quadruple is conspicuous, such as changing the color of the character itself to a conspicuous color or increasing the size of the character. You can change the color for each part of speech, use different colors for nouns and verbs, use the same colors for nouns and particles, and use verbs. For example, in the example sentence (1) “Display the electronic payment screen on a separate screen”, the additional information “1: Separate-screen + on: Separate screen: noun + particle: 8-4 => 2: Display-display: display: verb-basic-form: 12-4 "creates a quadruple [display, display on screen]. At this time, a combination of the following word, the word description start position and the number of characters in the sentence is acquired from the additional information, the search keyword information, and the part-of-speech information.

[画面,9-2][で,10-1][表示,12-2][する,12-4]
(なお、上記例での取得形式は[単語,単語記述開始位置-文字数]となっている。また本例は一例のため、この形式に限定するものではない。)
出力時に文字数を先頭から開始位置まで数えて各品詞ごとに色付けを行う。この提示により、用例文内で着目すべき日本語の文法(4つ組の組み合わせ)が明らかになり、かつ同じ文内で異なる4つ組がある場合にも、違いを一目で確認することが可能となる。
[Screen, 9-2] [In, 10-1] [Display, 12-2] [Yes, 12-4]
(Note that the acquisition format in the above example is [word, word description start position−number of characters]. Also, since this example is an example, it is not limited to this format.)
At the time of output, the number of characters is counted from the beginning to the start position, and coloring is performed for each part of speech. This presentation reveals the Japanese grammar (quadruple combinations) that should be noted in the example sentences, and even if there are different quadruples in the same sentence, the difference can be confirmed at a glance. It becomes possible.

また、本例においては、並び替え結果の上位のグループから順に、3つ、2つ、1つの用例文を出力するようにしているが、この用例部の数は一例であり、これに限定するものではない。   Further, in this example, three, two, and one example sentence are output in order from the upper group of the rearrangement result, but the number of example parts is an example, and is limited to this. It is not a thing.

(まとめ)
以上、説明したように、本実施形態に係る用例検索装置によれば、単語をキーとした検索で抽出した用例文を、単語ごとの格情報を用いることなく分類することができる。単語ごとに格情報を事前に決定しておくことは手間がかかり、格情報が準備されていない単語は処理することができないが、本実施形態の用例検索装置では、このような問題は起こり得ない。また、本実施形態に係る用例検索装置の用例記憶部114は、日本語文書を形態素解析および構文構造解析して品詞と係り受けの情報を付与したものであるため、用例用の日本語文書を既存技術で処理すれば用例記憶部114に簡単に登録することができる。つまり、用例文に含まれる新たな単語に対して格情報を付与するという作業が不要である。
(Summary)
As described above, according to the example search device according to the present embodiment, the example sentences extracted by the search using the word as a key can be classified without using the case information for each word. Determining case information in advance for each word takes time and cannot process words for which case information is not prepared. However, in the example search device of this embodiment, such a problem may occur. Absent. In addition, the example storage unit 114 of the example search device according to the present embodiment adds a part of speech and dependency information by morphological analysis and syntactic structure analysis of a Japanese document. If processing is performed using existing technology, it can be easily registered in the example storage unit 114. That is, there is no need to add case information to a new word included in the example sentence.

また、検索結果を、日本語の文の基幹となる「名詞」「助詞」「動詞」「活用」という4つ組に着目して分類し、分類に基づき用例文をユーザに提示するため(つまり、複数パターンの用例文がユーザに提示されるため)、ユーザが日本語文法についての深い知識を有していなくとも適した用例を選択しやすくなる。   In addition, the search results are classified by focusing on the four sets of “nouns”, “particles”, “verbs”, and “utilization” that are the basis of Japanese sentences, and example sentences are presented to the user based on the classification (that is, Because a plurality of patterns of example sentences are presented to the user), it is easy to select a suitable example even if the user does not have deep knowledge of Japanese grammar.

また、単語によって用例文を検索することができるため、文法上正しい日本語文章を記載するスキルがないユーザであっても、正しい日本語の用例文を検索することができる。   Further, since the example sentence can be searched by word, even a user who does not have the skill to write a grammatically correct Japanese sentence can search for a correct example sentence in Japanese.

ここまで本発明の一実施形態について説明したが、本発明は上述の実施形態に限定されず、その技術的思想の範囲内において種々異なる形態にて実施されてよいことは言うまでもない。   Although one embodiment of the present invention has been described so far, it is needless to say that the present invention is not limited to the above-described embodiment, and may be implemented in various forms within the scope of the technical idea.

また、本発明の範囲は、図示され記載された例示的な実施形態に限定されるものではなく、本発明が目的とするものと均等な効果をもたらすすべての実施形態をも含む。さらに、本発明の範囲は、各請求項により画される発明の特徴の組み合わせに限定されるものではなく、すべての開示されたそれぞれの特徴のうち特定の特徴のあらゆる所望する組み合わせによって画されうる。   In addition, the scope of the present invention is not limited to the illustrated and described exemplary embodiments, and includes all embodiments that provide the same effects as those intended by the present invention. Further, the scope of the invention is not limited to the combinations of features of the invention defined by the claims, but may be defined by any desired combination of particular features among all the disclosed features. .

1 用例検索装置
10 キーワード
20 入力装置
30 出力装置
102 入出力部
104 品詞付与部
106 用例文抽出部
108 用例文分類部
110 用例文並び替え部
112 結果出力部
114 用例記憶部
116 品詞情報記憶部
DESCRIPTION OF SYMBOLS 1 Example search device 10 Keyword 20 Input device 30 Output device 102 Input / output part 104 Part-of-speech assignment part 106 Example sentence extraction part 108 Example sentence classification part 110 Example sentence rearrangement part 112 Result output part 114 Example storage part 116 Part-of-speech information storage part

Claims (6)

用例文と、前記用例文の形態素解析結果と、前記用例文の構造解析結果とを関連付けて記憶する用例記憶部と、
入力された単語に品詞を付与する品詞付与部と、
品詞および単語の対応付けが前記入力された単語と同じ組み合わせとなる単語を含む前記用例記憶部に記憶された用例文を、前記入力された単語を含む名詞、助詞、動詞とその活用のパターンに基づき分類する処理部と、
前記分類された用例文を出力する結果出力部と、
を備えることを特徴とする用例検索装置。
An example storage unit that stores an example sentence, a morphological analysis result of the example sentence, and a structure analysis result of the example sentence;
A part-of-speech giving unit that gives part of speech to the input word;
Example sentences stored in the example storage unit including words whose word-of-speech and word correspondence are the same combination as the input word are used as nouns, particles, verbs including the input word, and patterns of their use. A processing unit to classify based on,
A result output unit for outputting the classified example sentences;
An example search device comprising:
前記処理部は、さらに、前記用例文が分類された用例グループを、前記入力された単語の前記品詞に応じて決定される優先されるべき用例文の品詞に基づく大グループに分類し、各大グループにおいて用例数の多い順に前記用例グループを並び替え、  The processing unit further classifies the example groups into which the example sentences are classified into large groups based on part of speech of example sentences to be prioritized that are determined according to the part of speech of the input word. Rearrange the example groups in descending order of the number of examples in the group,
前記結果出力部は、前記大グループごとに、前記並び替えられた用例グループごとに用例文を抽出して出力することを特徴とする請求項1に記載の用例検索装置。  The example search device according to claim 1, wherein the result output unit extracts and outputs an example sentence for each of the rearranged example groups for each large group.
前記処理部は、さらに、各大グループにおける用例グループ数を算出し、算出されたグループ数が多い順に前記大グループを並び替え、各大グループに含まれる用例グループ中において用例文を文の長さが短い順に並び替えることを特徴とする請求項2に記載の用例検索装置。  The processing unit further calculates the number of example groups in each large group, rearranges the large groups in descending order of the calculated number of groups, and sets an example sentence in the example group included in each large group to a sentence length. The example search device according to claim 2, wherein the examples are rearranged in ascending order. 前記入力された単語について、形態素の条件と付与すべき品詞との対応関係を記憶した品詞情報記憶部をさらに備え、
前記品詞付与部は、前記品詞情報記憶部を参照して前記入力された単語に品詞を付与することを特徴とする請求項1から3のいずれか一項に記載の用例検索装置。
For the input word, further comprising a part-of-speech information storage unit storing a correspondence relationship between the morpheme condition and the part-of-speech to be given,
The example part search device according to any one of claims 1 to 3 , wherein the part-of-speech providing unit adds part-of-speech to the input word with reference to the part-of-speech information storage unit.
用例文と、前記用例文の形態素解析結果と、前記用例文の構造解析結果とを関連付けて記憶する用例記憶部と、品詞付与部と、処理部と、結果出力部と、を備えるコンピュータ装置が実行する用例検索方法であって、
前記品詞付与部が、入力された単語に品詞を付与するステップと、
前記処理部が、品詞および単語の対応付けが前記入力された単語と同じ組み合わせとなる単語を含む前記用例記憶部に記憶された用例文を、前記入力された単語を含む名詞、助詞、動詞とその活用のパターンに基づき分類するステップと、
前記結果出力部が、前記分類された用例文を出力するステップと、
を含むことを特徴とする用例検索方法。
A computer apparatus comprising: an example sentence, a morphological analysis result of the example sentence, and an example storage unit for storing the example sentence structure analysis result in association with each other, a part of speech assignment unit, a processing unit, and a result output unit An example search method to execute,
The part-of-speech giving unit giving a part-of-speech to the input word;
The processing unit includes an example sentence stored in the example storage unit including a word whose part-of-speech and word correspondence is the same combination as the input word, a noun including the input word, a particle, and a verb. A step of classifying based on the pattern of utilization,
The result output unit outputting the classified example sentences;
The example search method characterized by including this.
用例文と、前記用例文の形態素解析結果と、前記用例文の構造解析結果とを関連付けて記憶する用例記憶部と、品詞付与部と、処理部と、結果出力部と、を備えるコンピュータ装置に、
前記品詞付与部が、入力された単語に品詞を付与するステップと、
前記処理部が、品詞および単語の対応付けが前記入力された単語と同じ組み合わせとなる単語を含む前記用例記憶部に記憶された用例文を、前記入力された単語を含む名詞、助詞、動詞とその活用のパターンに基づき分類するステップと、
前記結果出力部が、前記分類された用例文を出力するステップと、
を実行させるための用例検索プログラム。
An example storage unit that stores an example sentence, a morphological analysis result of the example sentence, and a structure analysis result of the example sentence in association with each other, a part of speech assignment unit, a processing unit, and a result output unit ,
The part-of-speech giving unit giving a part-of-speech to the input word;
The processing unit includes an example sentence stored in the example storage unit including a word whose part-of-speech and word correspondence is the same combination as the input word, a noun including the input word, a particle, and a verb. A step of classifying based on the pattern of utilization,
The result output unit outputting the classified example sentences;
Example search program to execute
JP2013010349A 2013-01-23 2013-01-23 Example search device, example search method, and example search program Expired - Fee Related JP6018932B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013010349A JP6018932B2 (en) 2013-01-23 2013-01-23 Example search device, example search method, and example search program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013010349A JP6018932B2 (en) 2013-01-23 2013-01-23 Example search device, example search method, and example search program

Publications (2)

Publication Number Publication Date
JP2014142780A JP2014142780A (en) 2014-08-07
JP6018932B2 true JP6018932B2 (en) 2016-11-02

Family

ID=51424014

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013010349A Expired - Fee Related JP6018932B2 (en) 2013-01-23 2013-01-23 Example search device, example search method, and example search program

Country Status (1)

Country Link
JP (1) JP6018932B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6466138B2 (en) 2014-11-04 2019-02-06 株式会社東芝 Foreign language sentence creation support apparatus, method and program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02190972A (en) * 1989-01-19 1990-07-26 Sharp Corp Example retrieving system
JP5106155B2 (en) * 2008-01-29 2012-12-26 株式会社東芝 Document processing apparatus, method and program

Also Published As

Publication number Publication date
JP2014142780A (en) 2014-08-07

Similar Documents

Publication Publication Date Title
JP5870790B2 (en) Sentence proofreading apparatus and proofreading method
US5644774A (en) Machine translation system having idiom processing function
US20150356074A1 (en) Machine Translation System and Method
JP2007287134A (en) Information extracting device and information extracting method
JP2002117027A (en) Feeling information extracting method and recording medium for feeling information extracting program
JP2015194919A (en) Document summarization device, document summarization method, and program
JP2022055305A (en) Text processing method for generating text summarization, apparatus, device, and storage medium
JP6018932B2 (en) Example search device, example search method, and example search program
Halpern Compilation techniques for pedagogically effective bilingual learners’ dictionaries
Krasselt et al. A workbench for corpus linguistic discourse analysis
KR101052004B1 (en) Translation service provision method and system
JP6114090B2 (en) Machine translation apparatus, machine translation method and program
JP2009015398A (en) Text division program, text division device, and text division method
JP2014049044A (en) Content management device, content management system, content management method, program, and storage medium
Grønvik et al. What should the electronic dictionary do for you–and how?
WO2010103916A1 (en) Device for presentation of characteristic words in document and program giving priority of characteristic words
Meelen 2 Annotating Middle Welsh: POS tagging and chunk-parsing a corpus of native prose
JP5621145B2 (en) Document check device, document check program, and document check method
Petrovčič et al. The New Chinese Corpus of Literary Texts Litchi
Forbes et al. The Andersen-Forbes computational analysis of biblical Hebrew grammar
EP1916609A1 (en) Text analysis, transliteration and translation method and apparatus for hieroglyphic, hieratic, and demotic texts from Ancient Egyptian
JPH07325826A (en) Japanese language processing system
Tsou et al. From synchronous corpus to monitoring corpus, LIVAC: The Chinese case
JP2003173338A (en) Dictionary construction support device, dictionary construction support method, and dictionary construction support program
JP4458517B2 (en) Information extraction apparatus and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161003

R150 Certificate of patent or registration of utility model

Ref document number: 6018932

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees