JP5454871B2 - Dictionary evaluation support apparatus and program - Google Patents
Dictionary evaluation support apparatus and program Download PDFInfo
- Publication number
- JP5454871B2 JP5454871B2 JP2009124456A JP2009124456A JP5454871B2 JP 5454871 B2 JP5454871 B2 JP 5454871B2 JP 2009124456 A JP2009124456 A JP 2009124456A JP 2009124456 A JP2009124456 A JP 2009124456A JP 5454871 B2 JP5454871 B2 JP 5454871B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- example sentence
- dictionary
- expression
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、業務文書チェックまたはテキストマイニングのシステムで利用される概念辞書の評価作業を支援する辞書評価支援装置およびプログラムに関する。 The present invention relates to a dictionary evaluation support apparatus and program for supporting evaluation work of a concept dictionary used in a business document check or text mining system.
近年、業務文書チェックまたはテキストマイニングのシステムで利用される概念辞書に新規表現を追加したり、既に登録された表現の適切さを検証したりするための辞書作成支援技術が知られている。この辞書作成支援技術においては、例えば予め設定された条件に合致する表現をコーパス(例文集)から抽出し、当該抽出された表現を利用することによって辞書の作成を支援することができる。 In recent years, a dictionary creation support technique for adding a new expression to a concept dictionary used in a business document check or text mining system or verifying the appropriateness of an already registered expression is known. In this dictionary creation support technology, for example, an expression matching a preset condition is extracted from a corpus (example sentence collection), and the dictionary creation can be supported by using the extracted expression.
このような技術に関連して、例えば辞書の更新が必要かどうかを判断し、更新の必要がある場合には辞書登録すべき候補の一覧を提示することができる技術(以下、第1の先行技術と表記)が開示されている(例えば、特許文献1を参照)。この先行技術によれば、コーパスから抽出された共起表現(係り受け表現)が辞書新規登録候補とされる。 In relation to such a technique, for example, it is determined whether or not a dictionary needs to be updated, and a technique that can present a list of candidates to be registered in the dictionary when there is a need for updating (hereinafter referred to as a first preceding technique). (Referred to as Patent Document 1). According to this prior art, the co-occurrence expression (dependency expression) extracted from the corpus is set as a new dictionary registration candidate.
また、例えばデータの作成、維持の負担を軽減し、しかも自動的に異表記を拡充可能で、より多くの語彙を持つ異表記辞書を作成することができる技術(以下、第2の先行技術と表記)が開示されている(例えば、特許文献2を参照)。この第2の先行技術によれば、コーパスから異表記候補が抽出され、評価される。具体的には、漢字の一部を平仮名へ変換またはカタカナ表記の長音記号「ー」を「イ」へ変換するような規制ルールに従って変換し、コーパス中の類似度を評価することによって異表記であるか否かが判定される。 In addition, for example, a technology that can reduce the burden of creating and maintaining data, can automatically expand different notations, and can create different notation dictionaries with more vocabularies (hereinafter referred to as the second prior art). Notation) is disclosed (see, for example, Patent Document 2). According to the second prior art, different notation candidates are extracted from the corpus and evaluated. Specifically, a part of kanji is converted to hiragana or converted according to a regulation rule such as converting the katakana notation “-” to “a”, and the similarity in the corpus is evaluated. It is determined whether or not there is.
上記した第1の先行技術においては、例えば日報分析を目的とした同じ言葉と共起する表現を抽出・提示することで、当該日報分析のような、内容により文書を分類する目的の概念抽出辞書の作成を支援することができる。 In the first prior art described above, for example, by extracting and presenting expressions that co-occur with the same word for the purpose of daily report analysis, a concept extraction dictionary for the purpose of classifying documents by contents, such as the daily report analysis Can help you create.
しかしながら、第1の先行技術では、例えば業務文書チェック用辞書のような、表記ゆれの統一、完全に同義の曖昧表現の抽出などを目的とする場合には、概念の近い表現まで抽出・提示されるため、適合率が低下する。 However, in the first prior art, for the purpose of, for example, the unification of notation and the extraction of completely synonymous ambiguous expressions, such as a business document check dictionary, even expressions with similar concepts are extracted and presented. As a result, the precision is reduced.
また、上記した第2の先行技術では、同義・同音の漢字表記と平仮名表記の組み合わせは抽出可能であるが、漢字表記同士の組み合わせ(例えば、「此処」と「此所」)を抽出することはできない。 In the second prior art described above, a combination of synonymous / same kanji and hiragana can be extracted, but a combination of kanji notations (for example, “here” and “here”) is extracted. I can't.
このため、例えば業務文書チェックまたはテキストマイニングのシステムで利用される概念辞書に既に登録された表現の適切さを評価し、表現の登録漏れのない辞書を作成する仕組みが必要である。 For this reason, there is a need for a mechanism for evaluating the appropriateness of expressions already registered in a concept dictionary used in, for example, a business document check or text mining system, and creating a dictionary free of expression registration.
そこで、本発明の目的は、業務文書チェック辞書のような辞書の評価作業を支援することができる辞書評価支援装置およびプログラムを提供することにある。 Accordingly, an object of the present invention is to provide a dictionary evaluation support apparatus and program capable of supporting a dictionary evaluation work such as a business document check dictionary.
本発明の1つの態様によれば、自立語を含む複数の例文を予め格納する例文コーパスと、自立語、当該自立語の読みおよび当該自立語の品詞を予め格納する形態素解析辞書と、第1の自立語を含む表現を表す第1のパターンを予め格納するパターンマッチ辞書と、前記パターンマッチ辞書に格納されている第1のパターンを解析することにより、当該第1のパターンによって表される表現に含まれる第1の自立語を抽出する抽出手段と、前記抽出された第1の自立語と読みおよび品詞が同一である第2の自立語を前記形態素解析辞書から検索する形態素解析辞書検索手段と、前記パターンマッチ辞書に格納されている第1のパターンおよび前記検索された第2の自立語に基づいて、当該第2の自立語を含む表現を表す第2のパターンを作成するパターン作成手段と、前記パターンマッチ辞書に格納されている第1のパターンを前記例文コーパスに格納されている例文に適用することによって、当該第1のパターンによって表される表現を含む第1の例文のパターンマッチ結果を作成する第1のパターンマッチ手段と、前記パターン作成手段によって作成された第2のパターンを前記例文コーパスに格納されている例文に適用することによって、当該第2のパターンによって表される表現を含む第2の例文のパターンマッチ結果を作成する第2のパターンマッチ手段と、前記パターンマッチ辞書に格納されている第1のパターンによって表される表現を含む第1の例文の数が予め定められた数以上であるかを判定する判定手段と、前記第1の例文の数が予め定められた数以上でないと判定された場合、前記パターンマッチ辞書に格納されている第1のパターンによって表される表現を含む第3の例文を外部のコーパスから検索し、当該第3の例文を前記例文コーパスに追加する追加手段と、前記第1のパターンマッチ手段によって作成された第1の例文のパターンマッチ結果、前記第2のパターンマッチ手段によって作成された第2の例文のパターンマッチ結果および前記第1のパターンによって表される表現および前記第3の例文に基づいて作成された前記第3の例文のパターンマッチ結果を出力する結果出力手段とを具備することを特徴とする辞書評価支援装置が提供される。 According to one aspect of the present invention, an example sentence corpus that stores in advance a plurality of example sentences including independent words, a morphological analysis dictionary that stores in advance independent words, reading of the independent words, and parts of speech of the independent words, A pattern match dictionary that stores in advance a first pattern that represents an expression that includes the independent word, and an expression that is represented by the first pattern by analyzing the first pattern stored in the pattern match dictionary Extracting means for extracting a first independent word included in the morphological analysis dictionary and searching for a second independent word having the same reading and part of speech as the extracted first independent word from the morphological analysis dictionary And generating a second pattern representing an expression including the second independent word based on the first pattern stored in the pattern match dictionary and the searched second independent word. A first example sentence that includes an expression represented by the first pattern by applying a first pattern stored in the pattern match dictionary to the example sentence stored in the example sentence corpus by applying pattern generation means and the first pattern stored in the pattern match dictionary By applying the first pattern matching means for creating the pattern match result of the second pattern created by the pattern creating means to the example sentences stored in the example sentence corpus, the second pattern is represented by the second pattern. Second pattern matching means for creating a pattern match result of a second example sentence including the expression to be expressed, and the number of first example sentences including the expression represented by the first pattern stored in the pattern match dictionary Determining means for determining whether or not is equal to or greater than a predetermined number; and the number of the first example sentences is not equal to or greater than a predetermined number If it is a constant, add to the third example sentence containing a representation represented by the first pattern stored in the pattern matching dictionary searching externally corpus, adds the third sentence in the example sentence corpus And a pattern matching result of the first example sentence created by the first pattern matching means, a pattern matching result of the second example sentence created by the second pattern matching means, and the first pattern. And a result output means for outputting a pattern match result of the third example sentence created based on the expression and the third example sentence . A dictionary evaluation support apparatus is provided.
本発明は、業務文書チェック辞書のような辞書の評価作業を支援することを可能とする。 The present invention makes it possible to support an evaluation operation of a dictionary such as a business document check dictionary.
以下、図面を参照して、本発明の各実施形態について説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[第1の実施形態]
図1は、本発明の第1の実施形態に係る辞書評価支援装置のハードウェア構成を示すブロック図である。
[First Embodiment]
FIG. 1 is a block diagram showing a hardware configuration of the dictionary evaluation support apparatus according to the first embodiment of the present invention.
図1に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。このコンピュータ10および外部記憶装置20は、辞書評価支援装置30を構成する。
As shown in FIG. 1, the
また、辞書評価支援装置30(を構成するコンピュータ10)は、当該辞書評価支援装置30を利用するユーザ端末装置40と例えばネットワーク50を介して接続される。
Further, the dictionary evaluation support device 30 (the
図2は、図1に示す辞書評価支援装置30の主として機能構成を示すブロック図である。図2に示すように、辞書評価支援装置30は、形態素解析部31、正規表現解析部32、形態素解析辞書検索部33、辞書パターン作成部34、パターンマッチ部35、結果判定部36、例文追加部37および結果出力部38を含む。本実施形態において、これらの各部31乃至38は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。このプログラム21は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム21が、例えばネットワーク50を介してコンピュータ10にダウンロードされても構わない。
FIG. 2 is a block diagram mainly showing a functional configuration of the dictionary
また、辞書評価支援装置30は、例文コーパス22、形態素解析辞書23およびパターンマッチ辞書24を含む。本実施形態において、これらの各部22乃至24は、例えば外部記憶装置20(または不揮発性メモリ装置)に格納される。
The dictionary
例文コーパス22には、複数の例文が予め格納(登録)される。例文コーパス22に格納されている複数の例文は、例えば名詞または動詞のような自立語を含む。
The
形態素解析辞書23は、例えば例文コーパス22に格納されている例文のような文の形態素解析に用いられる。形態素解析辞書23には、自立語、当該自立語の読みおよび当該自立語の品詞が予め格納される。
The
パターンマッチ辞書24には、例文コーパス22に格納されている例文のような文中から抽出すべき表現を表す該当パターン(第1のパターン)が予め格納される。パターンマッチ辞書24に格納されている該当パターンには、自立語(第1の自立語)が含まれる。また、パターンマッチ辞書24に格納される該当パターンは、例えば正規表現で記述される。なお、パターンマッチ辞書24は、例えば業務文書チェック等に用いられる概念辞書であり、辞書評価支援装置30における評価対象である。
In the
形態素解析部31は、例文コーパス22に格納されている例文に対して形態素解析処理を実行する。形態素解析部31は、形態素解析辞書23を用いて形態素解析処理を実行する。形態素解析部31は、例文コーパス22に格納されている例文に対する形態素解析結果を当該例文に対応づけて当該例文コーパス22に格納する。
The
形態素解析処理とは、文を単語に区切り、単語に品詞を付与する処理である。例えば「顧客と打ち合わせをする。」に対して形態素解析処理を実行すると、「/顧客[名詞]-と[助詞]/打ち合わせ[名詞]-を[助詞]/する[動詞]/。[句点]」という形態素解析結果が得られる。なお、形態素解析結果において、「/」は文節の区切りを、「-」は文節内の単語の区切りを、「[]」で囲まれた表現は直前の単語の品詞を示す
なお、形態素解析部31による例文に対する形態素解析処理は、例えばユーザ端末装置40を操作するユーザの指示に応じて実行されてもよいし、例文コーパス22に例文が追加される度に実行されてもよい。
The morpheme analysis process is a process for dividing a sentence into words and adding parts of speech to the words. For example, if the morphological analysis process is executed for “Meet with customer”, “/ Customer [noun]-and [Participant] / Meeting [noun]-[Participant] / [Verb] /. [Phrase]] The result of morphological analysis is obtained. In the morpheme analysis results, “/” indicates a segment break, “-” indicates a word break in the clause, and the expression enclosed in “[]” indicates the part of speech of the immediately preceding word. The morphological analysis process for the example sentence by 31 may be executed in accordance with, for example, an instruction of a user who operates the
正規表現解析部32は、パターンマッチ辞書24に格納されている該当パターンのうち、ユーザ端末装置40を介してユーザによって選択(指定)された該当パターン(以下、対象該当パターンと表記)を解析する。これにより、正規表現解析部32は、対象該当パターンによって表される表現に含まれる自立語を、当該対象該当パターンから抽出する。
The regular
形態素解析辞書検索部33は、正規表現解析部32によって抽出された自立語と同音かつ同品詞(形態素解析辞書23に格納されている読みおよび品詞が同一)の自立語(第2の自立語)を形態素解析辞書23から検索する。
The morpheme analysis
辞書パターン作成部34は、対象該当パターンおよび形態素解析辞書検索部33によって検索された自立語に基づいて、文中から抽出すべき当該自立語を含む表現を表す該当パターン(第2のパターン)を作成する。この場合、辞書パターン作成部34は、形態素解析辞書検索部33によって検索された自立語を、パターンマッチ辞書24に格納されている対象該当パターンの正規表現(対象該当パターンとして記述されている正規表現)に追加(挿入)することにより該当パターンを作成する。以下、辞書パターン作成部34によって作成される該当パターンをパターンマッチ用該当パターンと称する。
The dictionary
パターンマッチ部35は、例文コーパス22に格納されている例文および当該例文の形態素解析結果に対して、対象該当パターンおよびパターンマッチ用該当パターンを適用する。これにより、パターンマッチ部35は、対象該当パターンにマッチする(当該対象該当パターンによって表される表現を含む)例文(第1の例文)のパターンマッチ結果およびパターンマッチ用該当パターンにマッチする(当該パターンマッチ用該当パターンによって表される表現を含む)例文(第2の例文)のパターンマッチ結果を作成する。
The
結果判定部36は、パターンマッチ部35によって作成されたパターンマッチ結果に基づいて、対象該当パターンによって表される表現を含む例文(当該対象該当パターンにマッチした例文)の数をカウントし、当該例文の数が予め定められた数以上であるか否かを判定する。
Based on the pattern match result created by the
例文追加部37は、対象該当パターンによって表される表現を含む例文(第3の例文)を例文コーパス22に追加する処理を実行する。例文追加部37は、例文検索部371および例文評価部372を含む。
The example
例文検索部371は、対象該当パターンによって表される表現を含む例文を例えば外部のコーパスから検索する。
The example
例文評価部372は、例文検索部371によって検索された例文を構文解析する。例文評価部372は、この構文解析結果に基づいて、例文検索部371によって検索された例文が適切な日本語文であるか否かを判定する。このとき、例文評価部372は、例えば予め定められた条件に基づいて判定処理を実行する。
The example
例文評価部372によって適切な日本語文であると判定された例文は、例文コーパス22に追加される。また、例文評価部372は、適切な日本語文であると判定された例文(対象該当パターンによって表される表現を含む例文)のパターンマッチ結果(第3の例文のパターンマッチ結果)を作成し、パターンマッチ部35によって作成されたパターンマッチ結果に追加する。
An example sentence determined by the example
結果出力部38は、パターンマッチ部35によって作成されたパターンマッチ結果(第1の例文のパターンマッチ結果、第2の例文のパターンマッチ結果および第3の例文のパターンマッチ結果)を辞書評価支援情報としてユーザ端末装置40に出力する。結果出力部38によって出力されたパターンマッチ結果は、ユーザ端末装置40を介してユーザに提示される。
The
図3は、図1に示すユーザ端末装置40の構成を示すブロック図である。ユーザ端末装置40は、上記したように辞書評価支援装置30と例えばネットワーク50を介して接続される。ユーザ端末装置40は、辞書評価支援装置30を利用して辞書評価作業を行うユーザが取り扱う端末装置である。
FIG. 3 is a block diagram showing a configuration of the
図3に示すように、ユーザ端末装置40は、端末制御部41、端末記憶部42、表示部43、入力部44および通信インタフェース45を含む。これらの端末制御部41、端末記憶部42、表示部43、入力部44および通信インタフェース(I/F)45は、ユーザ端末装置40の内部で例えばバスを介して相互に接続される。
As illustrated in FIG. 3, the
端末制御部41は、ユーザ端末装置40全体の処理を司る。端末記憶部42は、例えばハードディスクドライブまたは不揮発性メモリ装置のようなハードウェアで構成された記憶装置である。端末記憶部42には、例えばユーザ端末装置40の制御用のプログラムが記憶される。また、端末記憶部42は、端末制御部41による各種処理のワークメモリとしても機能する。
The
表示部43は、例えば液晶ディスクプレイである。表示部43は、上記した辞書評価支援装置30(に含まれる結果出力部38)によって出力されたパターンマッチ結果(辞書評価支援情報)をユーザに向けて表示(提示)する。この場合、表示部43は、例えばパターンマッチ結果を表形式でユーザに対して表示する。
The
入力部44は、例えばキーボードまたはマウスである。入力部24は、例えば辞書評価支援装置30による辞書評価作業に対する操作をユーザから受け付ける。
The
通信インタフェース45は、例えばケーブルを介して辞書評価支援装置30と接続される。通信インタフェース45は、ユーザ端末装置40においてユーザによって指定された条件または辞書評価支援装置30の処理結果等のやり取りを行う。また、通信インタフェース45は、辞書評価支援装置30の外部記憶装置20とケーブルを介して接続可能であり、当該外部記憶装置20との間で当該外部記憶装置20に格納される例文コーパス22、形態素解析辞書23およびパターンマッチ辞書24に対する入出力処理を実行することも可能である。
The
図4は、図2に示す例文コーパス22のデータ構造の一例を示す。図4に示すように、例文コーパス22には、例文を管理するための番号(識別番号)に対応づけて例文(の平文)および当該例文の形態素解析結果(形態素解析文)が格納される。この例文の形態素解析結果は、形態素解析部31による当該例文に対する形態素解析処理の結果である。
FIG. 4 shows an example of the data structure of the
図4に示す例では、例文コーパス22には、番号「1」に対応づけて例文「8日に客先と打ち合わせ実施。」および当該例文の形態素解析結果「/8[数字]/日[名詞]-に[助詞]/客[名詞]/先[名詞]-と[助詞]/打合わせ[名詞]/実施[名詞]/。[句点]」が格納されている。
In the example shown in FIG. 4, the
例文コーパス22には、番号「2」に対応づけて例文「今日の打ち合わせは15時からミーティングルームにて行います。」および当該例文の形態素解析結果「/今日[名詞]-の[助詞]/打ち合わせ[名詞]-は[助詞]/15[数字]/時[名詞]-から[助詞]/ミーティング[名詞]/ルーム[名詞]-にて[助詞]/行い[動詞]-ます[助動詞]/。[句点]」が格納されている。
In the
例文コーパス22には、番号「3」に対応づけて例文「今後の方針について打合わせる。」および当該例文の形態素解析結果「/今後[名詞]-の[助詞]/方針[名詞]-について[助詞]/打合わせる[動詞]/。[句点]」が格納されている。
The
例文コーパス22には、番号「105」に対応づけて例文「障害対策の手を打ち合わせて結果を報告した。」および当該例文の形態素解析結果「/障害[名詞]/対策[名詞]-の[助詞]/手[名詞]-を[助詞]/打ち[動詞]/合わせ[動詞]-て[助詞]/結果[名詞]-を[助詞]/報告[名詞]/し[動詞]-た[助動詞]/。[句点]」が格納されている。
The
例文コーパス22には、番号「106」に対応づけて例文「メンバーと進捗確認のために打ち合せをした。」および当該例文の形態素解析結果「/メンバー[名詞]-と[助詞]/進捗[名詞]/確認[名詞]-の[助詞]/ため[名詞]-に[助詞]/打ち合せ[名詞]-を[助詞]/し[動詞]-た[助動詞]/。[句点]」が格納されている。
The
また、例文コーパス22には、番号「107」に対応づけて例文「打ち合わせの日程調整を行います。」および当該例文の形態素解析結果「/打ち合わせ[名詞]-の[助詞]/日程[名詞]/調整[名詞]-を[助詞]/行い[動詞]-ます[助動詞]/。[句点]」が格納されている。
Also, in the
図5は、図2に示す形態素解析辞書23のデータ構造の一例を示す。図5に示す形態素解析辞書23は、例えば表形式で示されている。
FIG. 5 shows an example of the data structure of the
図5に示すように、形態素解析辞書23には、自立語(単語)の見出し語、当該自立語の読みおよび当該自立語の品詞が対応づけて格納(登録)される。なお、形態素解析辞書23に格納される自立語が用言(例えば、動詞等)である場合、形態素解析辞書23には当該自立語の活用型が格納される。なお、形態素解析辞書23には、これらの情報以外に例えば品詞を細分化した情報または発音情報のような情報列が追加されていてもよい。
As shown in FIG. 5, the
図5に示す例では、形態素解析辞書23には、自立語の見出し語「以下」、読み「いか」および品詞「名詞」が対応づけて格納されている。
In the example shown in FIG. 5, the
形態素解析辞書23には、自立語の見出し語「打ち合わせ」、読み「うちあわせ」および品詞「名詞」が対応づけて格納されている。
In the
形態素解析辞書23には、自立語の見出し語「打合わせ」、読み「うちあわせ」および品詞「名詞」が対応づけて格納されている。
In the
形態素解析辞書23には、自立語の見出し語「打ちあわせ」、読み「うちあわせ」および品詞「名詞」が対応づけて格納されている。
In the
形態素解析辞書23には、自立語の見出し語「打ち合せ」、読み「うちあわせ」および品詞「名詞」が対応づけて格納されている。
In the
形態素解析辞書23には、自立語の見出し語「打合せ」、読み「うちあわせ」および品詞「名詞」が対応づけて格納されている。
In the
形態素解析辞書23には、自立語の見出し語「撃ち合わせ」、読み「うちあわせ」および品詞「名詞」が対応づけて格納されている。
In the
形態素解析辞書23には、自立語の見出し語「撃ちあわせ」、読み「うちあわせ」および品詞「名詞」が対応づけて格納されている。
In the
形態素解析辞書23には、自立語の見出し語「討ち合わせ」、読み「うちあわせ」および品詞「名詞」が対応づけて格納されている。
In the
形態素解析辞書23には、自立語の見出し語「討ちあわせ」、読み「うちあわせ」および品詞「名詞」が対応づけて格納されている。
In the
形態素解析辞書23には、自立語の見出し語「ミーティング」、読み「みーてぃんぐ」および品詞「名詞」が対応づけて格納されている。
In the
形態素解析辞書23には、自立語の見出し語「ルーム」、読み「るーむ」および品詞「名詞」が対応づけて格納されている。
The
また、形態素解析辞書23には、自立語の見出し語「打ち合わせる」、読み「うちあわせる」、品詞「動詞」および活用型「サ行下一段活用」が対応づけて格納されている。
In addition, the
図6は、図2に示すパターンマッチ辞書24のデータ構造の一例を示す。図6に示すパターンマッチ辞書24は、例えば表形式で示されている。
FIG. 6 shows an example of the data structure of the
図6に示すように、パターンマッチ辞書24には、コード、グループ名、項目名、該当パターン、除外パターン、修正候補およびユーザ向けメッセージが対応づけて格納されている。以下、図6に示すパターンマッチ辞書24において対応づけられているコード、グループ名、項目名、該当パターン、除外パターン、修正候補およびユーザ向けメッセージ(の登録行)をパターン情報と称する。
As shown in FIG. 6, the
コード(列)には、パターンマッチ辞書24に格納されているパターン情報(コード、グループ名、項目名、該当パターン、除外パターン、修正候補およびユーザ向けメッセージ)を管理するための識別番号が記述される。
In the code (column), an identification number for managing pattern information (code, group name, item name, corresponding pattern, exclusion pattern, correction candidate, and message for user) stored in the
グループ名(列)には、パターン情報に関してユーザによって付与される情報が記述される。パターンマッチ辞書24が例えば業務文書における表記揺れまたは誤解を招く表現を抽出する(洗い出す)ための業務文書チェックに利用される辞書である場合、グループ名には、パターン情報がどのような観点で使われるかが記述される。
In the group name (column), information given by the user regarding the pattern information is described. When the
項目名(列)には、パターン情報(の該当パターン)で実際に抽出される表現に関する見出しが記述される。この項目名は、例えばユーザによって付与される。パターン情報が例えば「打ち合わせ」の表記揺れを統一するために用いられる場合は、項目名には、「打ち合わせ」と記述される。 In the item name (column), a headline relating to the expression actually extracted from the pattern information (corresponding pattern) is described. This item name is given by the user, for example. When the pattern information is used, for example, to unify the notation fluctuation of “meeting”, “meeting” is described in the item name.
該当パターンは、上記したように文中から抽出すべき表現を表す。該当パターン(列)には、文中から抽出すべき表現の形態素解析結果が正規表現(パターン)で記述される。 The corresponding pattern represents an expression to be extracted from the sentence as described above. In the corresponding pattern (column), the morphological analysis result of the expression to be extracted from the sentence is described in a regular expression (pattern).
正規表現とは、特定の文字(メタキャラクター)を使用した文字列の表現方法である。正規表現においては、例えば「^」は行頭、「$」は行末、「.」は任意の一文字、「(|)」は「|」で区切られた表現のいずれか一つを選択、「[]」は内部に並べられた文字のいずれか一つを選択、「\」は直後の文字をメタキャラクターとして解釈しない、を意味する。 A regular expression is a method of expressing a character string using a specific character (metacharacter). In regular expressions, for example, “^” is the beginning of the line, “$” is the end of the line, “.” Is any single character, “(|)” is one of the expressions separated by “|”, “[ ] "Selects one of the characters arranged inside, and" \ "means that the next character is not interpreted as a metacharacter.
上記したように該当パターンを形態素解析結果の正規表現で記述することにより、例えば文末表現の「です」と例えば「弊社ですぐに調査して回答します。」の文中の「です」とを区別することが可能となる。これにより、例えば業務文書チェック等の処理において抽出すべき該当表現の誤抽出の可能性を低減させることができる。 As described above, by describing the corresponding pattern with the regular expression of the morphological analysis result, for example, it is possible to distinguish between “I” at the end of the sentence and “I” in the sentence “I will investigate and answer immediately”. It becomes possible to do. Thereby, for example, the possibility of erroneous extraction of the corresponding expression to be extracted in processing such as business document check can be reduced.
除外パターンは、該当パターンによって表される表現(該当パターンにマッチする表現)であるが、抽出対象としない表現を表す。除外パターン(列)には、上記した該当パターンと同様に、形態素解析結果が正規表現で記述される。 The exclusion pattern is an expression represented by the corresponding pattern (an expression that matches the corresponding pattern), but represents an expression that is not to be extracted. In the exclusion pattern (column), the morpheme analysis result is described in a regular expression in the same manner as the corresponding pattern described above.
例えば「ミーティング」は「打ち合わせ」に表記を統一したいが、部屋の名称として固有名詞化している「ミーティングルーム」は当該表記統一の対象としない場合には、例えば「ミーティングルーム」の形態素解析結果が正規表現で除外パターン列に記述される。 For example, if you want to unify “meeting” to “meeting” but not “meeting room”, which is a proper noun as the name of the room, the notation for unifying the notation is, for example, the morphological analysis result of “meeting room” is a regular expression Is described in the exclusion pattern string.
別の例では、「以下のように決定した。」の文中の「以下」は範囲が明白でないため、注意すべき曖昧表現として当該「以下」の表現を抽出対象とする場合を想定する。この場合において、例えば「3以下の数字を設定する。」のように「以下」の意味が違う表現を抽出対象としない場合には、例えば「以下」の表現の前に数字表現があるような表現の形態素解析結果が正規表現で除外パターン列に記述される。また、例えば「以下」の表現の後に助詞「の」が続き、更に数字表現が続くような表現の形態素解析結果が正規表現で除外パターン列に記述される。 In another example, since the range of “below” in the sentence “determined as follows” is not clear, it is assumed that the expression “below” is to be extracted as an ambiguous expression to be noted. In this case, for example, when an expression having a different meaning of “below” is not to be extracted, such as “set a number of 3 or less”, for example, there is a number expression before the expression of “below” The result of the morphological analysis of the expression is described in the exclusion pattern string as a regular expression. Further, for example, a morpheme analysis result of an expression in which the particle “no” follows the expression “below”, followed by a numerical expression is described in the exclusion pattern string as a regular expression.
修正候補(列)には、該当パターンによって表される表現(該当パターンにマッチする表現)であって除外パターンによって表される表現(除外パターンにマッチする表現)でない表現、つまり、抽出すべき表現が発見された場合にユーザに提示される当該表現の修正候補が記述される。 The correction candidates (columns) include expressions that are represented by the corresponding pattern (expressions that match the corresponding pattern) but not expressions that are represented by the excluded pattern (expressions that match the excluded pattern), that is, expressions to be extracted In this case, correction candidates for the expression to be presented to the user when is detected are described.
ユーザ向けメセージ(列)には、抽出すべき表現が発見された場合にユーザに提示されるメッセージが記述される。 In the message for users (column), a message presented to the user when an expression to be extracted is found is described.
図6に示す例では、パターンマッチ辞書24には、パターン情報241および242が登録(格納)されている。
In the example shown in FIG. 6,
パターンマッチ辞書24のパターン情報241には、コード「a001」、グループ名「表記統一」、項目名「打ち合わせ」、該当パターン「/(打合わせ|ミーティング)\[名詞\]」、除外パターン「/ミーティング\[名詞\]/ルーム\[名詞\]」、修正候補「打ち合わせ」およびユーザ向けメッセージ「表記「打ち合わせ」に統一してください。」が含まれる。
The
コード「a001」は、パターンマッチ辞書24のパターン情報241を管理するための識別番号である。
The code “a001” is an identification number for managing the
グループ名「表記統一」は、例えばパターン情報241が例えば業務文書チェックにおいて表記統一の観点で使われることを示す。
The group name “unification of notation” indicates that, for example, the
項目名「打合わせ」は、パターン情報241で実際に抽出される表現に関する見出しを示す。この項目名「打合わせ」は、例えばユーザによって付与される。
The item name “meeting” indicates a heading regarding an expression actually extracted from the
該当パターン「/(打合わせ|ミーティング)\[名詞\]」は、抽出すべき表現「/打ち合わせ[名詞]」および「/ミーティング[名詞]」を表す。このように、該当パターンは、正規表現で記述されるため、複数の表現を表すことができる。なお、除外パターンまたは他のパターンについても同様である。 The corresponding pattern “/ (meeting | meeting) \ [noun \]” represents the expressions “/ meeting [noun]” and “/ meeting [noun]” to be extracted. In this way, since the corresponding pattern is described with a regular expression, it can represent a plurality of expressions. The same applies to the exclusion pattern or other patterns.
除外パターン「/ミーティング\[名詞\]/ルーム\[名詞\]」は、該当パターン「/(打合わせ|ミーティング)\[名詞\]」によって表される表現であるが抽出対象としない表現「/ミーティング[名詞]/ルーム[名詞]」を表す。 The exclusion pattern “/ meeting \ [noun \] / room \ [noun \]” is an expression that is represented by the corresponding pattern “/ (meeting | meeting) \ [noun \]” but is not subject to extraction “/ "Meeting [noun] / room [noun]".
この該当パターン「/(打合わせ|ミーティング)\[名詞\]」および除外パターン「/ミーティング\[名詞\]/ルーム\[名詞\]」によれば、「/打合わせ[名詞]」および「/ミーティング[名詞]」は抽出されるが、「/ミーティング[名詞]/ルーム[名詞]」は抽出されない。 According to the corresponding pattern “/ (meeting | meeting) \ [noun \]” and the exclusion pattern “/ meeting \ [noun \] / room \ [noun \]”, “/ meeting [noun]” and “/ meeting” "[Noun]" is extracted, but "/ meeting [noun] / room [noun]" is not extracted.
修正候補「打ち合わせ」は、上記した該当パターンによって抽出される表現「/打合わせ[名詞]」または「/ミーティング[名詞]」の修正候補が「打ち合わせ」であることを示す。 The correction candidate “meeting” indicates that the correction candidate of the expression “/ meeting [noun]” or “/ meeting [noun]” extracted by the corresponding pattern is “meeting”.
ユーザ向けメッセージ「表記「打ち合わせ」に統一してください。」は、該当パターンによって表現「/打合わせ[名詞]」または「/ミーティング[名詞]」が抽出された場合にユーザに対して提示されるメッセージを示す。 Please unify the message “Notation“ Meeting ”for users. "Indicates a message presented to the user when the expression" / meeting [noun] "or" / meeting [noun] "is extracted by the corresponding pattern.
また、パターンマッチ辞書24のパターン情報242には、コード「b001」、グループ名「曖昧表現」、項目名「以下」、該当パターン「/以下\[名詞\]」、除外パターン「(/[0-9]+\[数字\]/以下\[名詞\]|/以下\[名詞\]-の\[助詞\]/[0-9]+\[数字\])」およびユーザ向けメッセージ「曖昧な表現です。「以下3項目」のように範囲を限定してください。」が含まれる。
The pattern information 242 of the
コード「b001」は、パターンマッチ辞書24のパターン情報241を管理するための識別番号である。
The code “b001” is an identification number for managing the
グループ名「曖昧表現」は、例えばパターン情報242が例えば業務文書チェックにおいて曖昧表現の抽出に使われることを示す。 The group name “ambiguous expression” indicates that, for example, the pattern information 242 is used to extract an ambiguous expression in, for example, a business document check.
項目名「以下」は、パターン情報242で実際に抽出される表現に関する見出しであり、例えばユーザによって付与される。 The item name “below” is a heading regarding the expression actually extracted from the pattern information 242, and is given by the user, for example.
該当パターン「/以下\[名詞\]」は、抽出すべき表現「/以下[名詞]」を表す。除外パターン「(/[0-9]+\[数字\]/以下\[名詞\]|/以下\[名詞\]-の\[助詞\]/[0-9]+\[数字\])」は、該当パターン「/以下\[名詞\]」によって表される表現であるが抽出対象としない表現を表す。この除外パターン「(/[0-9]+\[数字\]/以下\[名詞\]|/以下\[名詞\]-の\[助詞\]/[0-9]+\[数字\])」は、「以下」の前に数字があるような表現および「以下」の後に助詞「の」が続き更に数字が続くような表現を示す。 The corresponding pattern “/ below \ [noun \]” represents the expression “/ below [noun]” to be extracted. Exclusion pattern "(/ [0-9] + \ [numeric \] / below \ [noun \] | / below \ [noun \]-\\ particle \] / [0-9] + \ [number \] ) "Represents an expression that is represented by the corresponding pattern" / below \ [noun \] "but is not to be extracted. This exclusion pattern “(/ [0-9] + \ [numeric \] / below \ [noun \] | / below \ [noun \]-\\ participate \] / [0-9] + \ [number \ ]) "Indicates an expression in which a number precedes" below "and an expression in which a particle" no "is followed by" no "followed by a number.
ユーザ向けメッセージ「曖昧な表現です。「以下3項目」のように範囲を限定してください。」は、該当パターンによって表現「/以下[名詞]」が抽出された場合にユーザに対して提示されるメッセージを示す。 Message for users “This is an ambiguous expression. Please limit the scope to the following three items”. "Indicates a message presented to the user when the expression" / hereinafter [noun] "is extracted by the corresponding pattern.
なお、図6に示すパターンマッチ辞書24に登録されているパターン情報に含まれる情報のうち、該当パターンは必須の情報であるが、他の情報はパターンマッチ辞書を使用する目的または管理方法に応じて適宜削除されてもよい。
Of the information included in the pattern information registered in the
次に、図7のフローチャートを参照して、本実施形態に係る辞書評価支援装置30の処理手順について説明する。
Next, a processing procedure of the dictionary
例文コーパス22には、複数の例文および当該例文の形態素解析結果が格納されているものとする。この例文の形態素解析結果は、形態素解析部31による当該例文に対する形態素解析処理の結果である。ここでは、例文コーパス22は、上述した図4に示すデータ構造を有するものとして説明する。
It is assumed that the
また、形態素解析辞書23は、上述した図5に示すデータ構造を有するものとして説明する。更に、パターンマッチ辞書24は、上述した図6に示すデータ構造を有するものとして説明する。
The
まず、ユーザは、ユーザ端末装置40に含まれる入力部44に対する操作により、辞書評価支援装置30による評価対象となるパターンマッチ辞書24に格納されているパターン情報(に含まれるコード)を選択する。ここでは、上述した図6に示すパターン情報241に含まれるコード「a001」が選択されたものとする。このユーザによって選択されたコード「a001」は、ユーザ端末装置40に含まれる通信インタフェース45を介して辞書評価支援装置30に送信(出力)される。
First, the user selects pattern information (a code included therein) stored in the
辞書評価支援装置30に含まれる正規表現解析部32は、ユーザ端末装置40によって送信されたコード「a001」を含むパターン情報241をパターンマッチ辞書24から読み出す(ステップS1)。この読み出されたパターン情報241には、上記したようにコード、グループ名、項目名、該当パターン、除外パターン、修正候補およびユーザ向けメッセージが含まれる。また、該当パターンおよび除外パターンは、自立語を含む正規表現で記述される。
The regular
なお、自立語とは、付属語に対して、単独でも文節を構成することのできる単語をいう。例えば名詞、代名詞、動詞、形容詞、形容動詞、副詞、連体詞、接続詞および感動詞が自立語に該当する。 An independent word is a word that can constitute a phrase alone with respect to an attached word. For example, nouns, pronouns, verbs, adjectives, adjective verbs, adverbs, conjunctions, conjunctions, and emotional verbs correspond to independent words.
以下、正規表現解析部32によって読み出されたパターン情報241に含まれる該当パターンを対象該当パターンと称する。また、正規表現解析部32によって読み出されたパターン情報241に含まれる除外パターンを対象除外パターンと称する。
Hereinafter, a corresponding pattern included in the
次に、正規表現解析部32は、読み出されたパターン情報241に含まれる対象該当パターンおよび対象除外パターン(の正規表現)を解析し、当該対象該当パターンおよび対象除外パターンに含まれる自立語(正規表現中の自立語)を抽出する(ステップS2)。
Next, the regular
ここでは、正規表現解析部32は、パターン情報241に含まれる対象該当パターン「/(打合わせ|ミーティング)\[名詞\]」から自立語「打ち合わせ([名詞])」および「ミーティング([名詞])」を抽出する。また、正規表現解析部32は、パターン情報241に含まれる対象除外パターン「/ミーティング\[名詞\]/ルーム\[名詞\]」から自立語「ミーティング([名詞])」および「ルーム([名詞])」を抽出する。正規表現解析部32によって抽出された自立語「打ち合わせ」、「ミーティング」および「ルーム」の各々の品詞は名詞である。
Here, the regular
ここでは、正規表現解析部32は対象該当パターンおよび対象除外パターンに含まれる自立語の全てを抽出するものとして説明したが、当該自立語のうち品詞が名詞である自立語のみが抽出される構成であっても構わない。
Here, although the regular
形態素解析辞書検索部33は、正規表現解析部32によって抽出された自立語と同音かつ同品詞(読みおよび品詞が同一)の単語(自立語)を形態素解析辞書23から検索する(ステップS3)。このとき、形態素解析辞書検索部33は、正規表現解析部32によって抽出された自立語以外の自立語を検索する。
The morpheme analysis
図5に示す形態素解析辞書23によれば、形態素解析辞書検索部33は、正規表現解析部32によって抽出された自立語「打ち合わせ」と読み「うちあわせ」が同一で、かつ、品詞が「名詞」である自立語として、「打合わせ」、「打ちあわせ」、「打ち合せ」、「打合せ」、「撃ち合わせ」、「撃ちあわせ」、「討ち合わせ」および「討ちあわせ」の8語を形態素解析辞書23から検索する。
According to the
なお、図5に示す形態素解析辞書23には、正規表現解析部32によって抽出された自立語「ミーティング」および「ルーム」と同音かつ同品詞の自立語は格納されていないため、当該自立語「ミーティング」および「ルーム」と同音かつ同品詞の自立語は検索されない。
In the
次に、辞書パターン作成部34は、形態素解析辞書検索部33によって検索された自立語に基づいてパターンマッチ用パターンを作成する(ステップS4)。パターンマッチ用パターンには、パターンマッチ用該当パターン、パターンマッチ用除外パターンおよび平文パターンが含まれる。
Next, the dictionary
辞書パターン作成部34は、形態素解析辞書検索部33によって検索された自立語のうち、正規表現解析部32によって対象該当パターンから抽出された自立語と同音かつ同品詞の自立語を当該対象該当パターンの正規表現に挿入することによりパターンマッチ用該当パターンを作成する。
The dictionary
辞書パターン作成部34は、形態素解析辞書検索部33によって検索された自立語のうち、正規表現解析部32によって対象除外パターンから抽出された自立語と同音かつ同品詞の自立語を当該対象除外パターンの正規表現に挿入することによりパターンマッチ用除外パターンを作成する。
The dictionary
また、辞書パターン作成部34は、対象該当パターン(の正規表現)から形態素解析結果記号(例えば品詞を表す「[]」等)を除くことにより平文パターンを作成する。つまり、平文パターンは、対象該当パターンによって表される表現であるが品詞が異なる表現を対象とするパターンである。
Further, the dictionary
ここでは、正規表現解析部32によって対象該当パターンから抽出された自立語「打合わせ」と同音かつ同品詞の自立語「打ち合わせ」、「打ちあわせ」、「打ち合せ」、「打合せ」、「撃ち合わせ」、「撃ちあわせ」、「討ち合わせ」および「討ちあわせ」が形態素解析辞書検索部33によって検索されているため、辞書パターン作成部34は、パターンマッチ用該当パターンとして「/(打ち合わせ|打ちあわせ|打ち合せ|打合せ|撃ち合わせ|撃ちあわせ|討ち合わせ|討ちあわせ)\[名詞\]」を作成する。つまり、パターンマッチ用該当パターンは、自立語「打合わせ」に代えて自立語「打ち合わせ」、「打ちあわせ」、「打ち合せ」、「打合せ」、「撃ち合わせ」、「撃ちあわせ」、「討ち合わせ」および「討ちあわせ」が対象該当パターンの正規表現に挿入されることにより作成される。
Here, the independent words “meeting”, “meeting”, “meeting”, “meeting”, “meeting” with the same sound and part of speech as the independent word “meeting” extracted from the target pattern by the regular
なお、正規表現解析部32によって対象除外パターンから抽出された自立語「ミーティング」および「ルーム」と同音かつ同品詞の自立語は形態素解析辞書検索部33によって検索されていない。この場合、パターンマッチ用除外パターンは作成されない。
Note that independent words having the same sound and part of speech as the independent words “meeting” and “room” extracted from the exclusion pattern by the regular
また、辞書パターン作成部34は、対象該当パターンから形態素解析結果記号が除かれた平文パターンとして「(打合わせ|ミーティング)」を作成する。
Further, the dictionary
次に、パターンマッチ部35は、例文コーパス22に格納されている例文および当該例文の形態素解析結果に対して、対象該当パターン、対象除外パターン、辞書パターン作成部34によって作成されたパターンマッチ用パターン(パターンマッチ用該当パターン、パターンマッチ用除外パターンおよび平文パターン)を適用する。これにより、パターンマッチ部35は、パターンマッチ処理を実行する(ステップS5)。パターンマッチ処理においては、対象該当パターン、対象除外パターンおよびパターンマッチ用パターンの各々にマッチする(つまり、対象該当パターン、対象除外パターンおよびパターンマッチ用パターンの各々によって表される表現を含む)例文が例文コーパス22から抽出され、当該例文のパターンマッチ結果が作成される。なお、以下の説明においては、対象該当パターン、対象除外パターンおよびパターンマッチ用パターンを単にパターンと称する場合がある。
Next, the
上記したパターンマッチ処理によって用いられるパターンは、対象除外パターン、パターンマッチ用除外パターン、対象該当パターン、パターンマッチ用該当パターンおよび平文パターンの順に優先度が高いものとする。これにより、例えば1つの例文の同一箇所(表現)が対象該当パターン、対象除外パターン、パターンマッチ用該当パターン、パターンマッチ用除外パターンおよび平文パターンのうちの複数のパターンにマッチした場合は、当該例文は優先度の高いパターンにマッチしたものとして扱われる。以下、例文の同一箇所にマッチした複数のパターンのうち最も優先度が高いパターンを最優先パターンと称する。 It is assumed that the patterns used in the pattern matching process have a higher priority in the order of a target exclusion pattern, a pattern matching exclusion pattern, a target corresponding pattern, a pattern matching corresponding pattern, and a plaintext pattern. Thus, for example, when the same part (expression) of one example sentence matches a plurality of patterns among the target corresponding pattern, the target excluded pattern, the pattern matching corresponding pattern, the pattern matching excluded pattern, and the plaintext pattern, the corresponding example sentence Are treated as matching high priority patterns. Hereinafter, a pattern having the highest priority among a plurality of patterns that match the same part of the example sentence is referred to as a highest priority pattern.
また、1つの例文において複数箇所(の表現)がパターンにマッチする場合は、当該複数箇所は別々に扱われる。 In addition, when a plurality of locations (expressions) match a pattern in one example sentence, the plurality of locations are handled separately.
なお、パターンマッチ部35によって作成されたパターンマッチ結果は、例えば例文コーパス22から抽出された例文(の平文)または当該例文の形態素解析結果におけるパターンにマッチした部分(表現)を色づけ等の強調表示をして一時的に保存される。
The pattern matching result generated by the
ここで、図8は、該当パターン、除外パターンおよびパターンマッチ用パターン(パターンマッチ用該当パターン、パターンマッチ用除外パターンおよび平文パターン)が適用されたパターンマッチ処理結果の一例を示す。 Here, FIG. 8 shows an example of a pattern matching process result to which the corresponding pattern, the exclusion pattern, and the pattern matching pattern (pattern matching corresponding pattern, pattern matching exclusion pattern, and plaintext pattern) are applied.
図8に示す例では、該当パターンにマッチした例文として、番号「1」によって管理される例文「8日に客先と打合わせ実施。」および当該例文の形態素解析結果「/8[数字]/日[名詞]-に[助詞]/客[名詞]/先[名詞]-と[助詞]/打合わせ[名詞]/実施[名詞]/。[句点]」が示されている。 In the example shown in FIG. 8, as an example sentence that matches the pattern, the example sentence managed by the number “1” “conducted with customer on the 8th” and the morphological analysis result “/ 8 [number] / day of the example sentence” [Noun]-[Participant] / Customer [Noun] / First [Noun]-and [Participant] / Association [Noun] / Execution [Noun] /. [Punct]]
図8に示す例では、該当パターンにマッチした例文として、番号「2」によって管理される例文「今日の打合わせは15時からミーティングルームにて行います。」および当該例文の形態素解析結果「/今日[名詞]-の[助詞]/打ち合わせ[名詞]-は[助詞]/15[数字]/時[名詞]-から[助詞]/ミーティング[名詞]/ルーム[名詞]-にて[助詞]/行い[動詞]-ます[助動詞]/。[句点]」が示されている。 In the example shown in FIG. 8, as an example sentence matched with the corresponding pattern, an example sentence managed by the number “2” “Today's meeting will be held in the meeting room from 15:00” and the morphological analysis result “/ today [ Noun]-[Participant] / Meeting [Noun]-[Participant] / 15 [Number] / Time [Noun] -From [Participant] / Meeting [Noun] / Room [Noun]-[Participant] / Perform [Verb] -mass [auxiliary verb] /. [Phrase] "is shown.
図8に示す例では、除外パターンにマッチした例文として、番号「2」によって管理される例文「今日の打合わせは15時からミーティングルームにて行います。」および当該例文の形態素解析結果「/今日[名詞]-の[助詞]/打ち合わせ[名詞]-は[助詞]/15[数字]/時[名詞]-から[助詞]/ミーティング[名詞]/ルーム[名詞]-にて[助詞]/行い[動詞]-ます[助動詞]/。[句点]」が示されている。 In the example shown in FIG. 8, as an example sentence that matches the exclusion pattern, an example sentence managed by the number “2” “Today's meeting will be held in the meeting room from 15:00” and the morphological analysis result “/ today [ Noun]-[Participant] / Meeting [Noun]-[Participant] / 15 [Number] / Time [Noun] -From [Participant] / Meeting [Noun] / Room [Noun]-[Participant] / Perform [Verb] -mass [auxiliary verb] /. [Phrase] "is shown.
図8に示す例では、平文パターンにマッチした例文として、番号「3」によって管理される例文「今後の方針について打合わせる。」および当該例文の形態素解析結果「/今後[名詞]-の[助詞]/方針[名詞]-について[助詞]/打合わせる[動詞]/。[句点]」が示されている。 In the example shown in FIG. 8, as an example sentence matched with a plain text pattern, an example sentence managed by the number “3” “discusses about future policy” and a morphological analysis result “/ future [noun]-[participant] of the example sentence. ] / Policy [Noun]-[Participant] / Meet [Verb] /. [Phrase]].
図8に示す例では、パターンマッチ用該当パターンにマッチした例文として、番号「106」によって管理される例文「メンバーと進捗確認のために打ち合せをした。」および当該例文の形態素解析結果「/メンバー[名詞]-と[助詞]/進捗[名詞]/確認[名詞]-の[助詞]/ため[名詞]-に[助詞]/打ち合せ[名詞]-を[助詞]/し[動詞]-た[助動詞]/。[句点]」が示されている。 In the example shown in FIG. 8, as an example sentence matched with the corresponding pattern for pattern matching, an example sentence “meeting with a member to confirm progress” managed by the number “106” and a morphological analysis result “/ member” of the example sentence [Noun]-and [Participant] / Progress [Noun] / Confirmation [Noun]-[Participant] / For [Noun]-[Participant] / Association [Noun]-[Participant] / S [Verb] -Ta [Auxiliary verb] /. [Phrase] "is shown.
また、図8に示す例では、パターンマッチ用該当パターンにマッチした例文として、番号「107」によって管理される例文「打ち合わせの日程調整を行います。」および当該例文の形態素解析結果「/打ち合わせ[名詞]-の[助詞]/日程[名詞]/調整[名詞]-を[助詞]/行い[動詞]-ます[助動詞]/。[句点]」が示されている。 In the example shown in FIG. 8, as an example sentence matched with the corresponding pattern for pattern matching, the example sentence “schedule adjustment is performed” managed by the number “107” and the morphological analysis result “/ meeting [ Noun]-[Participant] / Schedule [Noun] / Adjustment [Noun]-[Participant] / Perform [Verb] -Mas [Auxiliary Verb] /. [Puncture]] is shown.
図9は、パターンマッチ部35によって作成されるパターンマッチ結果の一例を示す。図9に示すパターンマッチ結果は、上記した図8に示すパターンマッチ処理結果を該当表現でソートすることによって作成される。
FIG. 9 shows an example of the pattern matching result created by the
ここで、該当表現とは、対象該当パターン、対象除外パターンおよびパターンマッチ用パターンの正規表現を解析し、具体的表現に変換した個々の表現(つまり、当該パターンによって表される各表現)を指す。 Here, the corresponding expression refers to an individual expression (that is, each expression represented by the pattern) obtained by analyzing the regular expressions of the target corresponding pattern, the target exclusion pattern, and the pattern matching pattern and converting them into specific expressions. .
対象該当パターン「/(打合わせ|ミーティング)\[名詞\]」の該当表現は、「/打合わせ[名詞]」および「/ミーティング[名詞]」である。 The corresponding expressions of the target corresponding pattern “/ (meeting | meeting) \ [noun \]” are “/ meeting [noun]” and “/ meeting [noun]”.
対象除外パターン「/ミーティング\[名詞\]/ルーム\[名詞\]」の該当表現は、「/ミーティング[名詞]/ルーム[名詞]」である。 The corresponding expression of the exclusion pattern “/ meeting \ [noun \] / room \ [noun \]” is “/ meeting [noun] / room [noun]”.
パターンマッチ用該当パターン「/(打合わせ|打ちあわせ|打ち合せ|打合せ|撃ち合わせ|撃ちあわせ|討ち合わせ|討ちあわせ)\[名詞\]」の該当表現は、「/打合わせ[名詞]」、「/打ちあわせ[名詞]」、「/打ち合せ[名詞]」、「/打合せ[名詞]」、「/撃ち合わせ[名詞]」、「/撃ちあわせ[名詞]」、「/討ち合わせ[名詞]」および「/討ちあわせ[名詞]」である。 The corresponding expression for the pattern matching pattern "/ (Meeting | Meeting | Meeting | Meeting | Shooting | Shooting | Shooting | Discussing | Discussing) \ [Noun \]" is "/ Meeting [noun]", "/ "Meeting [noun]", "/ Meeting [noun]", "/ Meeting [noun]", "/ Meeting [noun]", "/ Meeting [noun]", "/ Meeting [noun]" and It is “/ debate [noun]”.
また、平文パターン「(打合わせ|ミーティング)」の該当表現は、「打合わせ」および「ミーティング」である。 The corresponding expressions of the plaintext pattern “(meeting | meeting)” are “meeting” and “meeting”.
なお、以下の説明では、対象該当パターンの正規表現を解析し、具体的表現に変換した個々の表現(つまり、該当表現)を単に対象該当パターンの該当表現と称する。対象除外パターンおよびパターンマッチ用パターンについても同様である。 In the following description, a regular expression of a target corresponding pattern is analyzed, and each expression (that is, a corresponding expression) converted into a specific expression is simply referred to as a corresponding expression of the target corresponding pattern. The same applies to the target exclusion pattern and the pattern matching pattern.
図9に示すように、パターンマッチ結果には、マッチした最優先パターン、該当表現、例文および当該例文の形態素解析結果が含まれる。また、パターンマッチ結果においては、該当表現毎に当該該当表現を管理するための番号が付されている。以下の説明においては、パターンマッチ結果に含まれるマッチした最優先パターン、該当表現、例文および当該例文の形態素解析結果を便宜的に当該例文に関する情報と称する場合がある。 As shown in FIG. 9, the pattern matching result includes a matched top priority pattern, a corresponding expression, an example sentence, and a morphological analysis result of the example sentence. In the pattern match result, a number for managing the corresponding expression is assigned to each corresponding expression. In the following description, the matched top-priority pattern, corresponding expression, example sentence, and morphological analysis result of the example sentence included in the pattern match result may be referred to as information related to the example sentence for convenience.
なお、図9に示すパターンマッチ結果においては、マッチした最優先パターンの該当表現が例文および当該例文の形態素解析結果において強調表示されている。 In the pattern matching result shown in FIG. 9, the corresponding expression of the matched top priority pattern is highlighted in the example sentence and the morphological analysis result of the example sentence.
また、図9に示すパターンマッチ結果においては、パターンにマッチする例文(つまり、当該パターンの該当表現を含む例文)が例文コーパス22に存在しない場合には、当該該当表現に対応づけて「パターンマッチする例文なし」と記述されている。
Further, in the pattern matching result shown in FIG. 9, when there is no example sentence matching the pattern (that is, an example sentence including the corresponding expression of the pattern) in the
再び図7に戻ると、結果判定部36および例文追加部37は、パターンマッチ部35によって作成されたパターンマッチ結果を参照して例文追加処理を実行する(ステップS6)。この例文追加処理においては、対象該当パターンおよび対象除外パターンの該当表現を含む例文および当該例文に関する情報が例文コーパス22およびパターンマッチ部35によって作成されたパターンマッチ結果に追加される。なお、例文追加処理の詳細については後述する。
Returning to FIG. 7 again, the
結果出力部38は、例文追加処理によって例文(に関する情報)が追加されたパターンマッチ結果を辞書評価支援情報としてユーザ端末装置40に対して出力する(ステップS7)。
The
結果出力部38によって出力されたパターンマッチ結果は、ユーザ端末装置40の通信インタフェース45によって入力され、表示部43に表示される。これにより、ユーザ端末装置40においては、パターンマッチ結果(辞書評価支援情報)がユーザに対して提示される。
The pattern match result output by the
次に、図10のフローチャートを参照して、上述した例文追加処理(図7に示すステップS6の処理)の処理手順について説明する。ここでは、パターンマッチ部35によって上述した図9に示すパターンマッチ結果が作成されたものとして説明する。 Next, with reference to a flowchart of FIG. 10, a processing procedure of the above-described example sentence addition processing (processing in step S6 shown in FIG. 7) will be described. Here, description will be made assuming that the pattern matching result shown in FIG.
例文追加処理は、対象該当パターンおよび対象除外パターンの該当表現の各々に対して実行される。以下、例文追加処理の対象となる該当表現を対象該当表現と称する。 The example sentence addition process is executed for each of the corresponding expressions of the target corresponding pattern and the target excluded pattern. Hereinafter, the corresponding expression that is the target of the example sentence addition process is referred to as a target corresponding expression.
まず、結果判定部36は、パターンマッチ部35によって作成されたパターンマッチ結果を参照して、対象該当表現を含む例文(の数)を数える。つまり、結果判定部36は、図9に示すパターンマッチ結果において対象該当表現に対応づけられている例文の数(以下、対象該当表現の例文数と表記)を数える。
First, the
図9を用いて具体的に説明すると、対象該当表現が例えば「/打合わせ[名詞]」である場合、当該対象該当表現「/打合わせ[名詞]」の例文数は2である。また、対象該当表現が例えば「/ミーティング[名詞]」である場合、当該対象該当表現「/ミーティング[名詞]」の例文数は0である。また、対象該当表現が例えば「/ミーティング[名詞]/ルーム[名詞]」である場合、当該対象該当表現「/ミーティング[名詞]/ルーム[名詞]」の例文数は1である。 More specifically, referring to FIG. 9, when the target corresponding expression is “/ meeting [noun]”, for example, the number of example sentences of the target corresponding expression “/ meeting [noun]” is two. Further, when the target corresponding expression is “/ meeting [noun]”, for example, the number of example sentences of the target corresponding expression “/ meeting [noun]” is zero. For example, when the target corresponding expression is “/ meeting [noun] / room [noun]”, the number of example sentences of the target corresponding expression “/ meeting [noun] / room [noun]” is one.
次に、結果判定部36は、対象該当表現の例文数が予め定められた数(第1の規定数)以上であるか否かを判定する(ステップS11)。この第1の規定数は、対象該当表現の例文数の下限を示す。
Next, the
対象該当表現が例えば「/ミーティング[名詞]」であって第1の規定数が1である場合には、当該対象該当表現の例文数は0であるため当該対象該当表現の例文数が第1の規定数以上でないと判定される。 For example, when the target corresponding expression is “/ meeting [noun]” and the first specified number is 1, the number of example sentences of the target corresponding expression is 0, so the number of example sentences of the target corresponding expression is the first. It is determined that the specified number is not exceeded.
対象該当表現の例文数が第1の規定数以上でないと判定された場合(ステップS11のNO)、例文追加部37に含まれる例文検索部371は、対象該当表現を含む例文を例えば辞書評価支援装置30の外部のコーパスから検索する(ステップS12)。例文検索部371は、例えばWeb空間等のコーパスから形態素解析結果が対象該当表現を含む例文を検索する。
When it is determined that the number of example sentences of the target corresponding expression is not equal to or greater than the first specified number (NO in step S11), the example
ここで、図11は、対象該当表現が「/ミーティング[名詞]」である場合に例文検索部371によって検索された例文の一例を示す。なお、例文検索部371によって検索された例文は、対象該当表現「/ミーティング[名詞]」を含む例文であって、対象除外パターンの該当表現(ここでは、「/ミーティング[名詞]/ルーム[名詞]」)にはパターンマッチしない例文である。
Here, FIG. 11 shows an example of an example sentence searched by the example
図11に示すように、例文検索部371によって検索された例文には、「ミーティングして。(以下、result_1の例文と表記)」、「明日、御社にミーティングにうかがいます。(以下、result_2の例文と表記)」および「担当者は明日、客先とミーティングを示す。(以下、result3の例文と表記)」が含まれる。
As shown in FIG. 11, the example sentences searched by the example
次に、例文評価部372は、例文検索部371によって検索された例文を構文解析する(ステップS13)。
Next, the example
ここで、図12は、図11に示す例文の構文解析結果の一例を示す。図12に示す構文解析結果では、例えば述語(result2の例文の「うかがいます」およびresult3の例文の「します」等)を木構造のルートとして、文節の係り受け関係が枝構造で示されている。 Here, FIG. 12 shows an example of the syntax analysis result of the example sentence shown in FIG. In the parsing result shown in FIG. 12, for example, the dependency relation of clauses is shown in a branch structure with the predicate (eg “Ukaga” in the example sentence of result2 and “shimasu” in the example sentence in result3) as the root of the tree structure. Yes.
例文評価部372は、例文検索部371によって検索された例文の構文解析結果に基づいて、当該例文の中に適切な日本語文である例文があるか否かを判定する(ステップS14)。例文評価部371は、例えば予め定められた条件(評価基準)に合致する例文が適切な日本語文であると判定する。
The example
ここで、予め定められた条件とは、例えば構文解析結果に「述語」および「主語」が含まれることを示す。なお、この条件は、一例であり他の条件であっても構わない。 Here, the predetermined condition indicates, for example, that “predicate” and “subject” are included in the syntax analysis result. Note that this condition is an example, and other conditions may be used.
上記した図12に示す例文の構文解析結果によれば、result3の例文がこの条件に合致する。このため、例文評価部372は、適切な日本語文である例文があると判定する。
According to the syntax analysis result of the example sentence shown in FIG. 12, the example sentence of result3 matches this condition. For this reason, the example
例文評価部372によって適切な日本語文である例文があると判定された場合(ステップS14のYES)、結果判定部36は、当該例文を例文コーパス22に追加し、当該例文に関する情報をパターンマッチ部35によって作成されたパターンマッチ結果に追加する(ステップS15)。
When the example
パターンマッチ部35によって作成されたパターンマッチ結果に追加される例文に関する情報には、マッチした最優先パターン、該当表現、例文および当該例文の形態素解析結果が含まれる。なお、この例文に関する情報(第3の例文のパターンマッチ結果)は、対象該当表現および当該例文に基づいて例文評価部372によって作成される。
The information related to the example sentence added to the pattern matching result created by the
ステップS15の処理が実行されると、対象該当パターンおよび対象除外パターンの該当表現の全てについて例文追加処理(上記したステップS11以降の処理)が実行されたか否かが判定される(ステップS16)。 When the process of step S15 is executed, it is determined whether or not the example sentence addition process (the process after step S11 described above) has been executed for all the corresponding expressions of the target corresponding pattern and the target excluded pattern (step S16).
該当表現の全てについて例文追加処理が実行されていないと判定された場合(ステップS16のNO)、ステップS11に戻って処理が繰り返される。この場合、処理が実行されていない該当表現を対象該当表現として処理が実行される。 If it is determined that the example sentence addition process has not been executed for all the corresponding expressions (NO in step S16), the process returns to step S11 and the process is repeated. In this case, the process is executed with the corresponding expression that has not been processed as the target corresponding expression.
一方、該当表現の全てについて例文追加処理が実行されたと判定された場合(ステップS16のYES)、例文追加処理は終了される。 On the other hand, when it is determined that the example sentence addition process has been executed for all the corresponding expressions (YES in step S16), the example sentence addition process is terminated.
この場合、上記したように例文(例文検索部371によって検索された例文であって例文評価部372によって適切な日本語文であると判定された例文)に関する情報が追加されたパターンマッチ結果が該当表現(対象該当パターン、対象除外パターンおよびパターンマッチ用パターンの該当表現)でソートされる。このパターンマッチ結果は、辞書評価支援情報としてユーザ端末装置40を介してユーザに提示される。
In this case, as described above, the pattern match result to which the information related to the example sentence (the example sentence retrieved by the example
ここで、図13は、ユーザに提示される辞書評価支援情報の一例を示す。図13に示す辞書評価支援情報は、上述した図9に示すパターンマッチ結果に図11および図12に示すresult3の例文に関する情報が追加された場合の辞書評価支援情報を示す。 Here, FIG. 13 shows an example of dictionary evaluation support information presented to the user. The dictionary evaluation support information illustrated in FIG. 13 indicates dictionary evaluation support information when information related to the example sentence of result3 illustrated in FIGS. 11 and 12 is added to the pattern match result illustrated in FIG. 9 described above.
図13に示すように、辞書評価支援情報には、上述した図9に示すパターンマッチ結果と同様に、マッチした最優先パターン、該当表現、例文および当該例文の形態素解析結果が含まれる。 As shown in FIG. 13, the dictionary evaluation support information includes the matched top priority pattern, the corresponding expression, the example sentence, and the morphological analysis result of the example sentence, similarly to the pattern matching result shown in FIG.
なお、図13に示すように、辞書評価支援情報には、パターンマッチ結果以外に、例えばパターンマッチ辞書24の名称(パターンマッチ辞書名)、ユーザによって選択されたコード(パターンマッチ辞書24における行のコード)、該当パターン(対象該当パターン)および除外パターン(対象除外パターン)が含まれる。 As shown in FIG. 13, the dictionary evaluation support information includes, in addition to the pattern match result, for example, the name of the pattern match dictionary 24 (pattern match dictionary name), the code selected by the user (the line of the pattern match dictionary 24). Code), corresponding pattern (target corresponding pattern), and exclusion pattern (target exclusion pattern).
図13に示す例では、辞書評価支援情報には、パターンマッチ辞書名「パターンマッチ辞書01」、行のコード「a001」、該当パターン「/(打合わせ|ミーティング)\[名詞\]」および除外パターン「/ミーティング\[名詞\]/ルーム\[名詞\]」が含まれている。 In the example shown in FIG. 13, the dictionary evaluation support information includes a pattern match dictionary name “pattern match dictionary 01”, a line code “a001”, a corresponding pattern “/ (meeting | meeting) \ [noun \]”, and an exclusion pattern. "/ Meeting \ [noun \] / room \ [noun \]" is included.
このように、ユーザに提示される辞書評価支援情報においては、各該当表現を含む例文および当該例文の形態素解析結果において当該該当表現(該当パターン、除外パターンパターンマッチ用パターンによって表される該当表現)が強調して示される。 As described above, in the dictionary evaluation support information presented to the user, the corresponding expression (corresponding expression represented by the corresponding pattern and the pattern for exclusion pattern pattern matching) in the example sentence including each corresponding expression and the morphological analysis result of the example sentence. Is highlighted.
これにより、ユーザは、ユーザ端末装置40(の表示部43)によって表示された上記した辞書評価支援情報を参照することによって、例えばパターンマッチ辞書24に登録されているパターン情報(の該当パターン)によって抽出される表現を確認することができるため、当該パターンマッチ辞書24の評価作業を容易に行うことができる。
Thereby, the user refers to the above-described dictionary evaluation support information displayed by the user terminal device 40 (
なお、上記した図10に示すステップS11において例文数が第1の規定数以上であると判定された場合には、ステップS16の処理が実行される。つまり、対象該当表現を含む例文数は十分であるため、当該対象該当表現を含む例文の追加処理は行われない。 If it is determined in step S11 shown in FIG. 10 that the number of example sentences is greater than or equal to the first specified number, the process of step S16 is executed. That is, since the number of example sentences including the target corresponding expression is sufficient, the addition process of the example sentence including the target corresponding expression is not performed.
図10に示す例文追加処理は、対象該当パターンおよび対象除外パターンの該当表現の各々に対して実行されるものとして説明したが、例えばパターンマッチ用パターンの該当表現に対しても実行される構成であっても構わない。 The example sentence addition process shown in FIG. 10 has been described as being executed for each of the corresponding expressions of the target corresponding pattern and the target excluded pattern. It does not matter.
上記したように本実施形態においては、パターンマッチ辞書24に格納されている該当パターンおよび除外パターンによって表される表現に含まれる自立語(第1の自立語)と同音かつ同品詞の自立語(第2の自立語)が形態素解析辞書23から検索される。本実施形態においては、形態素解析辞書23から検索された自立語を含む表現を表すパターンマッチ用パターン(パターンマッチ用該当パターン、パターンマッチ用除外パターンおよび平文パターン)が作成され、パターンマッチ辞書24に格納されている該当パターン、除外パターン、当該パターンマッチ用パターンが例文コーパス22に格納されている例文(および当該例文の形態素解析結果)に適用される。本実施形態においては、該当パターン、除外パターンおよびパターンマッチ用パターンにマッチする例文のパターンマッチ結果(マッチした最優先パターン、該当表現、例文および例文の形態素解析結果)が辞書評価支援情報としてユーザに対して提示される。
As described above, in the present embodiment, an independent word that has the same sound and the same part of speech as the independent word (first independent word) included in the expression represented by the corresponding pattern and the excluded pattern stored in the
これにより、本実施形態においては、辞書評価支援情報に含まれるパターンマッチ用パターンの該当表現を辞書登録追加候補としてユーザに提示することができるため、当該ユーザは、当該辞書評価支援情報を参照することによって、パターンマッチ辞書24に格納(登録)されている該当パターン(および除外パターン)と同義の曖昧表現の登録漏れ(例えば「打合わせ」は登録されているのに対して「打ち合せ」が登録されていない等)を発見し当該パターンマッチ辞書24に追加登録できる。
Thereby, in this embodiment, since the corresponding expression of the pattern for pattern matching included in the dictionary evaluation support information can be presented to the user as a dictionary registration addition candidate, the user refers to the dictionary evaluation support information. As a result, the registration omission of the ambiguous expression having the same meaning as the corresponding pattern (and the exclusion pattern) stored (registered) in the pattern match dictionary 24 (for example, “meeting” is registered while “meeting” is registered). And the like can be additionally registered in the
また、本実施形態においては、パターンマッチ辞書24に格納されている該当パターンまたは除外パターンの該当表現を含む例文数が規定数以上でない場合には、当該該当パターンまたは除外パターンの該当表現を含む例文が例えばWeb空間等の外部のコーパスから検索される。本実施形態においては、外部のコーパスから検索された例文が適切な日本語文であるか否かが判定され、当該適切な日本語文であると判定された例文が例文コーパス22に追加され、当該例文に関する情報(当該例文のパターンマッチ結果)がパターンマッチ部35によって作成されたパターンマッチ結果(辞書評価支援情報)に追加される。
In the present embodiment, when the number of example sentences including the corresponding expression of the corresponding pattern or the exclusion pattern stored in the
これにより、本実施形態においては、上記したように例えば該当パターンの該当表現「/ミーティング\[名詞\]」を含む例文が例文コーパス22に格納されていないような場合であっても、辞書評価支援情報に当該該当パターンの該当表現「/ミーティング\[名詞\]」を含む例文を追加することができる。このため、辞書評価支援情報が提示されたユーザは、該当表現「/ミーティング\[名詞\]」を含む例文を確認することができるため、該当パターン(の該当表現)を適切に評価することができる。
Thus, in the present embodiment, as described above, for example, even when an example sentence including the corresponding expression “/ meeting \ [noun \]” of the corresponding pattern is not stored in the
また、本実施形態においては、該当パターン、除外パターンおよびパターンマッチ用パターンの該当表現で例文および当該例文の形態素解析結果がソートされて出力される(提示される)ため、ユーザは辞書評価支援情報を参照することによって当該該当表現の正否を効率的に評価することができる。 In the present embodiment, the example sentence and the morphological analysis result of the example sentence are sorted and output (presented) by the corresponding expression of the corresponding pattern, the exclusion pattern, and the pattern matching pattern. By referring to, whether the corresponding expression is correct or not can be evaluated efficiently.
更に、本実施形態においては、パターンマッチ用パターンとして平文パターンを用いることで、例えば形態素解析結果は異なるがパターンマッチ辞書24に登録された該当パターンの該当表現と平文(形態素解析されていない文)において同一となる表現を含む例文をユーザに対して提示することができるので、当該ユーザは形態素解析結果が異なる該当表現の辞書登録漏れを発見し、パターンマッチ辞書24に追加登録することが可能となる。
Furthermore, in this embodiment, by using a plaintext pattern as the pattern matching pattern, for example, the corresponding expression of the corresponding pattern registered in the
なお、本実施形態においては、辞書評価支援装置30による評価対象となるパターンマッチ辞書24が例えば業務文書チェックに用いられる概念辞書であるものとして説明したが、例えば表層表現から文章の内容を判定する処理において同様のパターンマッチ辞書24が用いられる場合に、当該パターンマッチ辞書24を評価対象とすることも可能である。
In the present embodiment, the
[第2の実施形態]
次に、本発明の第2の実施形態について説明する。なお、本実施形態に係る辞書評価支援装置の機能構成は、前述した第1の実施形態と同様であるため、前述した図2を用いて説明する。
[Second Embodiment]
Next, a second embodiment of the present invention will be described. The functional configuration of the dictionary evaluation support apparatus according to this embodiment is the same as that of the first embodiment described above, and will be described with reference to FIG. 2 described above.
本実施形態においては、辞書評価支援装置30に含まれる形態素解析辞書23に自立語の標準表記が更に格納される点が前述した第1の実施形態とは異なる。
This embodiment is different from the first embodiment described above in that the standard notation of independent words is further stored in the
ここで、図14は、本実施形態に係る辞書評価支援装置30に含まれる形態素解析辞書23のデータ構造の一例を示す。
Here, FIG. 14 shows an example of the data structure of the
図14に示すように、形態素解析辞書23には、前述した図5に示す自立語の見出し語、当該自立語の読み、当該自立語の品詞および当該自立語が用言である場合の当該自立語の活用型に加えて、当該自立語の標準表記が対応づけて格納される。
As shown in FIG. 14, the
図14に示す例では、形態素解析辞書23には、例えば見出し語「以下」に対応づけて標準表記「以下」が格納されている。
In the example shown in FIG. 14, the
形態素解析辞書23には、例えば見出し語「打ち合わせ」、「打合わせ」、「打ちあわせ」、「打ち合せ」および「打合せ」に対応づけて標準標記「打ち合わせ」が格納されている。
The
形態素解析辞書23には、例えば見出し語「撃ち合わせ」および「撃ちあわせ」に対応づけて標準表記「撃ち合わせ」が格納されている。
In the
形態素解析辞書23には、例えば見出し語「討ち合わせ」および「討ちあわせ」に対応づけて標準表記「討ち合わせ」が格納されている。
In the
形態素解析辞書23には、例えば見出し語「ミーティング」に対応づけて標準表記「ミーティング」が格納されている。
In the
形態素解析辞書23には、例えば見出し語「ルーム」に対応づけて標準表記「ルーム」が格納されている。
In the
また、形態素解析辞書23には、例えば見出し語「打ち合わせる」に対応づけて標準表記「打ち合わせる」が格納されている。
The
以下、本実施形態に係る辞書評価支援装置30の動作について説明する。本実施形態に係る辞書評価支援装置30に含まれる形態素解析辞書検索部33は、正規表現解析部32によって抽出された自立語と同音かつ同品詞の自立語であって標準表記が同一の自立語(標準表記が一致する自立語)を形態素解析辞書23から検索する。
Hereinafter, the operation of the dictionary
なお、本実施形態に係る辞書評価支援装置30においては、上記した形態素解析辞書検索部33の動作以外は前述した第1の実施形態に係る辞書評価支援装置30と同様であるためその詳しい説明は省略する。
Note that the dictionary
上記したように本実施形態においては、正規表現解析部32によって抽出された自立語と同音かつ同品詞であって標準表記が一致する自立語が形態素解析辞書検索部33によって検索されることで、最終的にユーザに対して辞書登録追加候補として提示されるパターンマッチ用パターンの該当表現から同音かつ同品詞であるが意味が異なる可能性の高い表現を省くことが可能となる。
As described above, in the present embodiment, the morphological analysis
具体的には、前述した第1の実施形態においてはパターンマッチ用該当パターンの該当表現が「/打合わせ[名詞]」、「/打ちあわせ[名詞]」、「/打ち合せ[名詞]」、「/打合せ[名詞]」、「/撃ち合わせ[名詞]」、「/撃ちあわせ[名詞]」、「/討ち合わせ[名詞]」および「/討ちあわせ[名詞]」であったのに対して、本実施形態においては、パターンマッチ用該当パターンの該当表現を「/打合わせ[名詞]」、「/打ちあわせ[名詞]」、「/打ち合せ[名詞]」、「/打合せ[名詞]」に限定することができる。 Specifically, in the first embodiment described above, the corresponding expression of the corresponding pattern for pattern matching is “/ meeting [noun]”, “/ meeting [noun]”, “/ meeting [noun]”, “/ While this was a meeting [noun], "/ shoot together [noun]", "/ shoot together [noun]", "/ discuss [noun]" and "/ discuss [noun]" In the embodiment, the corresponding expression of the corresponding pattern for pattern matching is limited to “/ meeting [noun]”, “/ meeting [noun]”, “/ meeting [noun]”, “/ meeting [noun]”. Can do.
これにより、本実施形態においては、辞書評価支援情報に基づく辞書評価作業の効率を向上させることができる。 Thereby, in this embodiment, the efficiency of the dictionary evaluation work based on dictionary evaluation support information can be improved.
[第3の実施形態]
次に、本発明の第3の実施形態について説明する。なお、本実施形態に係る辞書評価支援装置の機能構成は、前述した第1の実施形態と同様であるため、前述した図2を用いて説明する。
[Third Embodiment]
Next, a third embodiment of the present invention will be described. The functional configuration of the dictionary evaluation support apparatus according to this embodiment is the same as that of the first embodiment described above, and will be described with reference to FIG. 2 described above.
本実施形態においては、辞書評価支援装置30に含まれる形態素解析辞書23に自立語の意味分類が更に格納される点が前述した第1の実施形態とは異なる。
This embodiment is different from the first embodiment described above in that the meaning classification of independent words is further stored in the
ここで、図15は、本実施形態に係る辞書評価支援装置30に含まれる形態素解析辞書23のデータ構造の一例を示す。
Here, FIG. 15 shows an example of the data structure of the
図15に示すように、形態素解析辞書23には、前述した図5に示す自立語の見出し語、当該自立語の読み、当該自立語の品詞および当該自立語が用言である場合の当該自立語の活用型に加えて、当該自立語の意味分類(を示す情報)が対応づけて格納される。
As shown in FIG. 15, the
図15に示す例では、形態素解析辞書23には、例えば見出し語「以下」に対応づけて意味分類「範囲指定」が格納されている。
In the example shown in FIG. 15, the
形態素解析辞書23には、例えば見出し語「打ち合わせ」、「打合わせ」、「打ちあわせ」、「打ち合せ」および「打合せ」に対応づけて意味分類「会合」が格納されている。
The
形態素解析辞書23には、例えば見出し語「撃ち合わせ」および「撃ちあわせ」に対応づけて意味分類「射撃行為」が格納されている。
The
形態素解析辞書23には、例えば見出し語「討ち合わせ」および「討ちあわせ」に対応づけて意味分類「攻撃行為」が格納されている。
The
形態素解析辞書23には、例えば見出し語「ミーティング」に対応づけて意味分類「会合」が格納されている。
The
形態素解析辞書23には、例えば見出し語「ルーム」に対応づけて意味分類「設備」が格納されている。
The
また、形態素解析辞書23には、例えば見出し語「打ち合わせる」に対応づけて意味分類「会合」が格納されている。
The
以下、本実施形態に係る辞書評価支援装置30の動作について説明する。本実施形態に係る辞書評価支援装置30に含まれる形態素解析辞書検索部33は、正規表現解析部32によって抽出された自立語と同音かつ同品詞の自立語であって意味分類が同一の自立語(意味分類が一致する自立語)を形態素解析辞書23から検索する。
Hereinafter, the operation of the dictionary
なお、本実施形態に係る辞書評価支援装置30においては、上記した形態素解析辞書検索部33の動作以外は前述した第1の実施形態に係る辞書評価支援装置30と同様であるためその詳しい説明は省略する。
Note that the dictionary
上記したように本実施形態においては、正規表現解析部32によって抽出された自立語と同音かつ同品詞であって意味分類が一致する自立語が形態素解析辞書検索部33によって検索されることで、最終的にユーザに対して辞書登録追加候補として提示されるパターンマッチ用パターンの該当表現から同音かつ同品詞であるが意味が異なる可能性の高い表現を省くことが可能となる。
As described above, in the present embodiment, the morphological analysis
具体的には、前述した第1の実施形態においてはパターンマッチ用該当パターンの該当表現が「/打合わせ[名詞]」、「/打ちあわせ[名詞]」、「/打ち合せ[名詞]」、「/打合せ[名詞]」、「/撃ち合わせ[名詞]」、「/撃ちあわせ[名詞]」、「/討ち合わせ[名詞]」および「/討ちあわせ[名詞]」であったのに対して、本実施形態においては、パターンマッチ用該当パターンの該当表現を「/打合わせ[名詞]」、「/打ちあわせ[名詞]」、「/打ち合せ[名詞]」、「/打合せ[名詞]」に限定することができる。 Specifically, in the first embodiment described above, the corresponding expression of the corresponding pattern for pattern matching is “/ meeting [noun]”, “/ meeting [noun]”, “/ meeting [noun]”, “/ While this was a meeting [noun], "/ shoot together [noun]", "/ shoot together [noun]", "/ discuss [noun]" and "/ discuss [noun]" In the embodiment, the corresponding expression of the corresponding pattern for pattern matching is limited to “/ meeting [noun]”, “/ meeting [noun]”, “/ meeting [noun]”, “/ meeting [noun]”. Can do.
これにより、本実施形態においては、辞書評価支援情報に基づく辞書評価作業の効率を向上させることができる。 Thereby, in this embodiment, the efficiency of the dictionary evaluation work based on dictionary evaluation support information can be improved.
[第4の実施形態]
次に、本発明の第4の実施形態について説明する。なお、本実施形態に係る辞書評価支援装置の機能構成は、前述した第1の実施形態と同様であるため、前述した図2を用いて説明する。
[Fourth Embodiment]
Next, a fourth embodiment of the present invention will be described. The functional configuration of the dictionary evaluation support apparatus according to this embodiment is the same as that of the first embodiment described above, and will be described with reference to FIG. 2 described above.
本実施形態においては、辞書評価支援装置30に含まれる形態素解析辞書23に自立語の意味が更に格納される点が前述した第1の実施形態とは異なる。
This embodiment is different from the first embodiment described above in that the meaning of an independent word is further stored in the
ここで、図16は、本実施形態に係る辞書評価支援装置30に含まれる形態素解析辞書23のデータ構造の一例を示す。
Here, FIG. 16 shows an example of the data structure of the
図16に示すように形態素解析辞書23には、前述した図5に示す自立語の見出しと、当該自立語の読み、当該自立語の品詞及び当該自立語が用言である場合の当該自立語の活用型に加えて、当該自立語の意味(を示す情報)が対応づけて格納される。
As shown in FIG. 16, the
図16に示す例では、形態素解析辞書23には、例えば見出し語「いか」に対応づけて意味「数量・程度・優劣などの比較で、それより下の範囲であること」が格納されている。
In the example shown in FIG. 16, the
形態素解析辞書23には、例えば見出し語「打ち合わせ」、「打合わせ」、「打ちあわせ」、「打ち合せ」および「打合せ」に対応づけて意味「前もって相談すること」が格納されている。
The
形態素解析辞書23には、例えば見出し語「撃ち合わせ」および「撃ちあわせ」に対応づけて意味「射撃をすること」が格納されている。
The
形態素解析辞書23には、例えば見出し語「討ち合わせ」および「討ちあわせ」に対応づけて意味「討伐すること」が格納されている。
The
形態素解析辞書23には、例えば見出し語「ミーティング」に対応づけて意味「少人数の集会」が格納されている。
The
形態素解析辞書23には、例えば見出し語「ルーム」に対応づけて意味「部屋」が格納されている。
In the
また、形態素解析辞書23には、例えば見出し語「打ち合わせる」に対応づけて意味「前もって相談する」が格納されている。
In addition, the
以下、本実施形態に係る辞書評価支援装置30の動作について説明する。本実施形態に係る辞書評価支援装置30に含まれる形態素解析辞書検索部33は、前述した第1の実施形態と同様に、正規表現解析部32によって抽出された自立語と同音かつ同品詞の自立語を形態素解析辞書23から検索する。
Hereinafter, the operation of the dictionary
形態素解析辞書検索部33は、検索処理後に、当該検索された自立語、当該自立語に対応づけて形態素解析辞書23に格納されている当該自立語の品詞および当該自立語の意味(を示す情報)をユーザ端末装置40に出力する。
The morpheme analysis
形態素解析辞書検索部33は、出力された自立語をパターンマッチ用パターンの該当表現とするか否かのユーザによる選択を受け付ける。
The morphological analysis
ユーザ端末装置40(に含まれる表示部43)においては、形態素解析辞書検索部33によって出力された自立語、当該自立語の品詞および当該自立語の意味が表示される選択画面がユーザに対して表示(提示)される。ユーザは、表示部43によって表示された選択画面を介して辞書登録追加候補となり得る自立語を選択することができる。
In the user terminal device 40 (the
ここで、図17は、ユーザ端末装置40に含まれる表示部43によって表示される選択画面の一例を示す。図17に示すように、選択画面431には、形態素解析辞書検索部33によって検索された自立語(の見出し語)、当該自立語の品詞および当該自立語の意味が表示される。また、選択画面431には、形態素解析辞書検索部33によって検索された自立語に対応づけてチェックボックスが表示されている。
Here, FIG. 17 shows an example of a selection screen displayed by the
ユーザは、この選択画面431を参照することにより、形態素解析辞書検索部33によって検索された自立語の品詞および意味を確認することができる。また、ユーザは、例えばユーザ端末装置40に含まれる入力部44に対する操作により、当該選択画面431に表示されているチェックボックスをチェックすることで、当該チェックボックスに対応づけられている自立語を辞書登録追加候補となり得る自立語として選択することができる。
By referring to the
辞書評価支援装置30(に含まれる辞書パターン作成部34)においては、形態素解析辞書検索部33によって検索された自立語のうち上記したようにユーザによって選択された自立語のみに基づいてパターンマッチ用パターンが作成される。
In the dictionary evaluation support device 30 (the dictionary
上記したように本実施形態においては、正規表現解析部32によって抽出された自立語と同音かつ同品詞である自立語が形態素解析辞書検索部33によって検索され、当該検索された自立語、当該自立語の品詞および当該自立語の意味がユーザ端末装置40に対して出力される。これにより、本実施形態においては、ユーザは、自立語、当該自立語の品詞および当該自立語の意味が表示される選択画面において、当該自立語の品詞および意味を確認することで辞書登録追加候補としてふさわしい自立語を容易に判断することができる。
As described above, in the present embodiment, an independent word having the same sound and the same part of speech as the independent word extracted by the regular
また、本実施形態においては、辞書パターン作成部34によって作成されるパターンマッチ用パターンをユーザによって選択された自立語のみに限定することで、辞書評価支援装置30における処理の効率を向上させることが可能となる。
Further, in the present embodiment, by limiting the pattern matching pattern created by the dictionary
[第5の実施形態]
次に、本発明の第5の実施形態について説明する。なお、本実施形態に係る辞書評価支援装置の機能構成は、前述した第1の実施形態と同様であるため、前述した図2を用いて説明する。
[Fifth Embodiment]
Next, a fifth embodiment of the present invention will be described. The functional configuration of the dictionary evaluation support apparatus according to this embodiment is the same as that of the first embodiment described above, and will be described with reference to FIG. 2 described above.
本実施形態においては、パターンマッチ辞書24に格納されている該当パターンおよび除外パターンの該当表現を含む例文数が予め定められた数以下でない場合に、当該例文数を削減する処理(以下、例文削減処理と表記)が実行される点が前述した第1の実施形態とは異なる。
In the present embodiment, when the number of example sentences including the corresponding expression of the corresponding pattern and the exclusion pattern stored in the
図18のフローチャートを参照して、本実施形態に係る辞書評価支援装置30の処理手順について説明する。
With reference to the flowchart of FIG. 18, the process procedure of the dictionary
まず、前述した図7に示すステップS1〜ステップS6の処理に相当するステップS21〜ステップS26の処理が実行される。 First, the process of step S21-step S26 equivalent to the process of step S1-step S6 shown in FIG. 7 mentioned above is performed.
なお、ステップS21においてパターンマッチ辞書24から読み出されたパターン情報に含まれる該当パターンを対象該当パターンと称する。また、ステップS21においてパターンマッチ辞書24から読み出されたパターン情報に含まれる除外パターンを対象除外パターンと称する。
The corresponding pattern included in the pattern information read from the
また、対象該当パターン、対象除外パターンおよびステップS24において作成されたパターンマッチ用パターンの正規表現を解析し、具体的表現に変換した個々の表現を該当表現と称する。 In addition, the target corresponding pattern, the target excluded pattern, and the regular expression of the pattern matching pattern created in step S24 are analyzed, and each expression converted into a specific expression is referred to as a corresponding expression.
次に、結果判定部36は、パターンマッチ部35によって作成されたパターンマッチ結果(ステップS26における例文追加処理後のパターンマッチ結果)を参照して例文削除処理を実行する(ステップS27)。この例文削除処理においては、対象該当パターンおよび対象除外パターンの該当表現を含む例文の形態素解析結果に基づいて、対象該当パターンおよび対象除外パターンの該当表現を含む例文(に関する情報)がパターンマッチ部35によって作成されたパターンマッチ結果から削除される。つまり、例文削除処理においては、パターンマッチ部35によって作成されたパターンマッチ結果における対象該当パターンおよび対象除外パターンの該当表現を含む例文(第1の例文)の数が削減される。この例文削除処理の詳細については後述する。
Next, the
ステップS27の処理が実行されると、前述したステップS7の処理に相当するステップS28の処理が実行される。この場合、結果出力部38は、例文削除処理によって例文(に関する情報)が削除されたパターンマッチ結果を辞書評価支援情報としてユーザ端末装置40に対して出力する。
When the process of step S27 is executed, the process of step S28 corresponding to the process of step S7 described above is executed. In this case, the
次に、図19のフローチャートを参照して、上述した例文削除処理(上述した図18に示すステップS27の処理)の処理手順について説明する。 Next, a processing procedure of the above-described example sentence deletion process (the above-described process of step S27 shown in FIG. 18) will be described with reference to the flowchart of FIG.
例文削除処理は、対象該当パターンおよび対象除外パターンの該当表現の各々に対して実行される。以下、例文削除処理の対象となる該当表現を対象該当表現と称する。 The example sentence deletion process is executed for each of the corresponding expressions of the target corresponding pattern and the target excluded pattern. Hereinafter, a corresponding expression that is a target of the example sentence deletion process is referred to as a target corresponding expression.
まず、結果判定部36は、パターンマッチ部35によって作成されたパターンマッチ結果を参照して、対象該当表現を含む例文(の数)を数える。つまり、結果判定部36は、パターンマッチ部35によって作成されたパターンマッチ結果において対象該当表現に対応づけられている例文の数(対象該当表現の例文数)を数える。
First, the
ここで、図20は、パターンマッチ部35によって作成されたパターンマッチ結果に含まれる例えば対象該当パターンの該当表現「/打合わせ[名詞]」を含む例文の一例を示す。
Here, FIG. 20 shows an example of an example sentence including, for example, a corresponding expression “/ meeting [noun]” of the target corresponding pattern included in the pattern matching result created by the
図20に示すように、パターンマッチ結果において対象該当パターンの該当表現「/打合わせ[名詞]」に対応づけられている例文は、例えば「8日に客先と打合わせ実施。」、「今日の打合わせは15時からミーティングルームにて行います。」および「8月中に客先と打合わせ予定。」であるものとする。 As shown in FIG. 20, the example sentences associated with the corresponding expression “/ meeting [noun]” of the target corresponding pattern in the pattern matching result are, for example, “meeting with customer on 8th”, “today's meeting”. Will be held in the meeting room from 15:00 "and" Scheduled to meet with customers in August. "
以下、図20に示す例文「8日に客先と打合わせ実施。」を例文1と称し、例文「今日の打合わせは15時からミーティングルームにて行います。」を例文2と称し、例文「8月中に客先と打合わせ予定。」を例文3と称する。
Hereafter, the example sentence “Meeting with the customer on the 8th” shown in FIG. 20 will be referred to as Example sentence 1, and the example sentence “Today's meeting will be held in the meeting room from 15:00” will be referred to as
図20に示す例では、パターンマッチ結果に含まれる対象該当表現「/打合わせ[名詞]」の例文数は3である。 In the example illustrated in FIG. 20, the number of example sentences of the target corresponding expression “/ meeting [noun]” included in the pattern matching result is three.
再び図19に戻ると、結果判定部36は、対象該当表現の例文数が予め定められた数(第2の規定数)以内(以下)であるか否かを判定する(ステップS31)。この第2の規定数は、対象該当表現の上限を示す。ここでは、第2の規定数(例文数の上限)は、2であるものとする。
Returning to FIG. 19 again, the
例えば図20に示す対象該当表現「/打合わせ[名詞]」の例文数は3であるため、結果判定部36は、当該対象該当表現の例文数が第2の規定数以内でないと判定する。
For example, since the number of example sentences of the target corresponding expression “/ meeting [noun]” illustrated in FIG. 20 is 3, the
対象該当表現の例文数が第2の規定数以内でないと判定された場合(ステップS31のNO)、結果判定部36は、パターンマッチ部35によって作成されたパターンマッチ結果に含まれる対象該当表現を含む例文(対象該当表現に対する例文)を順に当該パターンマッチ結果から取り出す。ここでは、上記した例文1、例文2、例文3の順に取り出されるものとする。
When it is determined that the number of example sentences of the target corresponding expression is not within the second specified number (NO in step S31), the
ここで、パターンマッチ部35によって作成されたパターンマッチ結果に含まれる例文において該当表現を含む文節および当該文節の直前直後の文節の構成品詞を当該例文における該当構成品詞と称する。
Here, in the example sentence included in the pattern matching result generated by the
結果判定部36は、パターンマッチ結果から取り出された例文における該当構成品詞および既に取り出された例文における該当構成品詞を比較することにより、当該該当構成品詞が同一であるか否かを当該例文の形態素解析結果に基づいて判定する(ステップS32)。
The
上記した図20に示す例文1「8日に客先と打合わせ実施。」の該当構成品詞は、対象該当表現(打合わせ)の直前の文節が「名詞+助詞」、当該対象該当表現を含む文節が「対象該当表現」、当該対象該当表現の直後の文節が「名詞」である。 As for the corresponding part of speech of the example sentence 1 “meeting with the customer on the 8th” shown in FIG. 20, the phrase immediately before the target corresponding expression (meeting) is “noun + particle”, and the phrase including the target corresponding expression is The “target corresponding expression” and the clause immediately after the target corresponding expression are “nouns”.
また、図20に示す例文2「今日の打ち合わせは15時からミーティングルームにて行います。」の該当構成品詞は、対象該当表現(打合わせ)の直前の文節が「名詞+助詞」、当該対象該当表現を含む文節が「対象該当表現+助詞」、直後の文節が「数字」である。
In addition, the corresponding part of speech of
ここで、例えば例文1が既に取り出されているものとすると、例文2における該当構成品詞は既に取り出された例文1における該当構成品詞と同一でない。よって、結果判定部36は、例文2における該当構成品詞および既に取り出された例文1における該当構成品詞は同一でないと判定する(ステップS32のNO)。
Here, for example, assuming that the example sentence 1 has already been taken out, the corresponding component part of speech in the
この場合、結果判定部36は、対象該当表現を含む例文(ここでは、例文1〜3)の全てについて処理が実行されたか否かを判定する(ステップS34)。
In this case, the
ここでは、例文3については処理が実行されていないため、結果判定部36は、対象該当表現を含む例文の全てについて処理が実行されていないと判定する(ステップS34のNO)。この場合、上記したステップS32に戻って処理が繰り返される。
Here, since the process is not executed for the
ここで、図20に示す例文3「8月中に客先と打合わせ予定。」の該当構成品詞は、対象該当表現(打合わせ)の直前の文節が「名詞+助詞」、該当表現を含む文節が「該当表現」、当該対象該当表現の直後の文節が「名詞」である。
Here, the corresponding component part of the
上記したように例文1、例文2、例文3の順に取り出されるものとすると、例文3における該当構成品詞は既に取り出された例文1における該当構成品詞と同一である。よって、結果判定部36は、例文3における該当構成品詞および既に取り出された例文1における該当構成品詞は同一であると判定する(ステップS32のYES)。
As described above, assuming that example sentence 1,
この場合、結果判定部32は、パターンマッチ部35によって作成されたパターンマッチ結果から例文3(に関する情報)を削除する(ステップS33)。
In this case, the
これにより、結果判定部32は、パターンマッチ部35によって作成されたパターンマッチ結果における対象該当表現の例文数を削減することができる。ステップS33の処理が実行されると、上記したステップS34の処理が実行される。
Thereby, the
ステップS34において対象該当表現を含む例文の全てについて処理が実行されたと判定された場合、結果判定部36は、対象該当パターンおよび対象除外パターンの該当表現の全てについて例文削除処理が実行されたか否かを判定する(ステップS35)。
When it is determined in step S34 that the processing has been executed for all the example sentences including the target corresponding expression, the
該当表現の全てについて例文削除処理が実行されていないと判定された場合(ステップS35のNO)、ステップS31に戻って処理が繰り返される。この場合、処理が実行されていない該当表現を対象該当表現として処理が実行される。 If it is determined that the example sentence deletion process has not been executed for all the corresponding expressions (NO in step S35), the process returns to step S31 and is repeated. In this case, the process is executed with the corresponding expression that has not been processed as the target corresponding expression.
一方、該当表現の全てについて例文削除処理が実行されたと判定された場合(ステップS35のYES)、例文削除処理は終了される。 On the other hand, when it is determined that the example sentence deletion process has been executed for all the corresponding expressions (YES in step S35), the example sentence deletion process is terminated.
また、上記したステップS31において例文数が第2の規定数以内であると判定された場合には、ステップS35の処理が実行される。つまり、対象該当表現の例文数は適切であるため、当該対象該当表現を含む例文(に関する情報)の削除は行われない。 If it is determined in step S31 that the number of example sentences is within the second specified number, the process of step S35 is executed. That is, since the number of example sentences of the target applicable expression is appropriate, the example sentence (information related to the target applicable expression) is not deleted.
なお、図19に示す例文削除処理は、対象該当パターンおよび対象除外パターンの該当表現の各々に対して実行されるものとして説明したが、例えばパターンマッチ用パターンの該当表現に対して実行される構成であっても構わない。 The example sentence deletion process shown in FIG. 19 has been described as being executed for each of the corresponding expressions of the target corresponding pattern and the target excluded pattern. However, for example, a configuration executed for the corresponding expression of the pattern matching pattern It does not matter.
上記したように本実施形態においては、対象該当表現の例文数が第2の規定数以内でない場合、該当構成品詞が他の例文における該当構成品詞と同一である例文(つまり、他の例文と意味構成が似ている例文)の情報がパターンマッチ結果から削除される。これにより、本実施形態においては、パターンマッチ結果を辞書評価支援情報としてユーザに提示する際に、適切な数の例文を提示することができる。 As described above, in the present embodiment, when the number of example sentences of the target applicable expression is not within the second specified number, the corresponding constituent part of speech is the same as the corresponding constituent part of speech in other example sentences (that is, other example sentences and meanings). Information on example sentences having similar structures is deleted from the pattern match result. Thereby, in this embodiment, when showing a pattern matching result to a user as dictionary evaluation assistance information, an appropriate number of example sentences can be shown.
なお、本実施形態における例文削除処理においては、対象該当表現を含む例文の全てについて処理が実行されるものとして説明したが、例えば対象該当表現の例文数が第2の規定数(つまり、上限)以内になった場合には当該例文削除処理が終了(中止)される構成であっても構わない。 Note that, in the example sentence deletion process in the present embodiment, it has been described that the process is executed for all example sentences including the target applicable expression. For example, the number of example sentences of the target applicable expression is the second specified number (that is, the upper limit). If it is within the range, the example sentence deletion process may be terminated (stopped).
また、本実施形態の例文削除処理においては、例文における該当構成品詞を比較することにより例文を削除するか否かを判定するものとして説明したが、例えば例文を構成する文節の具体的表現を用いて判定する構成であっても構わない。また、判定に用いられる該当構成品詞の範囲(つまり、比較する文節の範囲)は適宜変更されても構わない。 Further, in the example sentence deletion process of the present embodiment, it has been described that it is determined whether or not to delete an example sentence by comparing the corresponding component parts of speech in the example sentence. For example, a specific expression of a phrase constituting the example sentence is used. The configuration may be such that the determination is performed. In addition, the range of the corresponding part of speech used for the determination (that is, the range of phrases to be compared) may be changed as appropriate.
[第6の実施形態]
次に、図21を参照して、本発明の第6の実施形態について説明する。図21は、本実施形態に係る辞書評価支援装置300の主として機能構成を示すブロック図である。なお、前述した図2と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図2と異なる部分について主に述べる。
[Sixth Embodiment]
Next, a sixth embodiment of the present invention will be described with reference to FIG. FIG. 21 is a block diagram mainly showing a functional configuration of the dictionary
また、本実施形態に係る辞書評価支援装置のハードウェア構成は、前述した第1の実施形態と同様であるため、適宜、図1を用いて説明する。 The hardware configuration of the dictionary evaluation support apparatus according to this embodiment is the same as that of the first embodiment described above, and will be described with reference to FIG. 1 as appropriate.
本実施形態においては、例文追加処理において例文コーパス22に格納されている例文が変換された例文が追加される点が、前述した第1の実施形態とは異なる。
This embodiment is different from the first embodiment described above in that an example sentence obtained by converting an example sentence stored in the
図21に示すように、辞書評価支援装置300は、例文追加部39を含む。本実施形態において、例文追加部39は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。
As shown in FIG. 21, the dictionary
また、辞書評価支援装置300は、類義語辞書25を含む。本実施形態において、類義語辞書25は、例えば外部記憶装置20(または不揮発性メモリ装置)に格納される。
The dictionary
類義語辞書25には、例えば形態素解析辞書23に格納されている自立語の類義語(当該自立語と意味が似ている単語)が格納されている。類義語辞書25には、例えば自立語である「多少(副詞)」の類義語として「少々(副詞)」および「少し(副詞)」が格納されている。
The
例文追加部39は、対象該当パターンによって表される表現を含む例文(第3の例文)を例文コーパス22に追加する処理を実行する。例文追加部39は、例文変換部391を含む。
The example
例文変換部391は、正規表現解析部32によって抽出された自立語(第1の自立語)の類義語を類義語辞書25から検索する。
The example
例文変換部391は、検索された類義語を含む例文(第4の例文)を例文コーパス22から取得(検索)する。
The example
例文変換部391は、取得された例文に含まれる類義語を正規表現解析部32によって抽出された自立語に変換することによって例文を作成する。つまり、例文変換部391は、取得された例文を変換することによって例文を作成する。
The example
また、例文追加部391は、正規表現解析部32によって抽出された自立語が例えば誤表記であるような場合に、ユーザによって指定された当該自立語の正しい表現(以下、正解表現と表記)を取得する。この場合、ユーザは、ユーザ端末装置40に含まれる入力部44に対する操作により正解表現を指定することができる。
Further, the example
例文追加部391は、取得された正解表現を含む例文を例文コーパス22から取得(検索)する。
The example
例文変換部391は、取得された例文に含まれる正解表現を正規表現解析部32によって抽出された自立語に変換することによって例文を作成する。
The example
例文変換部391は、作成された例文を例文コーパス22に追加する。また、例文変換部391は、作成された例文(例文コーパス22に追加された例文)のパターンマッチ結果(第3の例文のパターンマッチ結果)を作成し、パターンマッチ部35によって作成されたパターンマッチ結果に追加する。
The example
以下、本実施形態に係る辞書評価支援装置300の動作について説明する。本実施形態に係る辞書評価支援装置300の動作は、前述した図7に示す例文追加処理以外については第1の実施形態と同様であるためその詳しい説明を省略する。
Hereinafter, the operation of the dictionary
図22のフローチャートを参照して、本実施形態に係る辞書評価支援装置300における例文追加処理の処理手順について説明する。
With reference to the flowchart of FIG. 22, a description will be given of a processing procedure of example sentence addition processing in the dictionary
例文追加処理は、前述した第1の実施形態と同様に、対象該当パターンおよび対象除外パターンの該当表現の各々に対して実行される。以下、例文追加処理の対象となる該当表現を対象該当表現と称する。 The example sentence addition process is executed for each of the corresponding expressions of the target corresponding pattern and the target excluded pattern, as in the first embodiment. Hereinafter, the corresponding expression that is the target of the example sentence addition process is referred to as a target corresponding expression.
なお、以下の説明においては、正規表現解析部32によって抽出された自立語(第1の自立語)を目的表現と称する。
In the following description, the independent word (first independent word) extracted by the regular
まず、前述した図10に示すステップS11の処理に相当するステップS41の処理が実行される。対象該当表現の例文数が第1の規定数以上であると判定された場合(ステップS41のYES)、後述するステップS47の処理が実行される。 First, the process of step S41 corresponding to the process of step S11 shown in FIG. 10 described above is executed. When it is determined that the number of example sentences of the target corresponding expression is greater than or equal to the first specified number (YES in step S41), the process in step S47 described later is executed.
一方、対象該当表現の例文数が第1の規定数以上でないと判定された場合(ステップS41のNO)、例文追加部39に含まれる例文変換部391は、目的表現(正規表現解析部32によって抽出された自立語)の類義語を類義語辞書25から検索する。これにより、例文変換部391は、目的表現の類義語が類義語辞書25にあるか否かを判定する(ステップS42)。
On the other hand, when it is determined that the number of example sentences of the target applicable expression is not equal to or greater than the first specified number (NO in step S41), the example
目的表現の類義語が類義語辞書25にあると判定された場合(ステップS42のYES)、例文変換部391は、類義語辞書25から目的表現の類義語を取得する(ステップS43)。具体的には、例えば目的表現が「多少」である場合には、当該目的表現の類義語として「少々」等が取得される。
When it is determined that the synonym of the target expression is in the synonym dictionary 25 (YES in step S42), the example
次に、例文変換部391は、取得された類義語を含む例文を、例文コーパス22から取得(検索)する(ステップS44)。具体的には、目的表現「多少」の類義語として例えば「少々」が取得された場合には、例文「裁縫には少々自信があります。」が取得される。
Next, the example
例文変換部391は、取得された例文に含まれる類義語を目的表現に変換する(ステップS45)。これにより、例文変換部391は、類義語が目的表現に変換された例文を作成する。
The example
上記したように目的表現「多少」の類義語が「少々」であり、例文変換部391によって取得された例文が「裁縫には少々自信があります。」である場合には、例文変換部391は、類義語「少々」を目的表現「多少」に変換することによって例文「裁縫には多少自信があります。」を作成する。
As described above, when the synonym of the target expression “some” is “little” and the example sentence acquired by the example
例文変換部391は、作成された例文を例文コーパス22に追加し、当該例文に関する情報をパターンマッチ部35によって作成されたパターンマッチ結果に追加する(ステップS46)。例文変換部391によって作成された例文に関する情報には、前述したようにマッチした最優先パターン(対象該当パターンまたは対象除外パターン)、該当表現(対象該当表現)、当該例文および当該例文の形態素解析結果が含まれる。なお、例文変換部391によって作成された例文に関する情報(第3のパターンマッチ結果)は、対象該当表現および当該例文等に基づいて例文変換部391によって作成される。
The example
次に、対象該当パターンおよび対象除外パターンの該当表現の全てについて例文追加処理(上記したステップS41以降の処理)実行されたか否かが判定される(ステップS47)。 Next, it is determined whether or not the example sentence addition process (the process after step S41 described above) has been executed for all the corresponding expressions of the target corresponding pattern and the target excluded pattern (step S47).
該当表現の全てについて例文追加処理が実行されていないと判定された場合(ステップS47のNO)、ステップS41に戻って処理が繰り返される。この場合、処理が実行されていない該当表現を対象該当表現として処理が実行される。 When it is determined that the example sentence addition process has not been executed for all the corresponding expressions (NO in step S47), the process returns to step S41 and the process is repeated. In this case, the process is executed with the corresponding expression that has not been processed as the target corresponding expression.
一方、該当表現の全てについて例文追加処理が実行されたと判定された場合(ステップS47のYES)、例文追加処理は終了される。 On the other hand, when it is determined that the example sentence addition process has been executed for all the corresponding expressions (YES in step S47), the example sentence addition process is terminated.
この場合、上記した例文変換部391によって作成された例文に関する情報が追加されたパターンマッチ結果が該当表現(対象該当パターン、対象除外パターンおよびパターンマッチ用パターンの該当表現)でソートされる。このパターンマッチ結果は、辞書評価支援情報としてユーザ端末装置40を介してユーザに提示される。
In this case, the pattern match results to which the information about the example sentences created by the above-described example
一方、上記したステップS42において目的表現の類義語が類義語辞書25にないと判定された場合、当該目的表現は誤表記であるものとして当該目的表現の正解表現をユーザに入力(指定)させるための画面等がユーザ端末装置40(に含まれる表示部43)に表示される。これにより、ユーザは、例えばユーザ端末装置40に含まれる入力部44に対する操作により、正解表現を指定できる。具体的には、例えば目的表現が「第3者」である場合には、ユーザは正解表現として「第三者」を指定する。
On the other hand, when it is determined in step S42 described above that the synonym of the target expression is not in the
ユーザによって指定された正解表現は、ユーザ端末装置40に含まれる通信インタフェース45を介して辞書評価支援装置300に送信される。
The correct answer expression designated by the user is transmitted to the dictionary
例文変換部391は、ユーザ端末装置40によって送信された正解表現(ユーザによって指定された正解表現)を取得する(ステップS48)。
The example
次に、例文変換部391は、取得された正解表現を含む例文を、例文コーパス22から取得(検索)する(ステップS49)。具体的には、目的表現「第3者」の正解表現として例えば「第三者」が取得された場合には、例文「第三者機関に審査を依頼する。」が取得される。
Next, the example
例文変換部391は、取得された例文に含まれる正解表現を目的表現に変換する(ステップS50)。これにより、例文変換部391は、正解表現が目的表現に変換された例文を作成する。
The example
上記したように目的表現「第3者」の正解表現が「第三者」であり、例文変換部391によって取得された例文が「第三者機関に審査を依頼する。」である場合には、例文変換部391は、正解表現「第三者」を目的表現「第3者」に変換することによって例文「第3者機関に審査を依頼する。」を作成する。ステップS50の処理が実行されると、上記したステップS46の処理が実行される。
As described above, when the correct expression of the target expression “third person” is “third party” and the example sentence acquired by the example
上記したように本実施形態においては、目的表現(正規表現解析部32によって抽出された自立語)の類義語が類義語辞書25から検索され、当該検索された類義語を含む例文が例文コーパス22から取得される。本実施形態においては、例文コーパス22から取得された例文に含まれる類義語を目的表現に変換することにより例文が作成され、当該作成された例文が例文コーパス22に追加され、当該作成された例文に関する情報がパターンマッチ結果に追加される。
As described above, in the present embodiment, a synonym of the target expression (an independent word extracted by the regular expression analysis unit 32) is searched from the
一方、本実施形態においては、目的表現の類義語が類義語辞書25にない場合には、当該目的表現の正解表現をユーザに指定(入力)させ、当該正解表現を含む例文が例文コーパス22から取得される。本実施形態においては、例文コーパス22から取得された例文に含まれる正解表現を目的表現に変換することにより例文が作成され、当該作成された例文が例文コーパス22に追加され、当該作成された例文に関する情報がパターンマッチ結果に追加される。
On the other hand, in this embodiment, when the synonym of the target expression is not in the
これにより、本実施形態においては、類義語または語表記に対する正解表現を含む例文において当該類義語または当該正解表現を目的表現に変換することによって例文を作成することができるため、前述した第1の実施形態において説明したように例えばWeb空間から例文を取得する場合と比較して、構文として正しい例文を少ないコストで追加することが可能となる。 Thus, in the present embodiment, an example sentence can be created by converting the synonym or the correct expression into a target expression in the example sentence including the correct expression for the synonym or word notation, and thus the first embodiment described above. As described in the above, for example, it is possible to add an example sentence correct as a syntax at a low cost compared to a case where an example sentence is acquired from the Web space.
また、本実施形態においては、上記したように例文を容易に追加することができるため、例えばユーザの辞書評価作業を支援するための辞書作成支援情報の作成コストを低減させることができる。 Moreover, in this embodiment, since an example sentence can be added easily as mentioned above, the creation cost of the dictionary creation assistance information for assisting a user's dictionary evaluation work can be reduced, for example.
なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。 Note that the present invention is not limited to the above-described embodiments as they are, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Further, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in each embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.
10…コンピュータ、20…外部記憶装置、22…例文コーパス、23…形態素解析辞書、24…パターンマッチ辞書、25…類義語辞書、30,300…辞書評価支援装置、31…形態素解析部、32…正規表現解析部、33…形態素解析辞書検索部、334…辞書パターン作成部、35…パターンマッチ部、36…結果判定部、37,39…例文追加部、38…結果出力部、371…例文検索部、372…例文評価部、391…例文変換部。
DESCRIPTION OF
Claims (8)
自立語、当該自立語の読みおよび当該自立語の品詞を予め格納する形態素解析辞書と、
第1の自立語を含む表現を表す第1のパターンを予め格納するパターンマッチ辞書と、
前記パターンマッチ辞書に格納されている第1のパターンを解析することにより、当該第1のパターンによって表される表現に含まれる第1の自立語を抽出する抽出手段と、
前記抽出された第1の自立語と読みおよび品詞が同一である第2の自立語を前記形態素解析辞書から検索する形態素解析辞書検索手段と、
前記パターンマッチ辞書に格納されている第1のパターンおよび前記検索された第2の自立語に基づいて、当該第2の自立語を含む表現を表す第2のパターンを作成するパターン作成手段と、
前記パターンマッチ辞書に格納されている第1のパターンを前記例文コーパスに格納されている例文に適用することによって、当該第1のパターンによって表される表現を含む第1の例文のパターンマッチ結果を作成する第1のパターンマッチ手段と、
前記パターン作成手段によって作成された第2のパターンを前記例文コーパスに格納されている例文に適用することによって、当該第2のパターンによって表される表現を含む第2の例文のパターンマッチ結果を作成する第2のパターンマッチ手段と、
前記パターンマッチ辞書に格納されている第1のパターンによって表される表現を含む第1の例文の数が予め定められた数以上であるかを判定する判定手段と、
前記第1の例文の数が予め定められた数以上でないと判定された場合、前記パターンマッチ辞書に格納されている第1のパターンによって表される表現を含む第3の例文を外部のコーパスから検索し、当該第3の例文を前記例文コーパスに追加する追加手段と、
前記第1のパターンマッチ手段によって作成された第1の例文のパターンマッチ結果、前記第2のパターンマッチ手段によって作成された第2の例文のパターンマッチ結果および前記第1のパターンによって表される表現および前記第3の例文に基づいて作成された前記第3の例文のパターンマッチ結果を出力する結果出力手段と
を具備することを特徴とする辞書評価支援装置。 An example sentence corpus that stores a plurality of example sentences including independent words in advance;
A morphological analysis dictionary that stores in advance independent words, readings of the independent words, and parts of speech of the independent words;
A pattern match dictionary that pre-stores a first pattern representing an expression including a first independent word;
Extracting means for extracting a first independent word included in an expression represented by the first pattern by analyzing the first pattern stored in the pattern match dictionary;
A morpheme analysis dictionary search unit that searches the morpheme analysis dictionary for a second independent word that has the same reading and part of speech as the extracted first independent word;
Pattern creating means for creating a second pattern representing an expression including the second independent word based on the first pattern stored in the pattern match dictionary and the searched second independent word;
By applying the first pattern stored in the pattern match dictionary to the example sentence stored in the example sentence corpus, the pattern match result of the first example sentence including the expression represented by the first pattern is obtained. First pattern matching means to create;
By applying the second pattern created by the pattern creating means to the example sentence stored in the example sentence corpus, the pattern matching result of the second example sentence including the expression represented by the second pattern is created. Second pattern matching means to:
Determining means for determining whether the number of first example sentences including the expression represented by the first pattern stored in the pattern match dictionary is equal to or greater than a predetermined number;
If it is determined that the number of the first example sentences is not equal to or greater than a predetermined number, a third example sentence including an expression represented by the first pattern stored in the pattern match dictionary is obtained from an external corpus. An adding means for searching and adding the third example sentence to the example sentence corpus;
The pattern matching result of the first example sentence created by the first pattern matching means, the pattern matching result of the second example sentence created by the second pattern matching means, and the expression represented by the first pattern And a result output means for outputting a pattern match result of the third example sentence created on the basis of the third example sentence.
前記パターンマッチ辞書に格納されている第1のパターンによって表される表現を含む第3の例文を外部のコーパスから検索する例文検索手段と、
前記例文検索手段によって検索された第3の例文を構文解析し、当該構文解析結果に基づいて当該第3の例文が予め定められた条件に合致するかを判定する例文評価手段と
を含み、
前記例文検索手段によって検索された第3の例文が予め定められた条件に合致すると判定された場合に、当該第3の例文を前記例文コーパスに追加する
ことを特徴とする請求項1記載の辞書評価支援装置。 The additional means includes
Example sentence search means for searching a third example sentence including an expression represented by the first pattern stored in the pattern match dictionary from an external corpus;
Syntactic analysis of the third example sentence searched by the example sentence search means, and example sentence evaluation means for determining whether the third example sentence matches a predetermined condition based on the syntax analysis result,
2. The dictionary according to claim 1, wherein when it is determined that the third example sentence searched by the example sentence search means matches a predetermined condition, the third example sentence is added to the example sentence corpus. Evaluation support device.
前記追加手段は、
前記抽出された第1の自立語の類義語を前記類義語辞書から検索する類義語辞書検索手段と、
前記類義語辞書検索手段によって検索された類義語を含む第4の例文を前記例文コーパスから取得する取得手段と、
前記取得手段によって取得された第4の例文に含まれる類義語を前記抽出された第1の自立語に変換することによって第3の例文を作成する例文変換手段と
を含み、
前記例文変換手段によって作成された第3の例文を前記例文コーパスに追加する
ことを特徴とする請求項1記載の辞書評価支援装置。 Further comprising a synonym dictionary for storing synonyms of independent words stored in the morphological analysis dictionary;
The additional means includes
Synonym dictionary searching means for searching the synonym of the extracted first independent word from the synonym dictionary;
Obtaining means for obtaining, from the example sentence corpus, a fourth example sentence including the synonym searched by the synonym dictionary searching means;
And example sentence conversion means for creating a third example sentence by converting a synonym included in the fourth example sentence acquired by the acquisition means into the extracted first independent word;
The dictionary evaluation support apparatus according to claim 1, wherein the third example sentence created by the example sentence conversion unit is added to the example sentence corpus.
前記例文コーパスは、前記複数の例文の形態素解析結果を格納し、
前記判定手段は、前記パターンマッチ辞書に格納されている第1のパターンによって表される表現を含む第1の例文の数が予め定められた数以下であるかを判定し、
前記削減手段は、前記第1の例文の数が予め定められた数以下でないと判定された場合、前記例文コーパスに格納されている当該各第1の例文の形態素解析結果に基づいて当該各第1の例文における前記第1のパターンによって表される表現を含む文節および当該文節の前後の文節の構成品詞を比較することにより、前記第1のパターンマッチ手段によって作成されたパターンマッチ結果における前記第1の例文を削除する
ことを特徴とする請求項1記載の辞書評価支援装置。 A further reduction means,
The example corpus stores morphological analysis results of the plurality of example sentences;
The determination means determines whether the number of first example sentences including an expression represented by the first pattern stored in the pattern match dictionary is equal to or less than a predetermined number;
Said reducing means, when the number of the first example sentence is determined not less than the number of predetermined said respective first, based on the morphological analysis result of the respective first example sentence stored in the example sentence corpus By comparing the phrase including the expression represented by the first pattern in one example sentence and the constituent parts of speech of the phrase before and after the phrase , the first in the pattern matching result created by the first pattern matching means dictionary evaluation support apparatus of claim 1, wherein removing the first example sentence.
前記形態素解析辞書検索手段は、前記抽出された第1の自立語と標準表記が同一である第2の自立語を前記形態素解析辞書から検索する
ことを特徴とする請求項1記載の辞書評価支援装置。 The morpheme analysis dictionary further stores a standard expression of independent words stored in the morpheme analysis dictionary,
2. The dictionary evaluation support according to claim 1, wherein the morpheme analysis dictionary search unit searches the morpheme analysis dictionary for a second independent word having the same standard notation as the extracted first independent word. apparatus.
前記形態素解析辞書検索手段は、前記抽出された第1の自立語と意味分類が同一である第2の自立語を前記形態素解析辞書から検索する
ことを特徴とする請求項1記載の辞書評価支援装置。 The morphological analysis dictionary further stores the meaning classification of the independent words stored in the morphological analysis dictionary,
The dictionary evaluation support according to claim 1, wherein the morpheme analysis dictionary search means searches the morpheme analysis dictionary for a second independent word having the same semantic classification as the extracted first independent word. apparatus.
前記形態素解析辞書検索手段は、当該形態素解析辞書検索手段によって検索された第2の自立語および前記形態素解析辞書に格納されている当該第2の自立語の意味を示す意味情報を出力し、
前記該当パターン作成手段は、前記形態素解析辞書検索手段によって出力された第2の自立語のうち、ユーザによって指定された第2の自立語を含む表現を表す第2のパターンを作成する
ことを特徴とする請求項1記載の辞書評価支援装置。 The morpheme analysis dictionary further stores semantic information indicating the meaning of independent words stored in the morpheme analysis dictionary,
The morpheme analysis dictionary search means outputs semantic information indicating the meaning of the second independent word searched by the morpheme analysis dictionary search means and the second independent word stored in the morpheme analysis dictionary,
The corresponding pattern creating means creates a second pattern representing an expression including the second independent word designated by the user among the second independent words output by the morphological analysis dictionary searching means. The dictionary evaluation support device according to claim 1.
前記コンピュータに、
前記パターンマッチ辞書に格納されている第1のパターンを解析することにより、当該第1のパターンによって表される表現に含まれる第1の自立語を抽出するステップと、
前記抽出された第1の自立語と読みおよび品詞が同一である第2の自立語を前記形態素解析辞書から検索するステップと、
前記パターンマッチ辞書に格納されている第1のパターンおよび前記検索された第2の自立語に基づいて、当該第2の自立語を含む表現を表す第2のパターンを作成するステップと、
前記パターンマッチ辞書に格納されている第1のパターンを前記例文コーパスに格納されている例文に適用することによって、当該第1のパターンによって表される表現を含む第1の例文のパターンマッチ結果を作成するステップと、
前記作成された第2のパターンを前記例文コーパスに格納されている例文に適用することによって、当該第2のパターンによって表される表現を含む第2の例文のパターンマッチ結果を作成するステップと、
前記パターンマッチ辞書に格納されている第1のパターンによって表される表現を含む第1の例文の数が予め定められた数以上であるかを判定するステップと、
前記第1の例文の数が予め定められた数以上でないと判定された場合、前記パターンマッチ辞書に格納されている第1のパターンによって表される表現を含む第3の例文を外部のコーパスから検索し、当該第3の例文を前記例文コーパスに追加するステップと、
前記作成された第1の例文のパターンマッチ結果、前記作成された第2の例文のパターンマッチ結果および前記第1のパターンによって表される表現および前記第3の例文言基づいて作成された前記第3の例文のパターンマッチ結果を出力するステップと
を実行させるためのプログラム。 An example sentence corpus that stores a plurality of example sentences including independent words in advance, a morphological analysis dictionary that stores in advance independent words, readings of the independent words, and parts of speech of the independent words, and a first representing an expression including the first independent word In a dictionary evaluation support device composed of an external storage device having a pattern match dictionary that prestores the pattern and a computer using the external storage device, a program executed by the computer,
In the computer,
Analyzing a first pattern stored in the pattern match dictionary to extract a first independent word included in an expression represented by the first pattern;
Searching the morphological analysis dictionary for a second independent word whose reading and part of speech are the same as the extracted first independent word;
Creating a second pattern representing an expression including the second independent word based on the first pattern stored in the pattern match dictionary and the searched second independent word;
By applying the first pattern stored in the pattern match dictionary to the example sentence stored in the example sentence corpus, the pattern match result of the first example sentence including the expression represented by the first pattern is obtained. A step to create,
Applying the generated second pattern to an example sentence stored in the example sentence corpus to create a pattern match result of a second example sentence including an expression represented by the second pattern;
Determining whether the number of first example sentences including an expression represented by the first pattern stored in the pattern match dictionary is greater than or equal to a predetermined number;
If it is determined that the number of the first example sentences is not equal to or greater than a predetermined number, a third example sentence including an expression represented by the first pattern stored in the pattern match dictionary is obtained from an external corpus. Searching and adding the third example sentence to the example sentence corpus;
The pattern matching result of the created first example sentence, the pattern matching result of the created second example sentence, the expression represented by the first pattern, and the third example sentence created based on the third example sentence And a step for outputting the pattern matching result of the example sentence of 3.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009124456A JP5454871B2 (en) | 2009-05-22 | 2009-05-22 | Dictionary evaluation support apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009124456A JP5454871B2 (en) | 2009-05-22 | 2009-05-22 | Dictionary evaluation support apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010272012A JP2010272012A (en) | 2010-12-02 |
JP5454871B2 true JP5454871B2 (en) | 2014-03-26 |
Family
ID=43419970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009124456A Expired - Fee Related JP5454871B2 (en) | 2009-05-22 | 2009-05-22 | Dictionary evaluation support apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5454871B2 (en) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4170325B2 (en) * | 2005-08-05 | 2008-10-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Apparatus, method and program for evaluating validity of dictionary |
-
2009
- 2009-05-22 JP JP2009124456A patent/JP5454871B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010272012A (en) | 2010-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rayson | Matrix: A statistical method and software tool for linguistic analysis through corpus comparison | |
US6662152B2 (en) | Information retrieval apparatus and information retrieval method | |
US6602300B2 (en) | Apparatus and method for retrieving data from a document database | |
US6910004B2 (en) | Method and computer system for part-of-speech tagging of incomplete sentences | |
US5541838A (en) | Translation machine having capability of registering idioms | |
US8041557B2 (en) | Word translation device, translation method, and computer readable medium | |
US7630880B2 (en) | Japanese virtual dictionary | |
US5475586A (en) | Translation apparatus which uses idioms with a fixed and variable portion where a variable portion is symbolic of a group of words | |
JP2003288360A (en) | Language cross information retrieval device and method | |
JP2020190970A (en) | Document processing device, method therefor, and program | |
US5608623A (en) | Special cooccurrence processing method and apparatus | |
JP5454871B2 (en) | Dictionary evaluation support apparatus and program | |
JP2007122660A (en) | Document data processor and document data processing program | |
JP2009104475A (en) | Similar document retrieval device, and similar document retrieval method and program | |
JP2002073656A (en) | Method and device for normalizing and developing different notation, method and device for retrieving document by using the method, and program recording medium | |
JPS6175952A (en) | Document input processing system | |
JPH0561902A (en) | Mechanical translation system | |
Sawalha | The Design and the Construction of the Traditional Arabic Lexicons Corpus (The TAL-Corpus) | |
Vale et al. | Building a large dictionary of abbreviations for named entity recognition in Portuguese historical corpora | |
JPH0793345A (en) | Document retrieval device | |
JPS6389976A (en) | Language analyzer | |
JP2004264960A (en) | Example-based sentence translation device and computer program | |
Balcha et al. | Design and Development of Sentence Parser for Afan Oromo Language | |
JPH11203281A (en) | Electronic dictionary retrieving device and medium stored with control program for the device | |
JP2752025B2 (en) | Machine translation equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130423 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130603 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131203 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131205 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5454871 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |