JP2520195B2 - Japanese sentence proper term extraction device - Google Patents

Japanese sentence proper term extraction device

Info

Publication number
JP2520195B2
JP2520195B2 JP2319150A JP31915090A JP2520195B2 JP 2520195 B2 JP2520195 B2 JP 2520195B2 JP 2319150 A JP2319150 A JP 2319150A JP 31915090 A JP31915090 A JP 31915090A JP 2520195 B2 JP2520195 B2 JP 2520195B2
Authority
JP
Japan
Prior art keywords
hiragana
proper
term
proper term
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2319150A
Other languages
Japanese (ja)
Other versions
JPH04188364A (en
Inventor
正信 東田
雅博 奥
文子 福永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2319150A priority Critical patent/JP2520195B2/en
Publication of JPH04188364A publication Critical patent/JPH04188364A/en
Application granted granted Critical
Publication of JP2520195B2 publication Critical patent/JP2520195B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は,日本語文書中から,該文書で使用されてい
る製品名,会社名,人名などの固有名詞を自動的に抽出
し,更に一般単語の組み合わせであっても新語や該文書
でのみ使用されていると考えられる語(固有名詞を含め
てこれらを固有用語と呼ぶ)を自動的に抽出する日本文
固有用語抽出装置に関するものである。
DETAILED DESCRIPTION OF THE INVENTION [Industrial Application Field] The present invention automatically extracts proper nouns such as product names, company names, and personal names used in Japanese documents from the documents, and further The present invention relates to a Japanese sentence proper term extraction device that automatically extracts a new word or a word that is considered to be used only in the document (including proper nouns are called proper terms) even if it is a combination of common words. is there.

〔従来の技術〕[Conventional technology]

固有用語を抽出する技術としては,同一出願人等によ
る特願昭62−238385号,特願昭62−197843号がある。こ
の方式においては、日本語で使用される文字を「漢数
字」「漢字」「ひらがな」「カタカナ」など約10種類の
文字種別に分類して,“区切り記号「”と“区切り記
号」”とで挟まれた語や「ひらがな」と「ひらがな」と
で挟まれた語を固有用語候補として抽出し,文字種別の
組み合わせに関する候補絞り込みルール適用による絞り
込みを行い,一般語辞書に登録されているかどうかによ
る絞り込みを実行して,残った語を固有用語として抽出
するようにしていた。
Techniques for extracting unique terms include Japanese Patent Application Nos. 62-238385 and 62-197843 by the same applicant. In this method, the characters used in Japanese are categorized into about 10 types of characters, such as "Kanji numbers", "Kanji", "Hiragana", "Katakana", and they are called "delimiter" and "delimiter". Whether the words sandwiched by or the words sandwiched between "Hiragana" and "Hiragana" are extracted as unique term candidates, narrowed down by applying the candidate narrowing rule regarding the combination of character types, and whether they are registered in the general word dictionary. The remaining words were extracted as proper terms by narrowing down by.

〔発明が解決しようとする課題〕[Problems to be Solved by the Invention]

従来の技術においては,漢字,カタカナ,英字などで
構成される固有用語の抽出は可能であったが,「手書き
文字」,「組み込み関数」などの如く平仮名が混じって
いる場合の固有用語については抽出できないという欠点
があった。
In the conventional technology, it was possible to extract proper terms consisting of Kanji, Katakana, English letters, etc. However, regarding proper terms when Hiragana is mixed such as "handwritten characters" and "built-in functions", There was a drawback that it could not be extracted.

本発明は,平仮名混じりの固有用語の構成上の特徴を
利用して,上記問題点を克服し平仮名混じりの固有用語
を自動的に抽出することを目的としている。
An object of the present invention is to overcome the above-mentioned problems and to automatically extract proper terms mixed with Hiragana by utilizing the structural features of proper terms mixed with Hiragana.

〔課題を解決するための手段〕[Means for solving the problem]

本発明は,日本語の文書に含まれる固有用語のうち, 対象日本語文書の中から,特願昭62−197843号,特願
昭62−238385号の手法により抽出された漢字,カタカ
ナ,英字またはそれらの組み合わせから構成されてい
て,固有用語として認定された語の前後で対象文書を分
割した文字列を対象とし, 平仮名混じりの固有用語の多くが動詞の連用形語尾に
他の名詞が付加されて構成されていることを利用して,
動詞の連用形語尾になりうる平仮名を他の平仮名と区別
して別の字種とし,対象文書の文字列を字種コードの列
に展開して,その中から“動詞の連用形+活用語尾”が
構成要素となっている固有用語を固有用語候補として抽
出し,それらの候補を,文字列の長さや字種の組み合わ
せに関する絞り込みルールによる第1段階の絞り込み
と,第1段階で絞り込まれた固有用語候補に対して一般
語辞書を参照する事により一般語辞書にすでに登録され
ている語を候補から削除する第2段階の絞り込みとを行
う。
The present invention includes kanji, katakana, and English characters extracted from the target Japanese documents by the methods of Japanese Patent Application Nos. 62-197843 and 62-238385 among the proper terms included in Japanese documents. Or, it consists of a combination of them, and targets a character string that is obtained by dividing the target document before and after a word recognized as a proper term, and many of the proper terms mixed with hiragana have other nouns added to the morphological endings of verbs. By utilizing the fact that it is configured as
A hiragana that can be a verb conjunctive ending is differentiated from other hiragana characters to a different character type, the character string of the target document is expanded into a character type code string, and a "verb conjunctive form + inflection ending" is constructed from it. The unique terms that are elements are extracted as unique term candidates, and those candidates are narrowed down in the first stage by narrowing down rules regarding the length of character strings and combinations of character types, and the unique term candidates narrowed down in the first stage. On the other hand, by referring to the common word dictionary, the second stage of narrowing down the words already registered in the common word dictionary from the candidates is performed.

〔作 用〕[Work]

“動詞の連用形+活用語尾”が構成要素となっている
固有用語を固有用語候補として抽出し,これらの候補に
ついて上記2段階の絞り込みを行って平仮名混じりの固
有用語をも抽出するようにする。
Unique terms that are composed of "verb verbs + inflectional endings" are extracted as proper term candidates, and the candidates are narrowed down in the above two stages to extract proper terms mixed with hiragana.

〔実施例〕〔Example〕

第1図は本発明の一実施例を示す基本構成図である。
1は日本語文書,2は固有用語リスト「1」,11は固有用
語リスト「2」を表している。また12は日本文固有用語
抽出装置本体であって,文字列分離部3,平仮名混じり固
有用語候補抽出部4,字種コードテーブル5,平仮名混じり
固有用語候補絞り込み部A6,絞り込みルールテーブル7,
平仮名混じり固有用語候補絞り込み部B8,一般語辞書9,
固有用語出力部10により構成される。
FIG. 1 is a basic configuration diagram showing one embodiment of the present invention.
Reference numeral 1 is a Japanese document, 2 is a proper term list “1”, and 11 is a proper term list “2”. Reference numeral 12 is a Japanese sentence proper term extraction device main body, which includes a character string separating section 3, a Hiragana-blended proper term candidate extraction section 4, a character type code table 5, a Hiragana-blended proper term candidate narrowing section A6, a narrowing rule table 7,
Hiragana mixed proper term candidate narrowing down section B8, common language dictionary 9,
It is composed of a proper term output unit 10.

日本語文書1は日本文固有用語抽出装置本体12への入
力文書であり, 固有用語リスト「1」2は,従来の日本語文書固有用
語抽出装置によって日本語文書1からあらかじめ抽出さ
れた平仮名を含まない固有用語のリストである。
The Japanese document 1 is an input document to the Japanese sentence proper term extraction device main body 12, and the proper term list "1" 2 is a hiragana name previously extracted from the Japanese document 1 by the conventional Japanese document proper term extraction device. This is a list of unique terms that are not included.

文字列分離部3は,日本語文書1を入力として固有用
語「1」2を検索し,入力文中に固有用語があればこれ
を削除して,固有用語の前後文字列を分離し,各々を独
立の分離文字列としてこのリストを作成する。
The character string separating unit 3 searches for a proper term “1” 2 with the Japanese document 1 as an input, deletes the proper term in the input sentence, and separates the character strings before and after the proper term. Create this list as a separate string.

平仮名混じり固有用語候補抽出部4は、文字列分離部
3で作成された分離文字列リストを入力としてこれを字
種コードテーブル5を使用してコード列に変換した後,
このコード列を入力として平仮名混じり固有用語候補抽
出を行い,平仮名混じり固有用語候補リストを作成す
る。
The Hiragana-mixed proper term candidate extraction unit 4 inputs the separated character string list created by the character string separation unit 3 and converts it into a code string using the character type code table 5,
Using this code string as an input, proper term candidates with Hiragana mixed are extracted to create a proper term candidate list with Hiragana mixed.

字種コードテーブル5は、日本語文書で使用される文
字を複数の字種に分離し,その各々に対応する字種コー
ドを示す表である。
The character type code table 5 is a table that separates characters used in a Japanese document into a plurality of character types and shows the character type codes corresponding to each.

平仮名混じり固有用語候補絞り込み部A6は,平仮名混
じり固有用語候補抽出部4で作成された平仮名混じり固
有用語候補リストを入力として絞り込みルールテーブル
7のルールを適用し,選択条件に適合したものを元の文
字列に変換する。
The Hiragana-mixed proper term candidate narrowing down unit A6 applies the rules of the narrowing rule table 7 with the Hiragana-blended proper term candidate extraction unit 4 created by the Hiragana-mixed proper term candidate list as input and applies the rule that meets the selection condition to the original one. Convert to a string.

絞り込みルールテーブル7は,文字列長,字種コード
の並び等に関する情報をもとに作成した候補絞り込みの
ためのルールを記述したテーブルである。
The narrowing-down rule table 7 is a table describing rules for narrowing down candidates created based on information about a character string length, arrangement of character type codes, and the like.

平仮名混じり固有用語候補絞り込み部B8は,平仮名混
じり固有用語候補絞り込み部A6で絞り込まれ,元の文字
列に変換された平仮名混じり固有用語候補について,一
般語辞書9による絞り込みを行う。
The Hiragana-mixed proper term candidate narrowing down unit B8 narrows down the Hiragana-mixed proper term candidate narrowing down unit A6 and narrows down the general character dictionary 9 for the Hiragana-mixed proper term candidates converted into the original character strings.

一般語辞書9は,一般的な日本語単語の字面,読みや
品詞などを記述した一般語辞書である。
The general-word dictionary 9 is a general-word dictionary that describes the characters, readings, parts of speech, etc. of general Japanese words.

固有用語出力部10は,平仮名混じり固有用語候補絞り
込み部B8で絞り込まれた結果を蓄積して出力装置に固有
用語リスト「2」を出力する。
The proper term output unit 10 accumulates the results narrowed down by the proper term candidate narrowing unit B8 mixed with Hiragana and outputs the proper term list “2” to the output device.

固有用語リスト「2」11は,出力された固有用語のリ
ストである。
The specific term list “2” 11 is a list of the output specific terms.

第2図は日本文固有用語抽出装置の動作例の概略フロ
ー図を示す。以下,これらの図にしたがって第1図の動
作を説明する。
FIG. 2 shows a schematic flow chart of an operation example of the Japanese sentence proper term extraction device. The operation of FIG. 1 will be described below with reference to these figures.

ステップS1−1: 任意の日本語文書を入力する。Step S1-1: Input an arbitrary Japanese document.

ステップS1−2: 入力である日本語文書(以下,入力文書)に含まれる
第1文を処理するためにn=1とする。
Step S1-2: Set n = 1 to process the first sentence included in the input Japanese document (hereinafter referred to as input document).

ステップS1−3: 入力文書すべてを処理するまでステップS1−7までの
処理を繰り返す。
Step S1-3: The processes up to step S1-7 are repeated until all the input documents are processed.

ステップS1−4: 文字列分離部3では,第n文中に含まれる固有用語検
索を目的として,固有用語リスト「1」を順に検索す
る。
Step S1-4: The character string separating section 3 sequentially searches the proper term list “1” for the purpose of retrieving the proper term contained in the nth sentence.

ステップS1−5: さらに文字列分離部3では,ステップS1−4で検索し
た固有用語と一致する文字列が第n文中にあればそれを
文中より削除する。さらにその前後の文字列を分離し,
各々を独立した分離文字列とする。
Step S1-5: Further, in the character string separating unit 3, if a character string matching the unique term retrieved in step S1-4 exists in the nth sentence, it is deleted from the sentence. Furthermore, the character strings before and after that are separated,
Let each be a separate string.

ステップS1−6: 次の文を処理するためにn=n+1とする。Step S1-6: Set n = n + 1 to process the next sentence.

ステップS1−7: 入力文書中すべての文に対する処理を終了したか否か
で処理を分ける。すべての処理を終了していない場合に
はステップS1−3に戻り,終了している場合にはステッ
プS1−8に進む。
Step S1-7: The processing is divided depending on whether the processing for all the sentences in the input document has been completed. If all the processes have not been completed, the process returns to step S1-3, and if they have been completed, the process proceeds to step S1-8.

ステップS1−8: 以下の処理で分離,蓄積された分離文字列のリストを
作成する。
Step S1-8: A list of separated character strings separated and accumulated by the following processing is created.

ステップS2−1: ステップS1−8で作成された分離文字列のリストを入
力とする。
Step S2-1: Input the list of separated character strings created in step S1-8.

ステップS2−2: 入力である分離文字列リスト(以下,入力分離文字
列)に含まれる第1文字列を処理するためにi=1とす
る。
Step S2-2: Set i = 1 to process the first character string included in the input separated character string list (hereinafter, input separated character string).

ステップS2−3: 入力分離文字列すべてを処理するまでステップS2−7
までの処理を繰り返す。
Step S2-3: Step S2-7 until all input separated character strings are processed
Repeat the process up to.

ステップS2−4: 平仮名混じり固有用語候補抽出部4では,第i文字列
の1文字1文字を,字種コードテーブル5の記述に従っ
て字種に基づく複数種類のコード(例えば第7図に示す
7種類のコード)に変換し,第i文字列に対するコード
列を生成する。
Step S2-4: In the Hiragana-mixed proper term candidate extraction unit 4, one character of the i-th character string is converted into a plurality of types of codes based on the character type according to the description of the character type code table 5 (for example, 7 shown in FIG. 7). Type code) to generate a code string for the i-th character string.

ステップS2−5: さらに平仮名混じり固有用語候補抽出部4では,第i
文字列について,字種J,または字種Fで分離される,ま
たは囲まれるA,B,C,D,Eの文字列の組み合わせすべての
うちの文字コードBを含むものをすべて平仮名混じり固
有用語候補として抽出する。
Step S2-5: Further, in the Hiragana-mixed proper term candidate extracting section 4, the i-th
Regarding the character strings, all of the combinations of the character strings of A, B, C, D, and E that are separated or enclosed by the character type J or the character type F, including the character code B, are all unique terms mixed with hiragana. Extract as a candidate.

ステップS2−6: 次の文字列を処理するためにi=i+1とする。Step S2-6: Set i = i + 1 to process the next character string.

ステップS2−7: 入力文字列中すべての文字列に対する処理を終了した
か否かで処理を分ける。
Step S2-7: The processing is divided depending on whether the processing for all the character strings in the input character string is completed.

すべての処理を終了していない場合にはステップS2−
3に戻り,終了している場合にはステップS2−8に進
む。
If all processing has not been completed, step S2-
Returning to step 3, if completed, proceed to step S2-8.

ステップS2−8: 以上の処理で抽出された平仮名混じり固有用語候補の
リストを作成する。
Step S2-8: A list of proper term candidates mixed with Hiragana extracted in the above process is created.

ステップS3−1: ステップS2−8で作成された平仮名混じり固有用語候
補のリストを入力とする。
Step S3-1: Input the list of proper term candidates mixed with hiragana created in step S2-8.

ステップS3−2: 入力である平仮名混じり固有用語候補リストに含まれ
る第1固有用語候補文字列を処理するためにj=1とす
る。
Step S3-2: In order to process the first proper term candidate character string included in the input proper term candidate list with mixed hiragana, set j = 1.

ステップS3−3: 入力固有用語候補文字列すべてを処理するまでステッ
プS3−7までの処理を繰り返す。
Step S3-3: The processes up to step S3-7 are repeated until all the input unique term candidate character strings are processed.

ステップS3−4: 平仮名混じり固有用語候補絞り込み部Aでは,第1固
有用語候補文字列について絞り込みルールテーブル7の
ルールを適用することにより選択処理を行い,固有用語
候補か否かを決定する。
Step S3-4: In the proper term candidate narrowing down section A mixed with hiragana, the rule of the narrowing rule table 7 is applied to the first proper term candidate character string to perform a selection process, and it is determined whether or not it is a proper term candidate.

ステップS3−5: さらに平仮名混じり固有用語候補絞り込み部Aでは,
絞り込みルール適用により固有用語候補として選択され
たか否かで処理を分ける。
Step S3-5: Further, in the proper term candidate narrowing section A mixed with hiragana,
The processing is divided depending on whether or not it is selected as a proper term candidate by applying the narrowing rule.

選択された場合にはステップS3−6に進み,選択され
なかった場合にはステップS3−8に進む。
If it is selected, the process proceeds to step S3-6, and if it is not selected, the process proceeds to step S3-8.

ステップS3−6: 平仮名混じり固有用語候補絞り込み部Bでは,平仮名
混じり固有用語候補絞り込み部Aで選択された固有用語
候補文字列の字種コードを元の文字に置き換える。
Step S3-6: In the Hiragana-mixed proper term candidate narrowing down section B, the character type code of the proper term candidate character string selected in the Hiragana mixed proper term candidate narrowing down section A is replaced with the original character.

ステップS3−7: さらに平仮名混じり固有用語候補絞り込み部Bでは,
ステップS3−6で元の文字に置き換えられた固有用語候
補が一般語であるか否かを一般語辞書9を参照して絞り
込む。
Step S3-7: Further, in the proper term candidate narrowing section B mixed with hiragana,
Whether or not the proper word candidates replaced with the original characters in step S3-6 are common words is narrowed down by referring to the common word dictionary 9.

ステップS3−8: 次の固有用語候補を処理するためにj=i+1とす
る。
Step S3-8: Set j = i + 1 to process the next proper term candidate.

ステップS3−9: 入力固有用語候補リスト中すべての固有用語候補に対
する処理を終了したか否かで処理を分ける。
Step S3-9: The processing is divided depending on whether the processing has been completed for all the unique term candidates in the input unique term candidate list.

すべての処理を終了していない場合にはステップS3−
3に戻り,終了している場合にはステップS3−10に進
む。
If all the processing has not been completed, step S3−
Return to No. 3, and if completed, proceed to step S3-10.

ステップS3−10: ステップS3−8で選択された固有用語候補を最終結果
として固有用語出力部10に出力する。
Step S3-10: The proper term candidate selected in step S3-8 is output to the proper term output unit 10 as a final result.

ステップS3−11: 最終結果の固有用語から固有用語リスト「2」を作成
する。
Step S3-11: A unique term list “2” is created from the unique terms of the final result.

次に具体的な入力文書の例を用いて動作の概略を説明
する。第3図に示す入力文例を日本語文書1として説明
する。
Next, the outline of the operation will be described using a specific example of the input document. The input sentence example shown in FIG. 3 will be described as a Japanese document 1.

まず,文字列分離部3において,第4図に示す如く既
に抽出されている平仮名を含まない固有用語のリストで
ある固有用語リスト「1」2を調べ,入力文例中にその
リスト中の固有用語があれば,それを第5図に示すよう
に削除する。さらに第6図に示す如くその削除された固
有用語の前後の文字の並びを独立した分離文字列とし,
分離文字列リストを作成する。
First, in the character string separating unit 3, as shown in FIG. 4, the unique term list “1” 2 which is a list of already-extracted unique terms that does not include hiragana is examined, and the unique terms in the list are included in the input sentence example. If so, delete it as shown in FIG. Furthermore, as shown in FIG. 6, the sequence of characters before and after the deleted proper term is made into an independent character string,
Create a separated string list.

次に,平仮名混じり固有用語候補抽出部4では,文字
列分離部3で作成された分離文字列リストの各文字列を
順に処理する。まず第1分離文字列「一方,各」につい
て,第7図に示す所の日本語文字を7種類に分類した字
種コードテーブル5を使用し,第8図に示す所のコード
化分離文字列リストにおける第1コード化文字列「AAF
A」に変換する。第2分離文字列「の動きは,適当な一
つの」は同様な操作により「JABJFAAJAJJ」と変換され
る。以下同様にして,第8図に示すコード化分離文字列
リストを得る。
Next, the Hiragana-mixed proper term candidate extraction unit 4 sequentially processes each character string in the separated character string list created by the character string separation unit 3. First, for the first separated character string “one side, each”, the character separation code table 5 in which the Japanese characters shown in FIG. 7 are classified into seven types is used, and the encoded separated character string shown in FIG. 8 is used. The first coded character string "AAF
Convert to "A". The second separated character string "the movement of the appropriate one" is converted into "JABJFAAJAJJ" by the same operation. Similarly, the coded separated character string list shown in FIG. 8 is obtained.

次に,このコード化文字列について,字種コードFお
よび字種コードJで抽出される,または囲まれる字種コ
ードA,B,C,D,Eの組み合わせであってBを含むものすべ
てを平仮名混じり固有用語候補とする。
Next, for this coded character string, all of the combinations of the character type codes A, B, C, D, E extracted or enclosed by the character type code F and the character type code J and including B Candidates for unique terms mixed with hiragana.

まず第1コード化文字列「AAFA」について,字種コー
ドFを境にコード化文字列「AA」,「A」が分離される
が,これらは字種コードBを含まないので,候補としな
い。
First, regarding the first coded character string "AAFA", the coded character strings "AA" and "A" are separated with the character type code F as a boundary, but these are not candidates because they do not include the character type code B. .

次に,第2コード化文字列「JABJFAAJAJJ」につい
て,同様にして「AB」,「AA」,「A」が抽出され,こ
のうち字種コードBを含む「AB」を平仮名混じり固有用
語候補とする。
Next, for the second coded character string "JABJFAAJAJJ", "AB", "AA", and "A" are extracted in the same manner. Of these, "AB" including the character type code B is used as a proper term candidate mixed with hiragana. To do.

以下同様にして処理を繰り返すことにより,第9図に
示すような平仮名混じり固有用語候補コード化文字列リ
ストを得る。
By repeating the process in the same manner, a unique term candidate coded character string list including hiragana as shown in FIG. 9 is obtained.

次に,平仮名混じり固有用語候補絞り込み部A6では,
平仮名混じり固有用語候補抽出部4で作成された平仮名
混じり固有用語候補コード化文字列リストの各要素につ
いて絞り込みルールを適用し,絞り込み処理を行う。
Next, in the proper term candidate narrowing section A6 mixed with Hiragana,
The narrowing-down rule is applied to each element of the Hiragana-mixed proper term candidate coded character string list created by the Hiragana-blended proper term candidate extraction unit 4 to perform the narrowing process.

まず,第1ルール化文字列「AB」について第10図に示
す絞り込みルールテーブルにおける第1ルールが適用さ
れ,候補から落とされる。次に第2コード化文字列「AA
B」に対し第4ルールが適用され,候補から落とされ
る。
First, the first rule in the narrowing rule table shown in FIG. 10 is applied to the first ruled character string “AB”, and it is dropped from the candidates. Next, the second coded character string "AA
The fourth rule is applied to "B" and it is dropped from the candidates.

以下同様にして,第11図に示すようなルール適用結果
が得られる。この結果,「動きフレーム」と「動き量」
とが平仮名混じりの固有用語候補として抽出される。
In the same way, the rule application result as shown in Fig. 11 is obtained. As a result, "motion frame" and "motion amount"
And are extracted as proper term candidates mixed with hiragana.

次に,平仮名混じり固有用語候補絞り込み部B8では,
平仮名混じり固有用語候補絞り込み部Aで作成された固
有用語候補について一般語辞書9を調べ,辞書にあれば
固有用語候補から落とし,残った固有用語候補を平仮名
混じりの固有用語として抽出する。この例では固有用語
候補「動きフレーム」,「動き量」の両者とも一般語辞
書にはなく,平仮名混じりの固有用語として抽出され
る。
Next, in the Hiragana-mixed proper term candidate narrowing section B8,
The general word dictionary 9 is searched for the proper term candidates created by the Hiragana-mixed proper term candidate narrowing unit A, and if there is a dictionary, the proper term candidates are dropped, and the remaining proper term candidates are extracted as proper terms mixed with the Hiragana. In this example, both the unique term candidates “motion frame” and “motion amount” are not in the general word dictionary and are extracted as unique terms mixed with hiragana.

以上のようにして,固有用語リスト「1」を利用した
2段階の抽出方法,すなわち連用形活用語尾型平仮名に
着目した独自の字種コード列への展開方法とコード列の
並びとに関する絞り込みルールの適用による候補絞り込
み,および一般語辞書参照による候補の絞り込みによ
り,平仮名混じり固有用語である「動きフレーム」,
「動き量」を抽出することができる。
As described above, the two-step extraction method using the unique term list “1”, that is, the expansion method to the unique character type code string and the narrowing rule of the code string arrangement, which pays attention to the continuous usage inflected hiragana By narrowing down the candidates by applying them, and narrowing down the candidates by referring to the general language dictionary, "motion frame", which is a proper term mixed with hiragana,
The “movement amount” can be extracted.

〔発明の効果〕〔The invention's effect〕

本発明によれば,平仮名混じり固有用語を抽出するこ
とができ,例えば翻訳対象文書の中から文書固有の用語
を抽出して対訳書を作成する処理や,論文,著作物等の
日本語文書の用語集,索引作成などの作成処理において
大幅な効率化を図ることが期待できる。
According to the present invention, it is possible to extract unique terms mixed with hiragana, for example, a process of extracting a term unique to a document from a document to be translated to create a bilingual document or a Japanese document such as a paper or a literary work. It can be expected that the efficiency of creation processing such as glossary and index creation will be greatly improved.

例えば日英翻訳用日本語英語対訳集の作成に関して,
従来では,大量の翻訳対象文書を翻訳する前に,該文書
の中で用いられている専門用語や特殊な用語を文書の中
から人手で抽出してそれに訳語を与えて対訳集を作成し
ていたが,本発明を利用する事により,翻訳の前処理に
おいて翻訳の対象となる文書の中から当該文書固有の用
語を,形態素解析,係り受け解析などの解析処理を行う
ことなく,高速に抽出する事が可能になる。また,未知
語など形態素解析などを行うと,解析失敗の原因になっ
たり抽出に失敗したりする固有用語を抽出する事が可能
となる。本発明では抽出された固有用語に対して訳語を
与えた用語集を利用者辞書に登録し,利用する事で翻訳
の品質は著しく向上する事が期待できる。
For example, regarding the creation of a Japanese-English bilingual collection for Japanese-English translation,
Conventionally, before translating a large amount of documents to be translated, technical terms and special terms used in the documents are manually extracted from the documents and the translated words are given to them to create a bilingual collection. However, by using the present invention, the term specific to the document is extracted at high speed from the document to be translated in the preprocessing of translation without performing analysis processing such as morphological analysis and dependency analysis. It becomes possible to do. In addition, by performing morphological analysis on unknown words, it is possible to extract proper terms that cause analysis failure or fail to be extracted. In the present invention, it is expected that the quality of translation will be remarkably improved by registering and using a glossary in which a translation is given to the extracted unique term in the user dictionary.

また索引の自動作成に関して,従来では,索引を作成
する場合,執筆者が自分の書いた原稿の中から重要と思
われる用語を拾い出し,抽出された用語をソートして索
引を人手で作成するという手順で行っていた。本発明を
利用する事により、執筆者は電子化された日本語文書を
本装置にかける事で自動的に索引候補用語を抽出でき
る。執筆者は本装置により提示された候補の内,不要な
候補を若干削除する事で索引に使用する用語を抽出する
事が可能である。電子化された候補用語はあいうえお順
に容易にソートする事ができ,高速に索引を作成するこ
とができる。
With regard to automatic index creation, conventionally, when creating an index, the author manually picks out terms that seem to be important from the manuscript he wrote and sorts the extracted terms to create an index manually. I was going through the procedure. By using the present invention, the writer can automatically extract index candidate terms by applying an electronic Japanese document to this device. The author can extract the terms used for the index by deleting some unnecessary candidates from the candidates presented by this device. The computerized candidate terms can be easily sorted in order of AIUEO, and a high-speed index can be created.

【図面の簡単な説明】[Brief description of drawings]

第1図は本発明の一実施例を示す基本構成図,第2図は
本発明の動作の概略フロー図,第3図は本発明の入力と
なる日本語文書の一例,第4図はあらかじめ抽出された
平仮名を含まない固有用語のリスト,第5図はあらかじ
め抽出された固有用語を入力文書から削除した例,第6
図は削除された固有用語の前後の文字の並びを分離して
作成した分離文字列のリスト,第7図は日本語文字を7
種類に分けた字種コードテーブルの内容例,第8図は字
種コードテーブルを使用してコードに変換された分離文
字列のリスト,第9図は字種コードF,Jで分離された,
又は囲まれたA,B,C,D,Eの文字列で,Bを含んでいるもの
だけを候補としたリスト,第10図は候補として残ったコ
ード化文字列に対して適用される絞り込みルールテーブ
ルの内容例,第11図は最終候補リスト,および絞り込み
ルール適用結果を示す。 1……日本語文書,2……固有用語リスト「1」,3……文
字列分離部,4……平仮名混じり固有用語候補抽出部,5…
…字種コードテーブル,6……平仮名混じり固有用語候補
絞り込み部A,7……絞り込みルールテーブル,8……平仮
名混じり固有用語候補絞り込み部B,9……一般語辞書,10
……固有用語出力部,11……固有用語リスト「2」,12…
…日本文固有用語抽出装置。
FIG. 1 is a basic configuration diagram showing an embodiment of the present invention, FIG. 2 is a schematic flow chart of the operation of the present invention, FIG. 3 is an example of a Japanese document which is an input of the present invention, and FIG. List of extracted unique terms that do not include hiragana, Fig. 5 is an example of deleting previously extracted unique terms from the input document, 6th
The figure shows a list of separated strings created by separating the sequence of characters before and after the deleted proper term.
Example of contents of character type code table divided into types, FIG. 8 is a list of separated character strings converted into codes using the character type code table, and FIG. 9 is separated by character type codes F and J,
Or, a list of only enclosed A, B, C, D, E character strings that include B. Figure 10 is a narrowing that is applied to the coded character strings that remain as candidates. An example of the contents of the rule table, Fig. 11 shows the final candidate list and the result of applying the narrowing rules. 1 …… Japanese document, 2 …… Unique term list “1”, 3 …… Character string separation section, 4 …… Unique term candidate extraction section with Hiragana mixed, 5…
… Character type code table, 6 …… Hiragana mixed unique term candidate narrowing down section A, 7 …… Narrowing rule table, 8 …… Hiragana mixed unique term candidate narrowing down section B, 9 …… General language dictionary, 10
…… Unique term output part, 11 …… Unique term list “2”, 12…
… Japanese sentence proper term extraction device.

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平1−266670(JP,A) 奥、東田“日本語文書に含まれる固有 用語の自動抽出方式”情報処理学会第41 回全国大会講演論文集Vol.3,N o.3J−5(1990−09−04〜06)P P.3−227〜228 ─────────────────────────────────────────────────── ─── Continuation of the front page (56) References Japanese Patent Laid-Open No. 1-266670 (JP, A) Oku, Higashida “Automatic Extraction Method of Proper Terms in Japanese Documents” IPSJ 41st Annual Conference Shu Vol. 3, No. 3J-5 (1990-09-04 to 06) PP. 3-227 ~ 228

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】日本語で記述された日本語文書と該文書に
含まれる平仮名を含まない固有用語リスト「1」とを入
力するよう構成され, 入力日本語文書および固有用語リスト「1」とを用い
て,上記固有用語と固有用語に挟まれた文字列を分離・
抽出する文字列分離部と, 日本語文書で使用される文字を複数の特定字種に分類し
た字種コードテーブルと, 該字種コードテーブルを用いて,文字列分離部で分離さ
れた各々の文字列に対して平仮名混じりの固有用語候補
を抽出する平仮名混じり固有用語候補抽出部と, 絞り込みルールテーブルを用いて平仮名混じり固有用語
候補の中から絞り込みのための選択条件を満足した候補
だけを抽出する平仮名混じり固有用語候補絞り込みA
と, 平仮名混じり固有用語候補絞り込み部Aで絞り込まれた
候補用語に対して一般語辞書と照合して一般語辞書に登
録されている語を削除してさらに候補を絞り込む平仮名
混じり固有用語候補絞り込み部Bと, 絞り込まれた結果を蓄積して出力装置に固有用語リスト
「2」を出力する平仮名混じり固有用語出力部と, をそなえ,平仮名混じり固有用語を抽出する ことを特徴とする日本文固有用語抽出装置。
1. A Japanese document written in Japanese and a unique term list "1" that does not include hiragana contained in the document are input, and the input Japanese document and unique term list "1" are input. Is used to separate the above-mentioned proper term and the character string sandwiched between proper terms.
A character string separation unit to be extracted, a character type code table in which characters used in Japanese documents are classified into a plurality of specific character types, and each of the character string separation units separated using the character type code table. Using the Hiragana-blended proper term candidate extraction unit that extracts Hiragana-blended proper term candidates for a character string and the Hiragana-blended proper term candidates, only those that satisfy the selection conditions for narrowing are extracted from the Hiragana-blended proper term candidates. Select Hiragana mixed specific term candidates A
And a candidate term narrowed down by the Hiragana mixed proper term candidate narrowing down section A is compared with a common word dictionary to delete words registered in the common word dictionary and further narrow down the candidates. B, and a Hiragana-mixed proper term output section that accumulates the narrowed results and outputs a proper term list “2” to the output device, and extracts the Hiragana-blended proper term. Extractor.
JP2319150A 1990-11-22 1990-11-22 Japanese sentence proper term extraction device Expired - Lifetime JP2520195B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2319150A JP2520195B2 (en) 1990-11-22 1990-11-22 Japanese sentence proper term extraction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2319150A JP2520195B2 (en) 1990-11-22 1990-11-22 Japanese sentence proper term extraction device

Publications (2)

Publication Number Publication Date
JPH04188364A JPH04188364A (en) 1992-07-06
JP2520195B2 true JP2520195B2 (en) 1996-07-31

Family

ID=18106996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2319150A Expired - Lifetime JP2520195B2 (en) 1990-11-22 1990-11-22 Japanese sentence proper term extraction device

Country Status (1)

Country Link
JP (1) JP2520195B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3389285B2 (en) * 1993-06-15 2003-03-24 株式会社エヌ・ティ・ティ・データ Proper noun identification method
JP3317904B2 (en) * 1998-09-02 2002-08-26 日本電気株式会社 Abbreviated name extraction device, method and recording medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
奥、東田"日本語文書に含まれる固有用語の自動抽出方式"情報処理学会第41回全国大会講演論文集Vol.3,No.3J−5(1990−09−04〜06)PP.3−227〜228

Also Published As

Publication number Publication date
JPH04188364A (en) 1992-07-06

Similar Documents

Publication Publication Date Title
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
JPS6211932A (en) Information retrieving method
Chang A new approach for automatic Chinese spelling correction
U Rahman Towards Sindhi corpus construction
JP2006251843A (en) Synonym pair extracting device, and computer program therefor
Heid A linguistic bootstrapping approach to the extraction of term candidates from German text
JP2520195B2 (en) Japanese sentence proper term extraction device
Blank Terminology extraction from parallel technical texts
Hajbi et al. Natural Language Processing Based Approach to Overcome Arabizi and Code Switching in Social Media Moroccan Dialect
Saito et al. Multi-language named-entity recognition system based on HMM
Brinton Historical pragmatics and corpus linguistics: problems and strategies
Bataineh A Printed PAW Image Database of Arabic Language for Document Analysis and Recognition.
Maheswari et al. Rule based morphological variation removable stemming algorithm
JP4088171B2 (en) Text analysis apparatus, method, program, and recording medium recording the program
Pantelia ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE
Kumar et al. Bilingual Parallel Corpora: A Major Resource for Developing Computational Tools for Automatic Processing of Hindi-Dogri Language Pair
JPH03105465A (en) Compound word extraction device
Buk et al. Rank-Frequency analysis for functional style corpora of Ukrainian
JP2004348514A (en) Parallel translation word extraction method, parallel translation word dictionary construction method, and translation memory construction method
JPS61248160A (en) Document information registering system
Naeem et al. Exploiting Transliterated Words for Finding Similarity in Inter-Language News Articles using Machine Learning
Debnath et al. A Hybrid Approach to Design Automatic Spelling Corrector and Converter for Transliterated Bangla Words
Steiner et al. Growing trees from morphs: Towards data-driven morphological parsing
Freigang Automation of translation: past, presence, and future
Glaser et al. Improving Legal Information Retrieval: Metadata Extraction and Segmentation of German Court Rulings.

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090517

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090517

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100517

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100517

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110517

Year of fee payment: 15

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110517

Year of fee payment: 15