JPS60124769A - Word extracting system - Google Patents

Word extracting system

Info

Publication number
JPS60124769A
JPS60124769A JP58232576A JP23257683A JPS60124769A JP S60124769 A JPS60124769 A JP S60124769A JP 58232576 A JP58232576 A JP 58232576A JP 23257683 A JP23257683 A JP 23257683A JP S60124769 A JPS60124769 A JP S60124769A
Authority
JP
Japan
Prior art keywords
kanji
character string
character
result
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58232576A
Other languages
Japanese (ja)
Inventor
Yasuyuki Numata
泰之 沼田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP58232576A priority Critical patent/JPS60124769A/en
Publication of JPS60124769A publication Critical patent/JPS60124769A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Abstract

PURPOSE:To attain high speed retrieval of a word including a Kanji (Chinese character) by registering Kanji sounds having two or more character readings, using them, sectioning an input Kana (Japanses syllabary) character and forming a character string to be retrieved based on the classification as the forming of the result. CONSTITUTION:The Kana character string inputted from a keyboard input section 1 is stored in an input character string temporary storage section 2 and fed to a Kanji sound processing section 3. The Kanji sound processing section 3 has a classification module and a register, classifies the result of processing according to the condition and transmits the result to a retrieved character string forming section 4. The retrieved character string forming section 4 sets six characters started from a set analysis start position to the buffer. This content and that of a Kanji sound table 5 in which Kanji sounds having two or more character readings are registered are subject to matching processing, the string is sectioned at an element level of the Kanji sound and the result is set to other buffer. Fromg the result of the comparison between the said buffer and the classification register, only the charfacter number's corresponding to the input character string is cut-out to form a retrieved character string.

Description

【発明の詳細な説明】 技術分野 本発明は日本語ワードプロセッサ等における単語抽出方
式に関し、特に用語抽出プロセスに漢字音の概念を導入
し辞書検索時における被検索文字列を必要最低限の設定
にすることにより、不必要な候補を抽出しないようにし
て、誤解析の減少および辞書検索の速度向上を実現可能
とした甲、詔抽出方式に関するものである。
[Detailed Description of the Invention] Technical Field The present invention relates to a word extraction method in a Japanese word processor, etc., and in particular to introducing the concept of kanji sounds into the term extraction process and setting the search string to the minimum necessary when searching in a dictionary. The present invention relates to an edict extraction method that can reduce erroneous analysis and improve dictionary search speed by not extracting unnecessary candidates.

従来技術 従来のカナ漢字変換処理装置においては、入力されたカ
ナ文字列から単語を抽出するアルゴリズムは、一般に、
次の如きものであった。
Prior Art In conventional kana-kanji conversion processing devices, the algorithm for extracting words from input kana character strings is generally
It was something like this:

(1)文字列に対する解析スタート位置の設定特殊な場
合を除いて、一般には文字列の先頭文字(第1番目の文
字)を解析のスタート位置としてまず設定し、その位置
を先頭文字とする単語の切出しに成功したならば、次に
、単語切出し後の文字列の先頭文字を新たな解析のスタ
ート位置として設定する方式である。
(1) Setting the analysis start position for a character string Except for special cases, generally the first character (first character) of a character string is set as the start position for analysis, and words whose first character is at that position If the word segmentation is successful, then the first character of the character string after word segmentation is set as the starting position for a new analysis.

(例)入力文字列 恋いせきによりだんごの〜 ↑:最初の解析スター1〜位置 ここで、「かいせき(解析)」の9ノ出しに成功した場
合には次の如くなる。
(Example) Dango's ~ ↑: First analysis star 1 ~ position Here, if you succeed in getting 9 of "Kaiseki (analysis)", the result will be as follows.

かいせ1片よりだんごの〜 ↑:次の解析スタート位置 (2)辞7ト検索のための被検索文字列の作成lI+?
書中の読みの長さが最長6文字であるとすれば、」−記
例文の場合、次のような被検索文字列が設定される。
A dumpling from a piece of rice cake ~ ↑: Next analysis start position (2) Creating a search string for the word 7 search lI+?
Assuming that the length of the reading in the calligraphy is a maximum of 6 characters, the following character string to be searched is set in the case of the example sentence "-".

a)最初の単語のりj出し く、いかいせきによ (?)かいせきに 小)かいせき (4)かいせ (61かい (6)か b)「解析」切出し成功後の単語の切出しく」うにより
たんご (2)によりたん (3+に上りだ (11)により (5)によ (ψに (3)設定した被検索文字列と辞書中の見出し文字列と
のマツチング判定による候補の抽出上記例の場合は次の
ようになる。。
a) Extract the first word (?) Extract the word after successful extraction (4) Extract the word after successful extraction. Extraction of candidates by matching the searched string set in (3) with the header string in the dictionary In the above example, it would be as follows.

(]+rかいせきによ」により 候補抽出てきない ■「かいせきに」により 候補抽出てきない ■「かいせき」により 「会席」、「解析」、「懐石」を抽出 ■「かいせ」により 候補抽出できない −の「かい」により 「会」、「回」、「快」、「戒」等を抽出(ΦFか」に
より 「可」、「香」、「蚊」、「課」等を抽出(4)(3)
で抽出された候補群に刺して種々の評価。
Cannot extract candidates with (] + r kaiseki yo) ■ Candidates cannot be extracted with ``kaiseki'' ■ Extract ``Kaiseki'', ``Analysis'', and ``Kaiseki'' with ``kaiseki'' ■ Extract candidates with ``kaiseki'' Extracts “kai”, “kai”, “kai”, “kai”, etc. by “kai” of “cannot do” (extracts “possible”, “ka”, “mosquito”, “section”, etc. by ΦFka) (4 )(3)
Various evaluations were performed on the candidate group extracted in .

を行い、最も適切と思われる候補を決定する。and determine the most suitable candidate.

しかしながら、上述の如き単語抽出方式は人力文字列に
よっては、候補群が極めて多数抽出される場合があり、
誤解析および辞書検索速度低Fの原因となるという問題
があった。
However, the word extraction method described above may extract an extremely large number of candidate groups depending on the human character string.
There is a problem that it causes erroneous analysis and low dictionary search speed.

1」的 本発明は」二記事情に鑑みてなされたもので、その目的
とするところは、従来の単語抽出方式における上述の如
き問題を解消し、誤解析の減少および辞書検索の速度向
上を可能とする単語抽出方式を提供することにある。
The present invention was made in view of the above two circumstances, and its purpose is to solve the above-mentioned problems in conventional word extraction methods, reduce erroneous analysis, and improve the speed of dictionary searches. The purpose of this invention is to provide a word extraction method that makes it possible.

構 成 以下、実施例に基づいて、本発明の構成を詳細に説明す
る。
Configuration Hereinafter, the configuration of the present invention will be explained in detail based on examples.

第1図は本発明の〜実施例であるカナ漢字変換処理装置
の概要を示すブロック図、第2図はその要部である漢字
筒(おん)テーブルの内容の一部を示すものである。第
1図において、1はキーボー1へ人力部、2は人力文字
列一時記憶部、3は漢字音処理部、4は被検索文字列作
成部、5は漢字筒テーブル記憶部、6は辞書検索部、7
は単語辞書を示している。なお、第2図はあくまでも、
漢字筒テーブルの一例を示すものであり、本発明はこれ
に限定されるべきものではない。
FIG. 1 is a block diagram showing an overview of a kana-kanji conversion processing apparatus according to an embodiment of the present invention, and FIG. 2 shows a part of the contents of a kanji cylinder table, which is the main part thereof. In Fig. 1, 1 is a human power unit for keyboard 1, 2 is a human power character string temporary storage unit, 3 is a kanji sound processing unit, 4 is a searched character string creation unit, 5 is a kanji cylinder table storage unit, and 6 is a dictionary search unit. Part, 7
indicates a word dictionary. Please note that Figure 2 is for illustration only.
This is an example of a kanji cylinder table, and the present invention should not be limited to this.

漢字音処理部3は後述する条件に従って処理結果を分類
するための分類モジュールおよび分類結果を保持するレ
ジスタを有するものである。以下。
The kanji sound processing unit 3 has a classification module for classifying processing results according to conditions described later and a register for holding the classification results. below.

このレジスタをrTYPE」と呼ぶ、。This register is called "rTYPE".

以下、本実施例の動作を説明するか、説1り口;あたっ
ては、先に従来技術の項に示したと同じ例文かいせきに
よりだんごの〜 を用いる。
Hereinafter, the operation of this embodiment will be explained, or the first explanation will be given using the same example sentence as previously shown in the section of the prior art.

被検索文字列作成部4では、従来と同様に設定した解析
スター1−位置から始まる6文字を、予め用Mニジたバ
ッファにセノ1−する(第:3図参照)。このバッファ
は文字が一次元的に6文字セノ1−できるものであれば
良く、以下、このノλツファを[vJINDOWJと呼
ぶ。
The searched character string creation unit 4 stores six characters starting from the analysis star 1 position set in the same way as in the conventional case into a buffer previously set for M (see FIG. 3). This buffer may be one that can one-dimensionally store six characters, and hereinafter this buffer will be referred to as [vJINDOWJ].

次に、上記W T、 N D OW中の文字列と、第2
図に示した漢字筒テーブルの各要素とのマ・ノチング゛
処理を行い、WINDOW中の文字列に苅してfJ′!
字音の要素レベルでの区切りを施し、その結果を具体的
に表現し得る方法で、予め用意した)<ノファ等にセッ
トする。ここでは、WINDOW2という、−次元的に
大きさ6の配列という表現を有するバッファを用意して
いる。
Next, the character strings in the above W T, N D OW and the second
Perform ma-notching processing with each element of the kanji cylinder table shown in the figure, and add fJ' to the character string in WINDOW!
Separate the letters and sounds at the element level, and set the results to <nofa, etc., prepared in advance in a way that can be expressed concretely. Here, a buffer called WINDOW2 is prepared, which is expressed as an array with size 6 in the - dimension.

第4図は」二記W I N +)OW中の文字列に施し
た区切りと、WTNI)OW2の内容の一例を示すもの
である。WINL)OWにイ」された矢印は上記漢字音
しベルでの区切りを示し、WINDOW2の内容である
数字はその文字数に対応する漢字音が前記漢字音テーブ
ル中に存在していることを示すものである。
FIG. 4 shows an example of the delimiters applied to the character strings in "W I N +) OW" and the contents of WTNI) OW2. The arrow marked ``WINL)OW'' indicates the separation between the above kanji sounds and the bell, and the number that is the content of WINDOW2 indicates that the kanji sound corresponding to the number of characters exists in the kanji sound table. It is.

ここでは。here.

WINL)O’TV2(1)=2(rかい」に対応する
)WINDOW2(2)=2(rせき」に対応する)W
 I NDOW2(3)= 1−(’に」に対応する)
WINDOW2(4)=1(rよ」に対応する)WI 
NDOW2(5)=O WINDOW2(6)=0 である。
WINL) O'TV2 (1) = 2 (corresponds to "rkai") WINDOW2 (2) = 2 (corresponds to "r cough") W
I NDOW2 (3) = 1 - (corresponds to 'ni')
WINDOW2 (4) = 1 (corresponds to “ryo”) WI
NDOW2(5)=O WINDOW2(6)=0.

上記処理の結果を次の条件に従って分類する。The results of the above processing are classified according to the following conditions.

(])WINDOW2(1)≧2、かつWINL)OW
2(2)≧2の場合 TYPEに「1」をセントする。。
(]) WINDOW2(1)≧2, and WINL)OW
If 2(2)≧2, set “1” to TYPE. .

(2)WI NDOW2(1)≧2、かつWINDOW
2(2)= ]の場合 TYPEに「2Jをセソ1−する。
(2) WINDOW2(1)≧2 and WINDOW
2 (2) = ] If TYPE is set to “Seso 1- 2J.

(3)WINDOW2(1)=]、かつWINDOW2
(2)≧2の場合 TYPEに「3」をセソ1へする。
(3) WINDOW2(1)=], and WINDOW2
(2) If ≧2, set "3" to TYPE to seso1.

(4)上記分類(1)〜(3)以外の場合TYPEに「
4」をセソ1−する。
(4) In cases other than the above categories (1) to (3), enter “TYPE”.
4" to 1-.

以後、上記分類結果に従って、被検索文字列を以下の方
法で作成する。
Thereafter, a searched character string is created in the following manner according to the above classification results.

TYPEに「1」〜T3Jのいがれかがセノ1−されて
いる場合には、入力文字列から WINDOW2(1)+WIN 丁つ0W(2)および WINDOW2(1) にそれぞれ対応する文字数分だけを切出して、2通りの
被検索文字列を作成する。
If any of the characters from "1" to T3J is set in TYPE, the number of characters corresponding to WINDOW2 (1) + WIN, WINDOW2 (2) and WINDOW2 (1) are extracted from the input character string. , and create two types of searched character strings.

上記例文の場合には、コ゛YPEは「1」となるので、
被検索文字列としては、 (′L)かいせき (2)かい の2つか設定さAしることになる。この被検索文字列を
用いて従来と同様に辞書検索を行う。
In the case of the example sentence above, the code YPE is "1", so
As the character string to be searched, the following two characters are set: ('L), (2), and (2). Using this searched character string, a dictionary search is performed in the same manner as before.

なお、T’ Y I) Eが「4」の場合は、従来と全
く同様の方法で被検索文字列を作成する。
Note that when T'YI)E is "4", the searched character string is created in exactly the same manner as the conventional method.

第5図(Δ)〜(D)に各分類の具体例を挙げて説明の
補足とする。(A)は分類1(1’YI)IE= ])
Specific examples of each classification are given in FIGS. 5(Δ) to (D) to supplement the explanation. (A) is classification 1 (1'YI)IE= ])
.

(+3)は分類■(′1”Y l) IΣ=2)、・・
・・にそれぞれ対応しているものである。各場合の入力
文および被検索文字列は、 (A’)の場合:だいがくでは(大学では)(1−)だ
いかく (かだい (B)の場合:りゃくぎにて(略儀にて)中りやくざ (巧りやく (C)の場合:かのうなばあい(可能な場合)(−!)
かのう t匈か (D)の場合:このようにして(同左)0)このように
し。
(+3) is classified ■('1"Y l) IΣ=2),...
...corresponds to each. The input sentence and searched character string in each case are: (A'): Daigaku de (University) (1-) Daikaku (Kadai (B): Ryakugi de (abbreviation)) In the case of Nakariyakuza (C): Kanonabaai (if possible) (-!)
In the case of kanou t 匈ka (D): Do it like this (same as left) 0) Do it like this.

cつこのように ■このよう (小このよ (加この 燻)こ となる。like this ■Like this (Kokonoyo (Kako smoke) becomes.

上記各実施例においては、W I N D OVT’ 
、t;よびWINDOW2をいずれも6文字分の大きさ
をイAするバッファとしたが、これは必ずしも6文字に
限られるものではない。また、」−言己WTさ11−)
 OWの如きバッファの代りに、入力文字列をセソ1−
するバッファとそのバッファ中の位置を示す複数のポイ
ンタおよびそのポインタの値を七ソ1−シ、/lj、る
レジスタ等を用意しても良い。
In each of the above embodiments, W I N D OVT'
, t; and WINDOW2 are all buffers with a size of 6 characters, but this is not necessarily limited to 6 characters. Also,”-Konmi WT Sa 11-)
Instead of a buffer like OW, input string can be seso1-
It is also possible to provide a buffer to be stored, a plurality of pointers indicating positions in the buffer, and registers that store the values of the pointers.

効 果 以上述べた如く、本発明によ]しば、rll、出方出を
行う際に、漢字音を用いて候補単語の切出しを行うよう
にしたので、漢字を含むni 語の抽出を高速化するこ
とができるという顕著な効果を奏するものである。
Effects As described above, according to the present invention, candidate words are extracted using kanji sounds when performing [shiba, rll, and appearance], so that words containing kanji can be extracted at high speed. This has the remarkable effect of being able to transform

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例を示すブロック図、第2図は
漢字音テーブルの内容の一部を示す図、第3図は入力文
字列バッファの内容の一例を示す図、第4図は入力文字
列と漢字音テーブルの内容とのマツチングを行った状況
を示す図、第5図は具体的処理例を示す図である。 1:キーポート入力部、−2=大入力字列一時記憶部、
3:漢字音処理部、4:被検索文字列作成部、5:漢字
音テーブル記憶部、6=辞書検索部、7:単語辞書。 特許出願人 株式会社リ コ −− 第1図 第 3 図 8184図 第5図
FIG. 1 is a block diagram showing an embodiment of the present invention, FIG. 2 is a diagram showing part of the contents of a kanji sound table, FIG. 3 is a diagram showing an example of the contents of an input character string buffer, and FIG. 5 is a diagram showing a situation in which an input character string is matched with the contents of a kanji sound table, and FIG. 5 is a diagram showing a specific processing example. 1: Keyport input section, -2=Large input character string temporary storage section,
3: Kanji sound processing unit, 4: Searched character string creation unit, 5: Kanji sound table storage unit, 6 = Dictionary search unit, 7: Word dictionary. Patent applicant Ricoh Co., Ltd. -- Figure 1 Figure 3 Figure 8184 Figure 5

Claims (1)

【特許請求の範囲】[Claims] (1)複数の単語をその読みを表わす文字列に対応して
記憶する単語辞書記憶手段と、入力されたカナ文字列を
一時記憶する手段と、作成された被検索文字列によって
前記単語辞書を検索する手段とを有するカナ漢字変換処
理装置において、読みが2字以上の漢字音を登録したテ
ーブル記憶手段と、前記入力カナ文字列を前記漢字音を
用いて区切る手段と、該区切り手段による処理結果を形
態的に分類する手段とを設け、該分類手段による分類結
果に基づいて被検索文字列を作成することを特徴とする
113語抽出方式。
(1) A word dictionary storage means for storing a plurality of words in correspondence with character strings representing their pronunciations, a means for temporarily storing input kana character strings, and a word dictionary storage means for storing a plurality of words in correspondence with character strings representing their pronunciations; and means for temporarily storing input kana character strings; A kana-kanji conversion processing device comprising a means for searching, a table storage means in which kanji sounds having readings of two or more characters are registered, a means for dividing the input kana character string using the kanji sounds, and processing by the dividing means. 11. A 113-word extraction method characterized in that a means for morphologically classifying results is provided, and a character string to be searched is created based on the classification result by the classification means.
JP58232576A 1983-12-09 1983-12-09 Word extracting system Pending JPS60124769A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58232576A JPS60124769A (en) 1983-12-09 1983-12-09 Word extracting system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58232576A JPS60124769A (en) 1983-12-09 1983-12-09 Word extracting system

Publications (1)

Publication Number Publication Date
JPS60124769A true JPS60124769A (en) 1985-07-03

Family

ID=16941509

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58232576A Pending JPS60124769A (en) 1983-12-09 1983-12-09 Word extracting system

Country Status (1)

Country Link
JP (1) JPS60124769A (en)

Similar Documents

Publication Publication Date Title
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
JPS6033665A (en) Automatic extracting system of keyword
JPS60124769A (en) Word extracting system
JPH1011431A (en) Kanji retrieval device and method
KR100347055B1 (en) Korean morpheme analyzing method
JPS60124770A (en) Word extracting system
JPS6132167A (en) Kana-kanji conversion processor
JPH09185674A (en) Device and method for detecting and correcting erroneously recognized character
JPS60124768A (en) Work extracting system
JP2995783B2 (en) Katakana translation word estimator
JPS60124773A (en) Document forming device
JPS60136864A (en) Extracting method of word
JPS603017A (en) Kana-kanji conversion processing system
CN112100329A (en) Learning mental evaluation method and device based on big data
JPS6316370A (en) Word extracting system
JP2001125907A (en) Method and device for retrieving dictionary and recording medium recording dictionary retrieving program
JPH0916575A (en) Pronunciation dictionary device
JPS63142422A (en) Method for extracting frequency appearing character string
JPH07129588A (en) Document content analyzer of pattern guiding type
JPS62263569A (en) Kana/kanji(chinese character) converting processing system
JPH04188364A (en) Device for extracting intrinsic wording of japanese sentence
JPS63133228A (en) Information extracting device
Takemoto et al. NEC Corporation and University of Sheffield:“Description of NEC/Sheffleld System Used For MET Japanese”
JPH0895976A (en) Natural language analyzer
JPS6175471A (en) Logotype learning system