JPH08212225A - Language judgement device - Google Patents
Language judgement deviceInfo
- Publication number
- JPH08212225A JPH08212225A JP7014262A JP1426295A JPH08212225A JP H08212225 A JPH08212225 A JP H08212225A JP 7014262 A JP7014262 A JP 7014262A JP 1426295 A JP1426295 A JP 1426295A JP H08212225 A JPH08212225 A JP H08212225A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- language
- partial character
- partial
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
Description
【0001】[0001]
【産業上の利用分野】本発明は、属する言語名が未知で
ある文字列が与えられた場合に、その文字列が属する言
語名を判定する言語判定装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a language determination device for determining a language name to which a character string belongs, when the character string to which the language name belongs is unknown.
【0002】[0002]
【従来の技術】近年の国際交流の活発化に伴い、ある言
語で書かれた文書を別の言語に翻訳する機会が増大して
きている。文書によっては、一つの文書中に複数の言語
で書かれた文や単語が混在する場合が珍しくなく、その
場合にも適切に一種類の言語の文書に翻訳できるという
多言語対応の自動翻訳機の出現が待ち望まれている。2. Description of the Related Art With the recent increase in international exchange, there are increasing opportunities to translate documents written in one language into another language. It is not uncommon for some documents to contain sentences and words written in multiple languages within a single document, and even in that case, a multilingual automatic translator that can appropriately translate into a document in one language Is expected.
【0003】しかし、このような多言語の文や単語が混
在する文書を翻訳するには、文書の翻訳に先立って、文
書を構成する一文ごと又は単語ごとにそれらの文や単語
が属する言語名を的確に特定するという前処理が必要と
なる。その際における言語判定の従来技術として、例え
ば、「特開公61−139884」には「言語の種類判
定方式」が示されている。However, in order to translate a document in which such multilingual sentences and words are mixed, prior to translation of the document, for each sentence or word constituting the document, the language name to which those sentences or words belong. It is necessary to perform a pre-process of accurately specifying As a conventional technique for language determination at that time, for example, “Japanese Patent Laid-Open No. 61-139884” discloses a “language type determination method”.
【0004】この従来技術の内容について、図10に示
すフローチャートに基づいて説明する。ここで、判定の
対象となる文字列を、α1α2・・・αnとし、候補とな
る言語名として、A言語、B言語、・・・、Z言語があ
るとする。そして、各言語にのみ属する特有の文字や記
号を集めたテーブルを、予め以下のように作っておく。The contents of this prior art will be described with reference to the flow chart shown in FIG. Here, it is assumed that the character string to be determined is α1α2 ... αn and the candidate language names are A language, B language, ..., Z language. Then, a table in which unique characters and symbols belonging only to each language are collected is created in advance as follows.
【0005】A言語にのみ属する文字や記号を集めたテ
ーブルを{a1、a2、・・・、ax} B言語にのみ属する文字や記号を集めたテーブルを{b
1、b2、・・・、by} Z言語にのみ属する文字や記号を集めたテーブルを{z
1、z2、・・・、zz}とする。A table that collects characters and symbols that belong only to the A language {a1, a2, ..., Ax} a table that collects characters and symbols that belong only to the B language {b
1, b2, ..., by} A table that collects characters and symbols that belong only to the Z language is {z
1, z2, ..., zz}.
【0006】判定の対象となる文字列を獲得すると(ス
テップ1001)、その文字列の先頭から一文字ずつ上
記テーブル内の文字と比較する(ステップ1002〜1
009)。一致する文字が発見された場合には、その文
字を含むテーブルに対応する言語が、求める言語名であ
ると判断する(ステップ1004、1006、100
8)。When the character string to be judged is acquired (step 1001), the character string is compared with the characters in the table one by one from the beginning (steps 1002-1).
009). When a matching character is found, it is determined that the language corresponding to the table including the character is the desired language name (steps 1004, 1006, 100).
8).
【0007】[0007]
【発明が解決しようとする課題】しかしながら、上記の
ような従来技術には次のような問題点があった。例え
ば、A言語を英語としB言語をドイツ語とした場合に
は、英語に属する文字や記号はすべてドイツ語に属する
ために、英語にのみ属する文字や記号を集めたテーブル
は空集合となってしまう。However, the above-mentioned prior art has the following problems. For example, if the A language is English and the B language is German, all the characters and symbols that belong to English belong to German, so the table that collects the characters and symbols that belong only to English is an empty set. I will end up.
【0008】従って、ある英語の単語について言語判定
を行っても、その単語が英語であるという判定を得るこ
とはできないという問題点があった。また、たとえA言
語のテーブルもB言語のテーブルも空集合でない場合で
あっても、A言語にもB言語にも共通に含まれる文字の
みからなる文字列に対しては、その文字列はA言語にも
B言語にも属するために、的確に言語名を判定すること
ができないという問題点もあった。Therefore, there is a problem that even if the language determination is performed on a certain English word, it cannot be determined that the word is English. Further, even if neither the A language table nor the B language table is an empty set, for a character string consisting only of characters commonly included in both A language and B language, the character string is A Since it belongs to both the language and the B language, there is a problem that the language name cannot be accurately determined.
【0009】そこで、本発明は、かかる問題点に鑑みて
なされたものであり、特徴が近接した言語を対象とし
て、与えられた文字列が属する言語名を判定しなければ
ならない場合であっても、また、複数の言語に共通に属
する文字だけからなる文字列に対して言語名を判定しな
ければならない場合であっても、その文字列が属する言
語名を的確に判定できる言語判定装置を提供することを
目的としている。Therefore, the present invention has been made in view of the above problems, and even in the case where a language name to which a given character string belongs must be determined for a language whose features are close to each other. Further, even if the language name has to be determined for a character string consisting of only characters that commonly belong to a plurality of languages, a language determination device that can accurately determine the language name to which the character string belongs is provided. The purpose is to do.
【0010】[0010]
【課題を解決するための手段】上記目的を達成するため
に請求項1記載の言語判定装置は、与えられた入力文字
列が属する言語名を判定する言語判定装置であって、前
記入力文字列の一部又は全部の文字並びからなる部分文
字列を生成する部分文字列生成手段と、前記部分文字列
と同数の文字数からなる文字列群と、各文字列が属する
可能性がある言語名とその可能性を示す評価値とからな
る候補言語情報とを記憶した特徴辞書と、前記特徴辞書
に記憶された文字列を検索し、前記部分文字列と一致す
る文字列に相当する候補言語情報を獲得する検索手段
と、検索の結果得られた候補言語情報に基づいて前記入
力文字列の言語名を決定する言語決定手段とを備えたこ
とを特徴とする。In order to achieve the above object, a language determining apparatus according to claim 1 is a language determining apparatus for determining a language name to which a given input character string belongs, the input character string And a character string group having the same number of characters as the partial character string, and a language name to which each character string may belong, A feature dictionary storing candidate language information including an evaluation value indicating the possibility and a character string stored in the feature dictionary are searched, and candidate language information corresponding to a character string matching the partial character string is searched. It is characterized by comprising a searching means for acquiring and a language determining means for determining a language name of the input character string based on the candidate language information obtained as a result of the search.
【0011】請求項2記載の言語判定装置は、請求項1
記載の言語判定装置にさらに、部分文字列を生成する際
の規則を予め複数個分だけ記憶した部分文字列生成規則
記憶手段を備え、前記部分文字列生成手段は、前記部分
文字列生成規則記憶手段に記憶された複数個の規則の中
から選択された1つの規則に従って部分文字列を生成す
ることを特徴とする。According to a second aspect of the present invention, there is provided a language determination device according to the first aspect.
The described language determination device further includes a partial character string generation rule storage unit that stores a plurality of rules for generating a partial character string in advance, and the partial character string generation unit stores the partial character string generation rule memory. It is characterized in that the partial character string is generated according to one rule selected from a plurality of rules stored in the means.
【0012】請求項3記載の言語判定装置は、請求項1
又は2記載の言語判定装置にさらに、言語名を決定する
際の規則を予め複数個分だけ記憶した判定規則記憶手段
を備え、前記言語決定手段は、前記判定規則記憶手段に
記憶された複数個の規則の中から選択された1つの規則
に従って入力文字列の言語名を決定することを特徴とす
る。According to a third aspect of the present invention, there is provided a language determination device according to the first aspect.
Alternatively, the language determination device according to the second aspect further includes a determination rule storage unit that stores a plurality of rules for determining a language name in advance, and the language determination unit is configured to store a plurality of rules stored in the determination rule storage unit. It is characterized in that the language name of the input character string is determined according to one rule selected from the rules.
【0013】[0013]
【作用】上記のように構成された請求項1記載の言語判
定装置によれば、入力文字列が与えられると、部分文字
列生成手段によって1又は2以上の部分文字列が生成さ
れる。そして、検索手段によって、生成された各部分文
字列と一致する特徴辞書の中の文字列が探し出され、一
致する文字列に該当する候補言語情報、即ち、その部分
文字列が属する可能性がある言語名とその可能性を示す
評価値が得られる。さらに、言語決定手段によって、各
部分文字列ごとの候補言語情報が集計され、入力文字列
が属する可能性が最も高い言語名が1つ決定される。According to the language determining apparatus having the above-mentioned structure, when the input character string is given, the partial character string generating means generates one or more partial character strings. Then, the search unit searches for a character string in the feature dictionary that matches each generated partial character string, and the candidate language information corresponding to the matching character string, that is, the partial character string may belong. An evaluation value indicating a certain language name and its possibility is obtained. Further, the language determining means collects the candidate language information for each partial character string, and determines one language name to which the input character string is most likely to belong.
【0014】請求項2記載の言語判定装置によれば、請
求項1記載の言語判定装置はさらに、部分文字列を生成
する際の規則を予め複数個分だけ記憶した部分文字列生
成規則記憶手段を備え、部分文字列の生成に際しては、
それら複数個の規則の中から選択された1つの規則に従
って部分文字列が生成される。請求項3記載の言語判定
装置によれば、請求項1又は2記載の言語判定装置はさ
らに、言語名を決定する際の規則を予め複数個分だけ記
憶した判定規則記憶手段を備え、言語の決定に際して
は、それら複数個の規則の中から選択された1つの規則
に従って入力文字列の言語名が決定される。According to the language determining apparatus of the second aspect, the language determining apparatus of the first aspect further includes a partial character string generation rule storage means for storing a plurality of rules in advance for generating the partial character strings. And when generating a substring,
The partial character string is generated according to one rule selected from the plurality of rules. According to the language determination apparatus of claim 3, the language determination apparatus of claim 1 or 2 further comprises determination rule storage means for storing a plurality of rules for determining a language name in advance, Upon determination, the language name of the input character string is determined according to one rule selected from the plurality of rules.
【0015】[0015]
【実施例】以下、本発明の実施例について図面を用いて
詳細に説明する。 (構成の説明)図1は、本発明の一実施例に係る言語判
定装置のハードウェアの構成を示すブロック図である。
図2は、本装置の機能的な構成を示すブロック図であ
る。Embodiments of the present invention will be described in detail below with reference to the drawings. (Description of Configuration) FIG. 1 is a block diagram showing a hardware configuration of a language determination device according to an embodiment of the present invention.
FIG. 2 is a block diagram showing the functional configuration of this device.
【0016】本装置は、CPU103を中心にして、入
力装置101、表示装置102、ROM104、RAM
105、外部記憶装置106から構成される。入力装置
101は、キーボードなどからなり、主に判定の対象と
なる文字列(以下、「入力文字列」という。)を本装置
に与えるために用いられる。表示装置102は、CRT
などからなり、主に本装置による判定の結果を確認する
ために用いられる。The present apparatus has a CPU 103 as a center, an input device 101, a display device 102, a ROM 104, and a RAM.
105 and an external storage device 106. The input device 101 is composed of a keyboard and the like, and is mainly used for giving a character string to be judged (hereinafter referred to as “input character string”) to this device. The display device 102 is a CRT
It is mainly used to confirm the result of the judgment by this device.
【0017】CPU103は、マイクロプロセッサなど
からなり、入力装置101や表示装置102との入出力
を行ったり、ROM104に格納された図示されていな
いプログラムに従って文字列の処理を行ったりする。C
PU103による文字列の処理は、図2に示されるよう
に、その機能に応じて、入力文字列獲得部201、部分
文字列生成部202、検索部203、言語決定部204
に分類される。The CPU 103 is composed of a microprocessor and the like, performs input / output with the input device 101 and the display device 102, and processes a character string according to a program (not shown) stored in the ROM 104. C
As shown in FIG. 2, the processing of the character string by the PU 103 is performed in accordance with the function of the input character string acquisition unit 201, the partial character string generation unit 202, the search unit 203, and the language determination unit 204.
are categorized.
【0018】ROM104は、半導体メモリなどからな
り、図3に示されたフローチャートに相当するプログラ
ムを格納している。RAM105は、半導体メモリなど
からなり、CPU103による文字列の処理に伴って発
生する一時的な情報を記憶する。RAM105は、記憶
している情報の内容に応じて、図2に示されるように、
入力文字列記憶部105a、部分文字列記憶部105
b、候補言語情報記憶部105cに分類される。The ROM 104 is composed of a semiconductor memory or the like, and stores a program corresponding to the flowchart shown in FIG. The RAM 105 is made up of a semiconductor memory or the like, and stores temporary information generated as the character string is processed by the CPU 103. The RAM 105, as shown in FIG. 2, according to the contents of the stored information,
Input character string storage unit 105a, partial character string storage unit 105
b, the candidate language information storage unit 105c.
【0019】外部記憶装置106は、ハードディスクな
どからなり、記憶している情報の内容により、図2に示
されるように、部分文字列生成規則記憶部106a、特
徴辞書106b、判定規則記憶部106cに分類され
る。部分文字列生成規則記憶部106aには、図4に示
されるように、規則番号と生成規則とを対とする複数の
生成規則が記憶されている。これらの生成規則は、予
め、過去の経験等に基づいて登録しておいたものであ
る。なお、図4に示された表における具体例の欄は、説
明の便宜のために記載したものであり、部分文字列生成
規則記憶部106aを構成するものではない。この具体
例の欄は、第i番目の文字から始まる部分文字列におい
て、対応する生成規則に該当する文字列だけを示してい
る。The external storage device 106 is composed of a hard disk or the like, and depending on the contents of the stored information, as shown in FIG. 2, a partial character string generation rule storage unit 106a, a feature dictionary 106b, and a determination rule storage unit 106c are stored. being classified. As shown in FIG. 4, the partial character string generation rule storage unit 106a stores a plurality of generation rules each having a rule number and a generation rule as a pair. These generation rules are registered in advance based on past experience and the like. Note that the column of the specific example in the table shown in FIG. 4 is provided for convenience of description, and does not constitute the partial character string generation rule storage unit 106a. The column of this specific example shows only the character string corresponding to the corresponding generation rule in the partial character string starting from the i-th character.
【0020】ここで、部分文字列の意味について、図5
を参照しながら説明する。図5(a)は、n個の文字か
らなる入力文字列を示している。αiは、入力文字列の
先頭から第i番目の文字を示している。図5(b)は、
αiで始まる全ての部分文字列(Si1、Si2、…、Si
l)を示している。αiで始まる部分文字列は、全部で
(n−i+1)個の種類が考えられる。ここで、部分文
字列とは、入力文字列の一部又は全部の連続する文字並
びからなる文字列のことをいう。従って、n個の文字か
らなる入力文字列についての全ての部分文字列とは、α
1で始まる全て部分文字列、α2で始まる全て部分文字
列、…、及びαnで始まる全て部分文字列のことをい
う。Here, the meaning of the partial character string is shown in FIG.
Will be described with reference to. FIG. 5A shows an input character string consisting of n characters. αi represents the i-th character from the beginning of the input character string. FIG. 5 (b) shows
All substrings starting with αi (Si1, Si2, ..., Si
l) is shown. There are a total of (n-i + 1) types of substrings that start with αi. Here, the partial character string refers to a character string composed of a continuous character sequence of a part or all of the input character string. Therefore, all the partial character strings of the input character string consisting of n characters are α
All substrings that start with 1, all substrings that start with α2, and all substrings that start with αn.
【0021】特徴辞書106bには、図6に示されるよ
うに、文字列と候補言語情報とを対とする複数の情報が
記憶されている。候補言語情報は、左欄の文字列が属す
る可能性がある言語名とその可能性を示す評価値の対か
らなる。これらの文字列及び候補言語情報は、予め、英
語、ドイツ語、フランス語等の各言語ごとの文字列の出
現頻度に関する統計情報に基づいて、登録しておいたも
のである。統計情報として、例えば、C.Y.Suenによる
「n-Gram Statistics for Natural Language Understan
ding and Text Processing, IEEE Trans. Vol PAME1, N
o.2, Apr. 1979」に記載の値を採用することができる。As shown in FIG. 6, the feature dictionary 106b stores a plurality of pieces of information each including a character string and candidate language information. The candidate language information is made up of a language name to which the character string in the left column may belong and a pair of evaluation values indicating the possibility. These character strings and candidate language information are registered in advance based on statistical information regarding the appearance frequency of character strings for each language such as English, German, and French. As statistical information, for example, “n-Gram Statistics for Natural Language Understan by CYSuen
ding and Text Processing, IEEE Trans. Vol PAME1, N
o.2, Apr. 1979 ”can be adopted.
【0022】判定規則記憶部106cには、図7の表に
示されるように、規則番号と判定規則とを対とする複数
の判定規則が記憶されている。これらの判定規則は、予
め、過去の経験等に基づいて登録しておいたものであ
る。なお、図4に示された表における判定規則の欄にお
ける番号()は、判定する際の手順を示したもの
である。As shown in the table of FIG. 7, the determination rule storage unit 106c stores a plurality of determination rules each having a rule number and a determination rule as a pair. These determination rules are registered in advance based on past experience and the like. In addition, the number () in the column of the determination rule in the table shown in FIG. 4 indicates the procedure for the determination.
【0023】(動作の説明)以上のように構成された言
語判定装置の動作について、図2及び図3を参照しなが
ら説明する。図3は、本発明の一実施例に係る言語判定
装置の動作手順を示すフローチャートである。入力文字
列獲得部201は、入力装置101から与えられた入力
文字列(α1α2…αn)を獲得し、入力文字列記憶部1
05aに格納する(ステップ301)。(Explanation of Operation) The operation of the language judgment apparatus configured as described above will be described with reference to FIGS. 2 and 3. FIG. 3 is a flowchart showing an operation procedure of the language determination device according to the embodiment of the present invention. The input character string acquisition unit 201 acquires the input character string (α1α2 ... αn) given from the input device 101, and the input character string storage unit 1
It is stored in 05a (step 301).
【0024】続いて、部分文字列生成部202は、所定
の規則に従って、入力文字列記憶部105aに格納され
た1つの入力文字列から該当する全ての部分文字列を生
成し、生成した部分文字列を部分文字列記憶部105b
に格納する(ステップ303)。ここで、所定の規則と
は、部分文字列生成規則記憶部106aに記憶された部
分文字列生成規則の中からオペレータが指定した1個の
規則番号に相当する規則のことをいう。従って、生成さ
れる部分文字列の種類や個数は、選択された部分文字列
生成規則の内容によって異なることになる。Subsequently, the partial character string generation unit 202 generates all the corresponding partial character strings from one input character string stored in the input character string storage unit 105a according to a predetermined rule, and generates the generated partial character strings. The string is a partial character string storage unit 105b.
(Step 303). Here, the predetermined rule refers to a rule corresponding to one rule number designated by the operator from the partial character string generation rules stored in the partial character string generation rule storage unit 106a. Therefore, the type and number of generated partial character strings differ depending on the content of the selected partial character string generation rule.
【0025】部分文字列を生成する順序は、先ず、入力
文字列の第1番目の文字で始まる全ての部分文字列(S
11、S12、…、S1l)を生成し、続いてループ2の処理
(ステップ304〜306)を行い、次に、入力文字列
の第2番目の文字で始まる全ての部分文字列(S21、S
22、…)を生成し、続いてループ2の処理(ステップ3
04〜306)を行う、というように同様の処理を繰り
返し、最後に、入力文字列の最後の文字で始まる全ての
部分文字列(Sn1)を生成し、続いてループ2の処理
(ステップ304〜306)を行う(ステップ302〜
307)。The order of generating the partial character strings is as follows. First, all the partial character strings (S
11, S12, ..., S1l) and then the processing of loop 2 (steps 304 to 306) is performed, and then all the partial character strings (S21, S) that start with the second character of the input character string are generated.
22 ..., and then the processing of loop 2 (step 3
04-306) is repeated, and finally, all the partial character strings (Sn1) starting with the last character of the input character string are generated, and then the processing of loop 2 (step 304-). 306) is performed (step 302-
307).
【0026】次に、検索部203は、特徴辞書106b
を検索することによって、部分文字列記憶部105bに
格納された各部分文字列について、該当する候補言語情
報を獲得し、獲得した候補言語情報を候補言語情報記憶
部105cに格納する(ステップ305)。具体的に
は、部分文字列記憶部105bに格納された1つの部分
文字列について、その部分文字列と一致する特徴辞書の
中の文字列を探し出し、該当する候補言語情報をその文
字列と共に候補言語情報記憶部105cに格納する。以
上の検索を、部分文字列記憶部105bに格納された全
ての部分文字列について、順次繰り返す(ステップ30
4〜307)。その結果、生成された全ての部分文字列
についての候補言語情報が得られる。Next, the search unit 203 uses the feature dictionary 106b.
By searching for the corresponding candidate language information for each partial character string stored in the partial character string storage unit 105b, and storing the acquired candidate language information in the candidate language information storage unit 105c (step 305). . Specifically, for one partial character string stored in the partial character string storage unit 105b, a character string in the feature dictionary that matches the partial character string is searched for, and the corresponding candidate language information is candidate together with the character string. It is stored in the language information storage unit 105c. The above search is sequentially repeated for all the partial character strings stored in the partial character string storage unit 105b (step 30).
4-307). As a result, candidate language information about all the generated partial character strings is obtained.
【0027】最後に、言語決定部204は、所定の規則
に従って、候補言語情報記憶部105cに格納された全
ての候補言語情報に基づいて、入力文字列が属する可能
性が最も高い言語名を決定し、表示装置102にその結
果を出力する(ステップ308)。ここで、所定の規則
とは、判定規則記憶部106cに記憶された判定規則の
中からオペレータが指定した規則番号に相当する判定規
則のことをいう。Finally, the language determination unit 204 determines the language name to which the input character string is most likely to belong, based on all the candidate language information stored in the candidate language information storage unit 105c according to a predetermined rule. Then, the result is output to the display device 102 (step 308). Here, the predetermined rule means a judgment rule corresponding to the rule number designated by the operator from the judgment rules stored in the judgment rule storage unit 106c.
【0028】具体的には、言語決定部204は、特徴辞
書106bの検索によって得られた全ての評価値を所定
の規則に従って計算処理することによって言語ごとの総
合評価値を算出し、最も大きい総合評価値に相当する言
語名を、入力文字列の属する言語名と判定する。 (具体例)次に、「school」という入力文字列が
与えられた場合において、最終的に1つの言語名が判定
されるまでのプロセスについて、言語決定部204での
処理を中心に具体的に説明する。Specifically, the language determination unit 204 calculates a comprehensive evaluation value for each language by performing a calculation process on all the evaluation values obtained by the search of the feature dictionary 106b according to a predetermined rule, and calculates the largest overall evaluation value. The language name corresponding to the evaluation value is determined as the language name to which the input character string belongs. (Specific Example) Next, in the case where an input character string "school" is given, the process up to the final determination of one language name will be described with a focus on the processing by the language determination unit 204. explain.
【0029】与えられた入力文字列は「school」
とし、使用する部分文字列生成規則は図4に示された表
における規則番号「2」とし、使用する判定規則は図7
に示された表における規則番号「3」とする。先ず、入
力文字列獲得部201が、入力装置101から入力文字
列「school」を獲得する(ステップ301)。The given input string is "school"
The rule for substring generation to be used is rule number “2” in the table shown in FIG. 4, and the decision rule to be used is shown in FIG.
Rule number “3” in the table shown in FIG. First, the input character string acquisition unit 201 acquires the input character string "school" from the input device 101 (step 301).
【0030】次に、部分文字列生成部202は、第1番
目の文字「s」から始まる2文字以上の部分文字列
(「sc」、「sch」、「scho」、「scho
o」、「school」)を生成する(ステップ30
3)。続いて、検索部203は、上記5つの部分文字列
のそれぞれについて、特徴辞書106bを検索し、該当
する候補言語情報を獲得する(ステップ304〜30
6)。Next, the partial character string generation unit 202 causes the partial character string (“sc”, “sch”, “scho”, “scho”) of two or more characters starting from the first character “s”.
o "," school ") is generated (step 30)
3). Subsequently, the search unit 203 searches the feature dictionary 106b for each of the above five partial character strings, and acquires the corresponding candidate language information (steps 304 to 30).
6).
【0031】以上の処理(ステップ303〜306)に
よって、第1番目の文字「s」で始まる部分文字列につ
いての候補言語情報の獲得を終えると、次に、第2番目
の文字「c]で始まる部分文字列についても同様な処理
を繰り返す(ステップ303〜306)。このようにし
て、入力文字列「school」から生成された全ての
部分文字列について同様の処理を繰り返す(ステップ3
02〜307)。When the acquisition of the candidate language information for the partial character string starting with the first character "s" is completed by the above processing (steps 303 to 306), then the second character "c" is used. The same processing is repeated for the partial character string that starts (steps 303 to 306) In this manner, the same processing is repeated for all partial character strings generated from the input character string "school" (step 3).
02-307).
【0032】言語決定部204は、図7に示された表に
おける規則番号3の判定規則に従って入力文字列「sc
hool」の言語名を決定する(ステップ308)。言
語の決定に際し、言語決定部204は、先ず、部分文字
列生成部202によって生成された全ての部分文字列を
用いて入力文字列を再生する(図7における規則3が参
照する規則2)。ここで、入力文字列の再生とは、1
又は2以上の部分文字列を直列に連結することによって
入力文字列と同一の文字列に組み立て直すことをいう。
再生された部分文字列の組合せを、チェインと呼ぶ。The language determination unit 204 follows the input character string "sc" according to the determination rule of rule number 3 in the table shown in FIG.
The language name of "tool" is determined (step 308). When determining the language, the language determining unit 204 first reproduces the input character string by using all the partial character strings generated by the partial character string generating unit 202 (Rule 2 referred to by Rule 3 in FIG. 7). Here, the reproduction of the input character string is 1
Alternatively, it means reassembling into the same character string as the input character string by connecting two or more partial character strings in series.
A combination of reproduced partial character strings is called a chain.
【0033】言語決定部204によって再生された全て
のチェインを図8の表の左欄に示す。全てのチェイン
は、2文字以上からなる部分文字列によって構成されて
いることがわかる。ここでは、チェインを構成する部分
文字列は、ハイフン(「−」)で連結されている。ま
た、これらのチェインを構成する部分文字列について、
検索部203が獲得した候補言語情報を図9の表に示
す。なお、図9の表に示されたデータは候補言語情報の
一例であり、前記のC.Y.Suenの統計情報とは無関係であ
る。All chains reproduced by the language determination unit 204 are shown in the left column of the table of FIG. It can be seen that all chains are made up of partial character strings consisting of two or more characters. Here, the partial character strings forming the chain are connected by a hyphen ("-"). Also, for the substrings that make up these chains,
The candidate language information acquired by the search unit 203 is shown in the table of FIG. The data shown in the table of FIG. 9 is an example of candidate language information, and is unrelated to the CYSuen statistical information.
【0034】次に、言語決定部204は、図8に示され
た5種類の各チェインについて、言語ごとの部分文字列
の評価値を加算し(図7における規則3が参照する規則
2)、チェインごとの総合評価値を算出する。その際
の加算方法は、各部分文字列の文字の長さに応じた重み
付け加算とする(図7における規則3の但書)。具体的
には、チェイン「sc−ho−ol」の英語についての
総合評価値は、 (「sc」の英語の評価値)*(「sc」の文字の長さ)+(「ho」の英語 の評価値)*(「ho」の文字の長さ)+(「ol」の英語の評価値)*(「o l」の文字の長さ) =0.1*2+0.2*2+0.2*2 =1.0 となる。Next, the language determination unit 204 adds the evaluation values of the partial character strings for each language for each of the five types of chains shown in FIG. 8 (Rule 2 referred to by Rule 3 in FIG. 7), Calculate the overall evaluation value for each chain. In this case, the addition method is weighted addition according to the character length of each partial character string (provided in Rule 3 in FIG. 7). Specifically, the overall evaluation value of the chain "sc-ho-ol" for English is (English evaluation value of "sc") * (character length of "sc") + (English of "ho" Evaluation value) * (character length of "ho") + (evaluation value of English "ol") * (character length of "ol") = 0.1 * 2 + 0.2 * 2 + 0.2 * 2 = 1.0.
【0035】同様にして、このチェインのフランス語及
びドイツ語についての総合評価値は、それぞれ「1.
8」、「2.2」となる。他のチェインについても同様
の計算を行った結果が、図8の表の右覧に示されてい
る。最後に、言語決定部204は、図8に示された全て
の総合評価値の中から最大値を見つけ出し、その最大値
に該当する言語名を最終的に判定する言語名と決定する
(図7における規則3が参照する規則2)。図8の表
における最大の総合評価値は英語に関する「4.8」で
あるので、言語決定部204は、入力文字列「scho
ol」の言語名を「英語」と決定し、その判定結果を表
示装置102に出力する。Similarly, the comprehensive evaluation values for French and German in this chain are "1.
8 "and" 2.2 ". The results of similar calculations performed for the other chains are shown in the table on the right side of FIG. Finally, the language determining unit 204 finds the maximum value from all the comprehensive evaluation values shown in FIG. 8 and determines the language name corresponding to the maximum value as the language name to be finally determined (FIG. 7). Rule 2) referred to by Rule 3 in. Since the maximum comprehensive evaluation value in the table of FIG. 8 is “4.8” for English, the language determination unit 204 causes the input character string “scho
The language name of “ol” is determined to be “English”, and the determination result is output to the display device 102.
【0036】(その他の構成)以上、本発明に係る言語
判定装置について、実施例に基づいて説明したが、本発
明はこの実施例に限られないことは勿論である。即ち、 (1)本実施例では、入力文字列獲得部201は、入力
装置101から入力文字列を逐一に獲得したが、本発明
はこのような獲得方法に限られるものではない。例え
ば、既に文書が記憶装置に与えられており、入力文字列
獲得部201は、その文書を構成する単語、句、節、又
は文を1つの入力文字列として獲得するものであっても
よい。(Other Configurations) The language determining apparatus according to the present invention has been described above based on the embodiment, but the present invention is not limited to this embodiment. That is, (1) In the present embodiment, the input character string acquisition unit 201 acquires the input character string from the input device 101 one by one, but the present invention is not limited to such an acquisition method. For example, a document may already be provided in the storage device, and the input character string acquisition unit 201 may acquire the words, phrases, clauses, or sentences constituting the document as one input character string.
【0037】また、言語決定部204は、判定結果に関
して言語名だけを表示装置102に出力しているが、か
かる情報と出力方法に限られるものではない。例えば、
言語名だけでなく総合評価値も併せた情報として、ま
た、一種類の言語に限らずに第2候補などの言語に関す
る情報も併せて出力するものであってもよい。さらに、
これらの判定結果は、本発明とは別個のシステム、例え
ば自動翻訳システム等に自動的に引き渡されるものであ
ってもよい。 (2)本実施例では、外部記憶装置106に部分文字列
生成規則記憶部106aを有し、オペレータの選択によ
って、採用すべき1つの部分文字列生成規則を決定して
いたが、このような構成に限定されるものではない。例
えば、部分文字列生成規則記憶部106aを有さずに、
最適と思われる1種類の固定した部分文字列生成規則を
部分文字列生成部202の内部に有する簡略な構成とす
ることもできる。Further, although the language determining section 204 outputs only the language name regarding the determination result to the display device 102, it is not limited to such information and output method. For example,
It is also possible to output not only the language name but also the comprehensive evaluation value as information, and also not only one type of language but also information about a language such as the second candidate. further,
These judgment results may be automatically delivered to a system different from the present invention, such as an automatic translation system. (2) In this embodiment, the external storage device 106 has the partial character string generation rule storage unit 106a, and one partial character string generation rule to be adopted is determined by the operator's selection. It is not limited to the configuration. For example, without the partial character string generation rule storage unit 106a,
It is also possible to have a simple configuration in which one type of fixed partial character string generation rule that seems to be optimal is provided inside the partial character string generation unit 202.
【0038】同様に、外部記憶装置106には判定規則
記憶部106cを有さずに、1種類の固定した判定規則
を言語決定部204の内部に有する簡略な構成とするこ
ともできる。 (3)本実施例では、特徴辞書106bの候補言語情報
として、言語名だけでなく評価値をも記憶させていた
が、このような構成に限られるものではない。文字列と
その文字列が属する可能性がある言語名だけが登録され
ている簡略な構成とすることもできる。この場合は、本
実施例おける特徴辞書106bに登録されている評価値
が全て同じ値である場合に該当するが、このような簡略
な構成とすることによって特徴辞書106bの作成労力
が軽減されるというメリットがある。Similarly, the external storage device 106 may not have the determination rule storage unit 106c, but may have a simple structure in which one type of fixed determination rule is provided inside the language determination unit 204. (3) In the present embodiment, not only the language name but also the evaluation value is stored as the candidate language information of the feature dictionary 106b, but it is not limited to such a configuration. It is also possible to have a simple configuration in which only the character string and the language name to which the character string may belong are registered. This case corresponds to the case where all the evaluation values registered in the feature dictionary 106b in the present embodiment are the same value, but the effort for creating the feature dictionary 106b is reduced by such a simple configuration. There is an advantage.
【0039】また、本実施例では、一種類の特徴辞書1
06bを用いる構成としたが、複数の特徴辞書から構成
されるものであってもよい。例えば、電気や化学等の特
定分野ごとに専用の特徴辞書を作成しておき、入力文字
列が属する特定の分野に応じた特徴辞書だけに限定して
検索させることによって、より短時間で的確な言語判定
を行うことができる言語判定装置とすることもできる。Further, in this embodiment, one type of feature dictionary 1
Although 06b is used, it may be composed of a plurality of feature dictionaries. For example, by creating a special feature dictionary for each specific field such as electricity or chemistry, and limiting the search to only the feature dictionary that corresponds to the specific field to which the input character string belongs, it is possible to perform accurate search in a shorter time. A language determination device that can perform language determination can also be used.
【0040】[0040]
【発明の効果】以上の説明から明らかなように、請求項
1記載の言語判定装置によれば、部分文字列、即ち、言
語判定の対象となる入力文字列を構成するさまざまな文
字並びの組み合わせごとに、言語判定に必要な情報が得
られ、それらの情報に基づいて言語判定を行われる。従
って、入力文字列を構成する1文字のみによって言語判
定を行う従来の言語判定装置と比較し、本装置によれ
ば、より多く言語判定に関する情報に基づいた的確な判
定を行うことができる。As is apparent from the above description, according to the language determining apparatus of the first aspect, a combination of various character sequences forming a partial character string, that is, an input character string to be subjected to language determination is combined. Each time, the information necessary for the language determination is obtained, and the language determination is performed based on the information. Therefore, as compared with the conventional language determination device that determines the language by using only one character that constitutes the input character string, this device enables more accurate determination based on the information regarding the language determination.
【0041】また、部分文字列ごとに得られる情報に
は、その部分文字列が属する言語名だけでなく、その可
能性を示す数値も含まれているので、単に言語名だけの
情報に基づいて言語判定する従来の言語判定装置と比較
し、よりきめ細かく且つ的中率の高い言語判定を行うこ
とができる。請求項2記載の言語判定装置によれば、請
求項1記載の言語判定装置にさらに、複数の部分文字列
生成規則を備え、言語判定に際しては、それら複数個の
規則の中から選択された1つの規則に従って部分文字列
が生成される。Further, the information obtained for each partial character string includes not only the language name to which the partial character string belongs but also the numerical value indicating the possibility, so that it is based on the information of only the language name. It is possible to perform more detailed and highly accurate language determination as compared with a conventional language determination device. According to the language determination apparatus of claim 2, the language determination apparatus of claim 1 further comprises a plurality of partial character string generation rules, and in language determination, one selected from the plurality of rules is selected. Substrings are generated according to one rule.
【0042】従って、適切な部分文字列生成規則を予め
選択しておくことによって、生成される部分文字列が特
徴辞書に記載されている文字列群の範囲を超えないよう
に制限することが可能になる。これによって、本装置が
有する特徴辞書の内容に応じた柔軟な言語判定を行うこ
とができる。また、生成される部分文字列の数を制限し
ておくことによって、要求されている処理時間の範囲内
において言語判定の処理が終了するように処理時間を変
化させることもできる。Therefore, by selecting an appropriate partial character string generation rule in advance, it is possible to restrict the generated partial character string from exceeding the range of the character string group described in the feature dictionary. become. As a result, it is possible to perform flexible language determination according to the contents of the feature dictionary included in this device. Further, by limiting the number of partial character strings to be generated, the processing time can be changed so that the language determination processing ends within the requested processing time range.
【0043】請求項3記載の言語判定装置によれば、請
求項1又は2記載の言語判定装置にさらに、複数の判定
規則を備え、言語の決定に際しては、それら複数個の規
則の中から選択された1つの規則に従って言語名が決定
される。従って、入力文字列が使用されている専門分
野、候補となる言語自体が有する言語学上の特徴、本装
置が行った過去の言語判定における的中率等に応じて、
最もふさわしいと思われる判定規則を選択しておくこと
ができる。これによって、より的確な言語判定を行った
り、言語判定の的中率を向上させていったりすることが
可能となる。According to the language determining apparatus of claim 3, the language determining apparatus of claim 1 or 2 is further provided with a plurality of determination rules, and when determining the language, one of the plurality of rules is selected. The language name is determined according to the one rule. Therefore, depending on the specialized field in which the input character string is used, the linguistic characteristics of the candidate language itself, the hit rate in the past language judgment performed by this device, etc.
You can select the most appropriate decision rule. This makes it possible to make more accurate language determination and improve the accuracy of language determination.
【図1】本発明の一実施例に係る言語判定装置の構成を
示すブロック図である。FIG. 1 is a block diagram showing a configuration of a language determination device according to an embodiment of the present invention.
【図2】同実施例に係る本装置の機能的な構成を示すブ
ロック図である。FIG. 2 is a block diagram showing a functional configuration of the device according to the embodiment.
【図3】同実施例に係る言語判定装置の動作手順を示す
フローチャートである。FIG. 3 is a flowchart showing an operation procedure of the language determination device according to the embodiment.
【図4】同実施例に係る部分文字列生成規則記憶部10
6aの内容と具体例を示す表である。FIG. 4 is a partial character string generation rule storage unit 10 according to the embodiment.
It is a table which shows the content and the specific example of 6a.
【図5】図5(a)は、入力文字列の概念を説明するた
めの図である。図5(b)は、部分文字列の概念を説明
するための図である。FIG. 5A is a diagram for explaining the concept of an input character string. FIG. 5B is a diagram for explaining the concept of the partial character string.
【図6】同実施例に係る特徴辞書の内容を示す表であ
る。FIG. 6 is a table showing the contents of a feature dictionary according to the embodiment.
【図7】同実施例に係る判定規則記憶部の内容を示す表
である。FIG. 7 is a table showing the contents of a determination rule storage unit according to the embodiment.
【図8】入力文字列「school」の部分文字列から
再生したチェイン及びチェインごとの評価値を示す表で
ある。FIG. 8 is a table showing a chain reproduced from a partial character string of an input character string “school” and an evaluation value for each chain.
【図9】入力文字列「school」の部分文字列につ
いての候補言語情報を示す表である。FIG. 9 is a table showing candidate language information about a partial character string of an input character string “school”.
【図10】従来の言語判定装置の動作手順を示すフロー
チャートである。FIG. 10 is a flowchart showing an operation procedure of a conventional language determination device.
106a 部分文字列生成規則記憶部 106b 特徴辞書 106c 判定規則記憶部 201 入力文字列獲得部 202 部分文字列生成部 203 検索部 204 言語決定部 106a Partial character string generation rule storage unit 106b Feature dictionary 106c Judgment rule storage unit 201 Input character string acquisition unit 202 Partial character string generation unit 203 Search unit 204 Language determination unit
Claims (3)
判定する言語判定装置であって、 前記入力文字列の一部又は全部の文字並びからなる部分
文字列を生成する部分文字列生成手段と、 前記部分文字列と同数の文字数からなる文字列群と、各
文字列が属する可能性がある言語名とその可能性を示す
評価値とからなる候補言語情報とを記憶した特徴辞書
と、 前記特徴辞書に記憶された文字列を検索し、前記部分文
字列と一致する文字列に相当する候補言語情報を獲得す
る検索手段と、 検索の結果得られた候補言語情報に基づいて前記入力文
字列の言語名を決定する言語決定手段とを備えたことを
特徴とする言語判定装置。1. A language determination device for determining a language name to which a given input character string belongs, which is a partial character string generation means for generating a partial character string consisting of part or all of the character strings of the input character string. And a character string group consisting of the same number of characters as the partial character string, a feature dictionary storing candidate language information consisting of a language name to which each character string may belong and an evaluation value indicating the possibility, Searching means for searching a character string stored in the feature dictionary to obtain candidate language information corresponding to a character string matching the partial character string; and the input character based on the candidate language information obtained as a result of the search. A language determining device, comprising: a language determining unit that determines a language name of a string.
した部分文字列生成規則記憶手段を備え、 前記部分文字列生成手段は、前記部分文字列生成規則記
憶手段に記憶された複数個の規則の中から選択された1
つの規則に従って部分文字列を生成することを特徴とす
る請求項1記載の言語判定装置。2. The language determination device further includes a partial character string generation rule storage unit that stores a plurality of rules for generating a partial character string in advance, wherein the partial character string generation unit includes the partial character string. 1 selected from a plurality of rules stored in the column generation rule storage means
The language determination device according to claim 1, wherein the partial character string is generated according to one rule.
判定規則記憶手段を備え、 前記言語決定手段は、前記判定規則記憶手段に記憶され
た複数個の規則の中から選択された1つの規則に従って
入力文字列の言語名を決定することを特徴とする請求項
1又は2記載の言語判定装置。3. The language determination device further comprises determination rule storage means for storing a plurality of rules for determining a language name in advance, and the language determination means is stored in the determination rule storage means. 3. The language determination device according to claim 1, wherein the language name of the input character string is determined according to one rule selected from a plurality of rules.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7014262A JPH08212225A (en) | 1995-01-31 | 1995-01-31 | Language judgement device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7014262A JPH08212225A (en) | 1995-01-31 | 1995-01-31 | Language judgement device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH08212225A true JPH08212225A (en) | 1996-08-20 |
Family
ID=11856184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7014262A Pending JPH08212225A (en) | 1995-01-31 | 1995-01-31 | Language judgement device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH08212225A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012168266A (en) * | 2011-02-10 | 2012-09-06 | Ntt Docomo Inc | Language ability determination device, language ability determination method, content distribution system and program |
JP2013109709A (en) * | 2011-11-24 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | Web page topic determination device, web page topic determination method and web page topic determination program |
-
1995
- 1995-01-31 JP JP7014262A patent/JPH08212225A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012168266A (en) * | 2011-02-10 | 2012-09-06 | Ntt Docomo Inc | Language ability determination device, language ability determination method, content distribution system and program |
JP2013109709A (en) * | 2011-11-24 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | Web page topic determination device, web page topic determination method and web page topic determination program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2742115B2 (en) | Similar document search device | |
JPH1145241A (en) | Japanese syllabary-chinese character conversion system and computer-readable recording medium where programs making computer function as means of same system is recorded | |
JP2001043236A (en) | Synonym extracting method, document retrieving method and device to be used for the same | |
JP2006506692A (en) | A new computer-aided memory translation scheme based on template automata and latent semantic indexing principle | |
JP3765799B2 (en) | Natural language processing apparatus, natural language processing method, and natural language processing program | |
JPH1049543A (en) | Document retrieval device | |
JPH08212225A (en) | Language judgement device | |
JPH03132872A (en) | Index information generating device | |
JP2005025555A (en) | Thesaurus construction system, thesaurus construction method, program for executing the method, and storage medium with the program stored thereon | |
JPS63228326A (en) | Automatic key word extracting system | |
JP2002342373A (en) | Method, device and program for retrieving document and, recording medium with the program recorded thereon | |
JP2001357065A (en) | Method and device for retrieving similar sentence and recording medium having similar sentence retrieval program recorded thereon | |
JPS63278174A (en) | Translation device | |
JPH02253474A (en) | Text base retrieving method | |
JPH03229367A (en) | Text base retrieving system | |
JPH09101951A (en) | Document retrieving device | |
JP3091540B2 (en) | Morphological analysis method for Japanese sentences | |
JP2897191B2 (en) | Japanese morphological analysis system and morphological analysis method | |
JP2001051992A (en) | Device and method for preparing statistic japanese data and dictation system | |
JP3358100B2 (en) | Japanese question message analysis method and device | |
JPH0320866A (en) | Text base retrieval system | |
JPH05225232A (en) | Automatic text pre-editor | |
JPH02294779A (en) | Machine translation system | |
JPH10240743A (en) | Information storage and retrieval method and system therefor | |
JPH11250056A (en) | Morpheme analyzer and data preparing device at analysis execution |