JP2812495B2 - Syllabic input of language using kanji - Google Patents

Syllabic input of language using kanji

Info

Publication number
JP2812495B2
JP2812495B2 JP1168660A JP16866089A JP2812495B2 JP 2812495 B2 JP2812495 B2 JP 2812495B2 JP 1168660 A JP1168660 A JP 1168660A JP 16866089 A JP16866089 A JP 16866089A JP 2812495 B2 JP2812495 B2 JP 2812495B2
Authority
JP
Japan
Prior art keywords
syllable
speech
kanji
word
sum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1168660A
Other languages
Japanese (ja)
Other versions
JPH0334058A (en
Inventor
健 楠井
Original Assignee
健 楠井
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 健 楠井 filed Critical 健 楠井
Priority to JP1168660A priority Critical patent/JP2812495B2/en
Publication of JPH0334058A publication Critical patent/JPH0334058A/en
Application granted granted Critical
Publication of JP2812495B2 publication Critical patent/JP2812495B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 3.1 産業上の利用分野 本発明は、漢字だけでなる文または漢字と音標文字と
が混在する文を使う言語のワードプロセッサに関する。
詳しくは、本発明は中国語、日本語、韓国語のワードプ
ロセッサに関する。更に詳しくは、本発明は、表音文字
(中国語はローマ字の 音、日本語はカナまたはローマ字、韓国語はハングル)
を使用し音節を単位として文の読みを入力し、入力に追
従して最適語音区切を自動的に行う語音区切方式および
この語音区切方式により区切られた語音ごとに漢字変換
を行う語音漢字変換方式に関する。
DETAILED DESCRIPTION OF THE INVENTION 3.1 Field of Industrial Application The present invention relates to a word processor of a language that uses a sentence consisting only of kanji or a sentence in which kanji and phonetic characters are mixed.
More specifically, the present invention relates to Chinese, Japanese, and Korean word processors. More specifically, the present invention relates to phonetic characters (Chinese Sound, Kana or Romaji for Japanese, Hangul for Korean)
A syllable delimiter system that automatically reads the sentence reading in syllable units using, and automatically follows the input as well as a kanji conversion system that performs kanji conversion for each word separated by this syllable delimiter About.

3.2 従来の技術 3.2.1 日本語ワードプロセッサにおける最長一致法に
よるカナ文字変換の弱点 [あい/しょか」は「愛/初夏」か「愛書/家」かの
カナ漢字変換が困難である(斜線/は語の区切を表す。
以下同じ)。「じょうきげん」は「上/機嫌」か「蒸気
/源」かの判断変換が難しい。「周期的発病」や「周期
的振動」には一度でうまく変換されるのに、「しゅうき
てきせいちょう」は「しゅうきて紀勢町」となる。いわ
ゆる連語一括変換をしようとすれば、このような語の区
切違いが頻発し、文一括変換は、現在の日本語ワードプ
ロセッサ(以下では単にワープロと略記することがあ
る)においては、その機能があっても、使用者を真に納
得させるだけの性能がなく、実際には使用されないこと
が多い。
3.2 Conventional technology 3.2.1 Weakness of kana character conversion by longest match method in Japanese word processor [Ai / Shoka] has difficulty in kana kanji conversion between "love / early summer" and "love book / house" (shaded lines) / Represents a word separator.
same as below). It is difficult to judge whether "Jokigen" is "upper / cheerful" or "steam / source". Although it is well converted at one time into "periodic onset" and "periodic oscillation", "shukyuekiseichi" becomes "shukyutekisemachi". When performing so-called collocation batch conversion, such delimitation of words frequently occurs, and sentence batch conversion has a function in a current Japanese word processor (hereinafter may be simply abbreviated as word processor). However, there is no performance enough to truly convince the user, and it is often not actually used.

文一括変換における正変換率を向上するために所謂語
接続処理を行う日本語ワードプロセッサもある。この語
接続処理では語彙を名詞や動詞の語幹などの主要語と助
詞や助動詞あるいは活用語尾や接頭・接尾語などの機能
語に分類し、主要語と機能語尾の接続関係を、システム
辞書における語の附属データとして導入しておき、その
附属データを利用して語区切を行う。かかる語接続処理
の採用により正変換率は相当に向上するが語接続処理を
行っても動詞形容詞の活用語尾を除いて、やはり誤変換
が少なくない。「ごへんかん」は「ご返還」か「御返
還」となり、「誤変換」と書きたいときには「ご/へん
かん」と人が語区切をしない限り、一発では誤変換にな
ることが多い。
There is also a Japanese word processor that performs a so-called word connection process in order to improve the normal conversion rate in the sentence batch conversion. In this word connection process, vocabulary is classified into main words such as nouns and verb stems and functional words such as particles and auxiliary verbs or inflected endings and prefixes and suffixes. Is introduced as ancillary data, and word separation is performed using the ancillary data. By adopting such a word connection process, the correct conversion rate is considerably improved, but even if the word connection process is performed, erroneous conversions are not small except for the inflected endings of verb adjectives. "Gohenkan" is either "return" or "return", and when you want to write "wrong conversion", it is likely to be wrong conversion in one shot unless you separate the word with "go / henkan". .

現在の日本語ワープロの主要なカナ漢字変換方式は、
最長一致語区切+語接続処理であり、最長一致語区切に
よるかぎり、長短各種の音節の読みが混じりあって文節
をなしている場合には変換成績が悪い。
The main kana-kanji conversion method of the current Japanese word processor is
This is the longest matching word delimiter + word connecting process, and as long as the longest matching word delimiter is used, if syllables of various lengths are mixed to form a phrase, the conversion result is poor.

本発明は、語音(語の読み)の統計的頻率を重みとし
て、文全体に対して如何なる語音の並びが最適かを、
「語音エントロピー最小の原理」すなわち、文を構成す
る各語音の頻率の積が最大になるような語音の並びが最
も真に近いという原理によって判断し、かかる最適語音
並びが確定した後、各語音に対して個別に語音漢字変換
を行う。最長一致法も語音並びの最適化を行ってはいる
が、それは「語音の音節長が長いものが重みが大きい」
という、単純すぎる原理による。本発明は頻度統計量で
重みをつけて語区切を行うので、理論的に裏付けのしっ
かりした方式だといえる。
The present invention uses the statistical frequency of speech sounds (word readings) as a weight to determine which speech sound arrangement is optimal for the entire sentence.
The principle of minimum speech entropy is determined by the principle that the sequence of speech sounds that maximizes the product of the frequency of each speech sound that constitutes a sentence is the closest to true. Kanji conversion is performed individually for. The longest match method also optimizes the arrangement of phonemes, but it says that "song syllables of speech have longer weights."
It is based on the too simple principle. In the present invention, word division is performed by weighting with a frequency statistic, so it can be said that the method is theoretically firmly supported.

3.2.2 中国語ワープロにおける 音入力漢字変換のポイント 人間工学の見地からすれば、中国語ワープロは、中国
式ローマ字たる 音でキー入力し 音漢字変換をして漢字文を出力するのが王道である。た
だし、それには文化的なハードルが幾つかある。そのう
ち重大なのは表音文字の 音で記述させると、「中国人は語区切を間違う」という
事実である。大昔から漢字という表意文字だけを使って
文を書いてきたから、中国文には分かち書きの必要がな
かったこともある。しかし元来、中国語には単音節のの
語彙が多く、喫糖(飴を食べる)は語としては喫糖でも
喫/糖でも成立し、胡説(胡のようなことを言う−バカ
なことを言う)の語区切は、胡説でも胡/説でも間違い
ではない。現代中国語の語彙のうち90%は、かかる語区
切り不明確の語だといわれている(武占坤ほか共著、漢
字・漢字改革史、1988、湖南人民出版社、p.257)。
3.2.2 In Chinese word processors From the point of view of ergonomics, Chinese word processors are Chinese-style Roman characters Key in the sound The royal road is to convert sound to kanji and output kanji sentences. However, it has some cultural hurdles. The most important of them is the phonetic The fact that they are described in sound is that "Chinese are mistaken for word separation." Since ancient times, writing has been done using only the ideographic character of kanji, the Chinese sentence did not need to be separated. Originally, however, Chinese has many monosyllable vocabulary words, and sugar (eating candy) is established as a word either as sugar or as a sugar, and has a Hu theory (say something like Hu-stupid The word delimiter is not wrong in either the Hu theory or the Hu / theory. It is said that 90% of the vocabulary in modern Chinese is such a word with unclear word separation (co-authored by Takezoku and others, Kanji / Kanji Reform History, 1988, Hunan People's Press, p.257).

現在までに開発され、中国や日本で既に売り出されて
いる 音入力式の中国語ワープロは、すべて語単位の漢字変換
方式である(中国語には日本語のごとき文節がないか
ら、文線変換を前提とする最長一致法は使えない)。中
国語の語彙の97%は単音節語または双音節語であるか
ら、この方式では頻繁に人が変換キーを打つ必要があ
り、人の語区切ミスが終始起こることは避けられない。
ゆえに中国語ワープロにおいては、自動語区切による全
文一括漢字変換、または音節入力に追従した逐次語区切
漢字変換の導入が最も望ましいことになる。
Developed to date and already available in China and Japan All sound-input Chinese word processors use the kanji conversion method on a word-by-word basis (Chinese does not have phrases like Japanese, so the longest match method that assumes line-line conversion cannot be used). Since 97% of the Chinese vocabulary is monosyllabic or disyllable, this method requires frequent human conversion keystrokes, and it is inevitable that human punctuation errors will occur all the time.
Therefore, in Chinese word processors, it is most desirable to introduce full-word kanji conversion using automatic word separation or sequential word separation kanji conversion following syllable input.

自動語区切による全文一括漢字変換を行う中国語ワー
プロについては、本願の発明者と同一人がした発明「中
国語の語音区切方式および語音漢字変換方式(特願昭63
−105030号)」および「中国語の語音区切方式(特願昭
63−172163号)」がある。これらの発明では語音(語の
読み)の統計的出現頻度を重みとして、文全体として最
適な語音の並び(即ち語音区切)を「語音エントロピー
最小の原理」によって判断するという音頻法による語音
区切方式を採用している。
For the Chinese word processor that performs full-text batch kanji conversion by automatic word separation, see the invention "Chinese word separation method and speech kanji conversion method (Japanese Patent Application No.
−105030) ”and“ Chinese phonetic delimiter method (A.
63-172163) ". In these inventions, the statistical frequency of speech sounds (word readings) is used as a weight, and the optimal arrangement of speech sounds (that is, speech sound segmentation) for the entire sentence is determined by the principle of minimum speech entropy. Is adopted.

前述のように単音節語と双音節語が語彙の大部分だと
いう、中国語の読みの簡潔さが、音頻法により自動語区
切を適用するときに非常な強みとなる。実施テストによ
って、それは十分証明されている(第8図を参照された
い)。しかし3以上の音節の語音が多い文に対しては、
上記2件の発明では若干の不適応が生じる恐れがある。
本願の発明によって、そのような心配を一掃することが
できる。
The simplicity of Chinese reading, as mentioned above, that monosyllabic and disyllable terms are the bulk of the vocabulary, is a great advantage when applying automatic word segmentation by phonetic frequency. It has been well proven by running tests (see FIG. 8). However, for sentences with more than three syllable words,
In the above two inventions, some maladaption may occur.
Such anxiety can be eliminated by the present invention.

3.2.3 韓国語ワープロとハングル漢字変換の状況 韓国語はすべてハングルで書かれると思われている
が、伝統的な漢字まじりハングル文も依然勢力が強く、
しかも徐々に漢字の再評価が進む傾向が出てきている。
現在の韓国語ワープロの主流はハングル要素入力ハング
ル変換方式か、それに漢字熟語単位のハングル漢字変換
を付加した方式であるが、従来は日本語ワープロの後を
追って、ハングル要素入力漢字まじりハングル変換方式
のワープロが普及する可能性がある。第13図に日本語に
対応する韓国語の例を示す。
3.2.3 Korean word processor and Hangul-Kanji conversion situation It is thought that all Korean is written in Hangul, but traditional Kanji-style Hangul sentences are still strong,
In addition, there is a tendency that the re-evaluation of kanji gradually progresses.
Currently, the mainstream of the Korean word processor is the Hangul element input Hangul conversion method or the method that adds Hangeul Kanji conversion for each kanji idiom. Word processors may spread. FIG. 13 shows an example of Korean corresponding to Japanese.

第13図の例のように、韓国語は漢語(韓国漢字音でカ
タカナで表現)と、純韓国語の語彙(ひらがなで表現)
からなる点で、日本語によく似ている。文法と語順も日
本語に近い。ゆえに漢字まじりハングル文を扱うワープ
ロにおいては、設計方針は日本語ワープロと基本的に同
じでよい。そこで、本発明が漢字まじりハングル文のワ
ープロに対しても、十分に有効なことは後述のとおりで
ある。
As shown in the example in Fig. 13, Korean is kanji (expressed in Korean kanji sounds in katakana) and pure Korean vocabulary (expressed in hiragana)
It is very similar to Japanese in that it consists of Grammar and word order are similar to Japanese. Therefore, in a word processor that handles Hangul sentences with kanji, the design policy may be basically the same as that of a Japanese word processor. Therefore, it will be described later that the present invention is sufficiently effective also for a word processor of a Hangul sentence composed of Chinese characters.

3.3 発明が解決しようとする課題 前に述べたように、本発明者は、中国語ワープロに関
して、既に2つの発明について特許出願をしている(特
願昭63−105030:中国語の語音区切方式および語音漢字
変換方式、特願昭63−172163:中国語の語音区切方
式)。これらの発明は、いずれも 音入力を前提とし、単音節語と双音節語について、語音
の統計頻度を情報量たる頻級として定義し、それを辞書
データのなかに取り込み、文を構成する語の頻級の和が
最小になるような語音の並びが、最も確からしい語音の
区切を示すという「語音情報エントロピー最小の原理」
を適用して自動語音区切を実行するものである。この自
動語音区切の技術が「音頻法」である。
3.3 Problems to be Solved by the Invention As described above, the present inventor has already filed patent applications for two inventions for the Chinese word processor (Japanese Patent Application No. 63-105030: Chinese word separation system). And Japanese kanji conversion method, Japanese Patent Application No. 63-172163: Chinese word separation method). Each of these inventions Assuming phonetic input, for monosyllabic words and disyllable words, define the statistical frequency of speech as a frequency that is an information amount, import it into dictionary data, and minimize the sum of the frequency of words that compose the sentence. "Principle of minimum speech information entropy" that the arrangement of speech sounds that shows the most probable separation of speech sounds
Is applied to execute automatic speech separation. This technique of automatic speech separation is the "tone frequency method".

ただし、上記の2件の発明においては、音頻法の処理
対象は、単音節語と双音節語に限られていた。その理由
は、一般論としてM音節までの(Mは理論的には任意の
正の整数)語音を含む語音列を音頻法によって処理する
ときには、処理が繁雑になり処理時間が長くなって、読
み漢字変換の短時間のリアルタイム処理をいやおうなし
に要求されるワープロに対する設計条件を満たさなくな
る恐れがあると考えられたからであった。
However, in the above two inventions, the processing target of the vocal frequent method is limited to monosyllabic words and disyllable words. The reason is that, when a speech sequence including speech up to M syllables (M is theoretically any positive integer) up to M syllables is generally processed by the tone frequency method, the processing becomes complicated and the processing time becomes longer, and the reading time becomes longer. This was because it was thought that there was a risk that the design conditions for a word processor required without short-time real-time processing of kanji conversion would not be satisfied.

本発明は上記2件の発明を補うため、3以上の音節語
音を含む音頻処理区に対して、極力簡潔な音頻語音処理
アルゴリズムの提供を目的とする。
In order to supplement the above two inventions, the present invention aims to provide as simple and simple a syllable speech processing algorithm as possible for syllable processing sections containing three or more syllables.

中国語に比べて、日本語や韓国語は1語あたりの音節
長が長い。そこで、本発明は、少なくとも3音節以上の
長さの語音についても比較的短い処理時間で音頻語音区
切処理が可能であり、中国語以外に日本語や韓国語にも
適用できる音頻法による語音区切方式および漢字変換方
式を提供しようとするものである。
Compared to Chinese, Japanese and Korean have longer syllable lengths per word. Therefore, the present invention enables vocal phrasal speech segmentation processing in a relatively short processing time even for speech sounds having a length of at least three syllables, and also uses speech frequent method which can be applied to Japanese and Korean besides Chinese. It is intended to provide a system and a kanji conversion system.

3.4 課題を解決するための手段 前述の課題を解決するために本発明が提供する手段
は、 漢字を使用する言語の文において、音標文字を使用し
た音節を単位として逐次に入力して得た音節列に対し
て、該音節列を語音に区切って最適の語音列を逐次に求
め、該語音列の個々の語音ごとに逐次に語音漢字変換を
行い、最確の漢字語列を得る音節入力語音逐次区切漢字
逐次変換方式において、 読みを同じくし統計上有意義な各語の読みを1個の語
音とし、 前記言語の文に使用される個々の語音の統計的出現頻
度をfとし、該語音の音節長をsとし、語音系統資料中
全語音の延べ音節総数をFtとするとき、各語音の頻率p
を p=(f×s)/Ftとし、 各語音の頻級Iを I=int(−loga p)、ただしa=2 として整数にし、 前記言語の文において連続した語音列を入力すると
き、該語音列の先頭の第1音節から最近に入力した第n
音節までの語音列を音頻句とし、該音頻句を最近の時点
における語音逐次区切逐次漢字逐次変換処理の対象と
し、 該音頻句における各語音の頻級の和を頻級和すると
き、 前記言語において統計上有意義な1〜M音節長(ただ
しMは2以上の整数)の語音を見出しとして、該各語音
の頻級を収納した語音頻級辞書と、 前記各語音を見出しとして、該語音を読みとする漢字
同音語を漢字文字列の形で収納した語音漢字語辞典とを
備え、 前記音頻句において、1個の音節が入力される度に、
該音節を末尾とする1〜M音節長のM種類の各語音を見
出しとして、前記語音頻級辞書において該各語音の頻級
を検索し、該各語音と各頻級とを次項に記載する最適頻
級和逐次計算手段に送る語音頻級検索手段と、 前記の最適頻級和逐次計算手段に関して、 該音頻句における音節入力番号をn(=1,2,3,……,n)
とし、 最近入力したn番目の音節を末尾とする1〜M音節の長
さのM個の語音を それぞれRn1,Rn2,Rn3,……,RnMとし、 該M個の語音の頻級を それぞれIn1,In2,In3,……,InMとし、 n音節の長さの語音列において最大限に可能な型の語
音区切型を、末尾の語音の音節の長さmがそれぞれ1,2,
……,Mで、読みがそれぞれRn1,Rn2,Rn3,……,RnMである
M個の組に分類し、 該M個の組ごとの最小頻級和を、それぞれPn1,Pn2,P
n3,……,PnMとしさらに該Pn1,Pn2,Pn3,……,PnM中で最
小の値のものを最適頻級和Pnとし、順次の音節入力によ
って、nが1から1づつ増加するに従い、つぎつぎに該
Pnを求めることに関して、 nが1≦n≦Mの範囲にあるとき、 nが1のときには、P1を、 Pnm=I11=P1によって計算し、 nがMに対して1<n≦Mの範囲にあるときには、 m≦n−1のn−1個のmに対して、n−1個のPnm
を Pnm=Pn-m+Inmによって計算し、 m=nの1個のmに対しては1個のPnmを Pnm=Pnn=Inmによって計算し、 結局、Pn1,Pn2,……,PnMのM個の最小頻級和を求め、 nがMに対してM<nの範囲にあるときには、 1≦m≦MのM個のmに対してM個の最小頻級和を Pnm=Pn-m+Inmによって計算し、 結局、Pn1,Pn2,……,Pnmのn個の最小頻級和を求め、 結局、n組またはM組の各組ごとの最適語音区切型の
最小頻級和を、現在の音節入力番号nよりもm音節以前
の音節入力直後の処理によって既に求められ記憶されて
いるn個またはM個の最小頻級和Pn-mの各々に、現在検
索したn個またはM個の頻級Inmの各々を加算すること
によって求める最小級和逐次計算手段と、 音節1個が入力される度に、前記最小頻級和逐次計算
手段によって得られたn個またはM個の最小頻級和の値
を受け取り、これらに対してn者またはM者択一の大小
比較選抜を行い、該n者またはM者のなかでの最小の値
Pnmを最適頻級和Pnとして求め、該Pnの値を記憶し、同
時に該頻級和を持つ唯一の語音列の末尾の語音Rnmoと該
語音の音節数moとを求める最適頻級和区切型選抜手段
と、 前記最適頻級和区切型選抜手段が求めた語音Rnmoを受
け取り、該Rnmoを見出しとして、現在入力された音節を
末尾とする音節数moの同音漢字語のうち、現在最も確か
らしい漢字語Hnmoを、前記語音漢字語辞書から読み出
し、次項の最確漢字列計算手段に送る最確漢字語検索変
換手段と、 前記の最適頻級和区切型選抜手段が求めた前記mo、お
よび前項の最確漢字語検索変換手段が求めた最確漢字語
Hnmoを受けて、nが1を初期値とし音節入力の度に1づ
つ増加する度に、 Knmo=Kn-mo+Hnmo なる文字列加算によって現在の最確漢字列Knmoを求め本
発明の手段の出力とする最確漢字列計算手段とを備え、 総括すれば、前記言語が1音節からM音節までの語音
を持つとき、N音節の文において、音節番号をnとし、
nの初期値を1とし、語音音節に順次に入力し、 nが1づつ増加する度に、当該文の末尾に存在し得る
M個(n≦Mのときはn個)までのm音節と語音と頻級
とを求め、前記の文の先頭から該末尾語音直前の音節ま
での語音列に対するM個までの既に求めてある確最適語
音列の頻級和の各々に、前記M個までの各末尾語音の頻
級を加算し、結局n音節の長さを持つM個までの語音列
の頻級和を得、それら頻級和のなかで最小の頻級和を持
つ唯一個の語音列を現在の最適語音区切の語音列とし、
該語音列の末尾語音を現在の最適末尾語音として決定
し、 さらに該語音を漢字変換した漢字列を末尾語音漢字列
とし、該語音よりも前の既知の最確語音列に対する漢字
変換列に該末尾語音漢字列を接続した新漢字列を得て、
nが1づつ増加する度に、該漢字列を新たに逐次出力す
ることを特徴とする、 漢字を使用する言語の音節入力語音逐次区切漢字逐次
変換方式。
3.4 Means for Solving the Problems The means provided by the present invention for solving the above-mentioned problems are syllables obtained by sequentially inputting syllables using phonetic characters in units of sentences in a language using kanji. Syllabic input speech to obtain the most accurate kanji word sequence by sequentially dividing the syllable sequence into speech sounds to obtain an optimal speech sequence, sequentially performing speech to kanji conversion for each speech in the speech sequence, In the sequential delimited kanji sequential conversion method, the pronunciation of each word having the same pronunciation and being statistically significant is defined as one speech sound, the statistical frequency of occurrence of each speech sound used in the sentence of the language is defined as f, the syllable length is set to s, when the total syllable total number of all speech in the speech system material and the F t, Shikiritsu p of each word sound
, P = (f × s) / F t, and the frequency I of each speech is an integer, where I = int (−log a p), where a = 2, and a continuous speech sequence in the sentence of the language is input. Then, from the first syllable at the beginning of the word string, the nth most recently input
When the syllable string up to the syllable is a frequent phrase, the frequent phrasal is subjected to the sequential speech-separation-sequential kanji sequential conversion process at the latest time point, and when the sum of the frequent classes of the respective speech sounds in the syllable is frequently summed, In the above, the speech sounds of 1 to M syllable lengths (where M is an integer of 2 or more) which are statistically significant are used as headings, and the speech frequency frequent dictionary storing the frequency of each speech is used as the heading. A lexical kanji word dictionary in which kanji homonyms to be read are stored in the form of kanji character strings, and each time one syllable is input in the vocal phrase,
Searching for the frequency of each speech in the speech frequency dictionary, using each speech of M types having 1 to M syllable lengths ending with the syllable as a heading, and describing each speech and each frequency in the next section With respect to the speech frequency class search means to be sent to the optimal frequency class sum sequential calculation means, and the optimal frequency class sum sequential calculation means, the syllable input number in the vocal phrase is n (= 1, 2, 3,..., N)
, R n1 , R n2 , R n3 ,..., R nM , respectively, each of the M words having a length of 1 to M syllables ending with the n-th syllable input recently. The classes are In1 , In2 , In3 , ..., InM , respectively. The syllable segmentation type of the type that can be maximized in the syllable string of n syllable length is defined as the syllable length m of the last syllable. 1,2,
.., M and the readings are classified into M sets of R n1 , R n2 , R n3 ,..., R nM , respectively, and the minimum frequency sum for each of the M sets is P n1 , P n2 , P
n3, ......, further the P n1 and P nM, P n2, P n3 , ......, the optimum Shikikyu sum Pn to the smallest value in P nM, by sequential syllable input, n is from 1 1 As the number increases,
With respect to obtaining the P n, when n is in the range of 1 ≦ n ≦ M, when n is 1, 1 P 1, calculated by P nm = I 11 = P 1 , n is relative to M < When n ≦ M, n−1 P nm for n−1 m of m ≦ n−1
Is calculated by P nm = P nm + I nm , and for one m of m = n, one P nm is calculated by P nm = P nn = I nm , so that P n1 , P n2 , ..., P nM M minimum frequency sums are obtained. When n is in the range of M <n for M, M minimum frequency classes for M m of 1 ≦ m ≦ M The sum is calculated by P nm = P nm + I nm , and finally, the n minimum frequency sums of P n1 , P n2 ,..., P nm are obtained. The minimum utterance class sum of the syllable delimiter type is added to each of the n or M minimum frequent class sums P nm already obtained and stored by the processing immediately after the syllable input m m syllables before the current syllable input number n. , A minimum sum sum sequential calculation means obtained by adding each of the n or M frequency classes I nm searched at present, and the minimum frequency sum successive calculation means each time one syllable is input. Is Receives the value of n or the M minimum frequent class sum, controller compares selection of n's or M's alternative to these minimum values among the n's or M's
Seeking P nm as the optimal Shikikyu sum P n, the store the value of P n, frequent optimum seeking and only word sound column at the end of the speech R nmo and number of syllables mo of word or sound with該頻class sum simultaneously Class sum sectioning type selection means, receives the speech R nmo obtained by the optimal frequency class sum sectioning type selection means, and, with the R nmo as a heading, a homophone kanji word of the syllable number mo ending with the currently input syllable. Among them, the most probable kanji word H nmo at present is read from the phonetic kanji word dictionary and sent to the most probable kanji string calculating means in the next section, the most probable kanji word search conversion means, The determined mo and the most probable kanji word obtained by the most probable kanji word search conversion means of the preceding paragraph
In response to H nmo , every time n is incremented by 1 each time the syllable is input with 1 as the initial value, the current most probable kanji character string K nmo is obtained by adding the character string K nmo = K n-mo + H nmo The most probable kanji character string calculating means as an output of the means of the invention. In summary, when the language has speech sounds from one syllable to M syllable, in a sentence of N syllables, the syllable number is n,
The initial value of n is set to 1 and the syllables are sequentially input to the syllable. Each time n increases by one, up to M syllables that can exist at the end of the sentence (n when n ≦ M) A speech sound and a frequent class are obtained, and up to M frequent sums of the already determined probable optimum speech sequences for the speech sequence from the beginning of the sentence to the syllable immediately before the end speech are obtained. By adding the frequent classes of the last vocal sounds, a sum of vocal sequences of up to M words having the length of n syllables is obtained. Is the current optimal phonetic punctuation, and
The ending speech of the speech sequence is determined as the current optimal ending speech, and the kanji sequence obtained by converting the vocabulary to kanji is designated as the ending speech kanji sequence, and the kanji conversion sequence for the known most probable vocabulary sequence prior to the speech is determined. Obtain a new kanji string connected to the last word kanji string,
A syllable-input-sequential-separated-kanji-sequential-sequential-conversion system for a language using kanji, characterized in that the kanji string is newly newly output each time n increases by one.

3.5 作用 3.5.1 n音節長の音頻処理区における1〜m音節の語
音の総ての組み合わせとそのシステム 第1図は1〜7音節の長さを持つ音頻処理区におい
て、1〜7音節語音の総てが存在するとき可能な語音区
切型の一覧を例として示す。
3.5 Action 3.5.1 All combinations of speech sounds of 1 to m syllables in n-syllable length syllable processing section and its system Fig. 1 shows 1 to 7 syllable word sounds in syllable processing section with 1 to 7 syllable length Here is an example of a list of possible speech-segmentation types when all of the above exist.

ただし、小文字のローマ字a,b,c……は音節を示し、
例えばabcは3個の音節a,bおよびcによる3音節の語音
を示す。また/は語音間の区切を示す。
However, lowercase Roman letters a, b, c …… indicate syllables,
For example, abc indicates a speech of three syllables by three syllables a, b, and c. Also, / indicates a separation between speech sounds.

まず、本発明の説明で用いる主な用語を次のように定
義しておく。
First, the main terms used in the description of the present invention are defined as follows.

読みを同じくし統計上有意義な各語の読みを1語の語
音とし、 前記語音の文に使用される個々の語音の統計的出現頻
度をfとし、該語音の音節長をsとし、語音統計資料中
全語音の延べ音節総数をFtとするとき、各語音の頻率P
を P=(f×s)/Ft とし、 各語音の頻級Iを I=int(−loga p)、ただしa=2 として整数にし、 前記言語の文において連続した語音並びにおいて、最
近に入力した1音節語音を末尾とする如何なる2以上多
音節語音も存在しないとき、該語音並び中の該1音節語
音の直前の点を節点とし、 互いに隣り合う2個の接点間の語音並びの音節列を音
頻句とし、 該音頻句の先頭音節から連続した各語音の頻級の和を
頻級和とする。
The pronunciation of each word having the same pronunciation and statistically significant is regarded as one word sound, the frequency of statistical appearance of each speech used in the sentence of the speech is assumed as f, the syllable length of the speech is assumed as s, the speech statistics when the total syllable total number of all speech in the material and the F t, Shikiritsu P of each word sound
Is defined as P = (f × s) / F t, and the frequency I of each speech is an integer as I = int (−log a p), where a = 2. When there is no two or more polysyllabic words ending with the one syllable word input to the syllable word, the point immediately before the one syllable word in the word sequence is set as a node, and the word sequence between two adjacent contact points is determined. A syllable sequence is referred to as a vowel phrase, and the sum of the continuations of each speech sound from the first syllable of the vowel phrase is referred to as a frequent sum.

第1図の最下欄に示すように、音頻処理区(処理の対
象となる音頻句の区間)の音節長をnとするとき、理論
上可能な語音区切型の数Unは2n-1種存在し得る。したが
ってn=8のときには128種の区切型があり、このなか
から頻級和が最小の最適区切型1個を選抜する計算処理
は相当の手間をとることがわかる。しかし区切型は、第
1図に示すように一定の秩序を以って組織的に配列する
ことができ(語音区切型の樹構造)、nが1づつ増加す
るにつれて、次のnで如何なる型が存在するかは、その
秩序を利用して計算できる。
As shown in the bottom column of FIG. 1, when the syllable length of the syllable processing section (the section of the syllable phrase to be processed) is n, the number U n of theoretically possible speech segmentation types is 2 n− There can be one species. Therefore, when n = 8, there are 128 types of partition types, and it can be seen that the calculation process of selecting one optimal partition type with the smallest frequent sum takes a considerable amount of time. However, the partitioning type can be systematically arranged with a certain order as shown in FIG. 1 (word-segmentation type tree structure), and as n increases by one, any type in the next n Exists can be calculated using the order.

第1図の区切型は、各nに対し、以下の秩序によって
配列されている。
The partition type shown in FIG. 1 is arranged for each n according to the following order.

(1) 最上行の型は単音節語音n個の語音列、最下行
の型はn音節語音1個の語音列である(特に白抜き字で
示してある)。
(1) The type in the top row is a word string of n monosyllable words, and the type in the bottom row is a word string of one n-syllable word (particularly shown in white characters).

(2) 語音列における区切の型を次のような2進数B
で表現する。
(2) The type of delimiter in the speech sequence is represented by the following binary number B
Expressed by

(a) 音節間に区切/があれば1、なければ0とす
る。
(A) If there is a delimiter / syllable between syllables, 1 is set;

(b) 音節列の第1番目の区切位置(aとbの間)を
2進数の第1桁の数とし、第2番目のbとcの間の区切
位置を2進数の第2桁の数とし、n音節の語音列に対し
てn−1桁の2進数を作り、区切型を表現する。例えば
a/b/cd/efgは、B=001011となる。
(B) The first delimiter position (between a and b) of the syllable string is the first digit of the binary number, and the delimiter position between the second b and c is the second digit of the binary number. As a number, a binary number of n-1 digits is created for a word string of n syllables to represent a delimited type. For example
a / b / cd / efg is B = 001011.

(3) 上記の2進数Bは、例えばn=7においては、
最下行のabcdefgを表す000000から始まり上に向かって
順次に1づつ増加し最上行のa/b/c/d/e/f/gを表す11111
1に至る。したがってBは27-1=64個のすべての2進数
を表現し、Bが表現する区切型は1〜7音節の語音で構
成される全7音節長の語音列のすべての区切型を網羅し
ていることになる。
(3) The above-mentioned binary number B is, for example, n = 7.
Starting from 000000 representing abcdefg on the bottom line and increasing in order by one upward and increasing to 1111 representing a / b / c / d / e / f / g on the top line
Leads to one. Therefore, B represents all 2 7-1 = 64 binary numbers, and the delimiter type represented by B covers all delimiter types of a word sequence of seven syllable lengths composed of speech sounds of one to seven syllables. You are doing.

第1図の区切型は左から右へ見ていくと、音節数nの
区切型は、次のような構造の型の群れに分類されること
が分かる。
Looking from left to right, the partitioning type in FIG. 1 shows that the partitioning type having the number of syllables n is classified into a group of types having the following structure.

(a) 末尾が1音節語音の型は、音節数n−1におけ
る各型の末尾に同じ1音節語音を加えたものである。
(A) The type of a one-syllable word sound ends with the same one-syllable word sound added to the end of each type in the syllable number n-1.

(b) 末尾が2音節語音の型は、音節数n−2におけ
る各型の末尾に同じ2音節語音を加えたものである。
(B) The type of the two-syllable word sound at the end is obtained by adding the same two-syllable word sound to the end of each type in the syllable number n-2.

…… …… (m) 末尾がm音節語音の型は、音節数n−mにおけ
る各型の末尾に同じm音節語音を加えたものである。
(M) The type of m-syllable words at the end is the same m-syllable word at the end of each type in the syllable number nm.

3.5.2 最小頻級和を求める処理と最適語音区切漢字変
換処理の同時進行 以上の縦横の秩序を別な側面から見ると、縦方向の秩
序は、第1図が理論的に可能なすべての区切型を網羅し
ていることを示し、横方向の秩序は、この図によって、
n=1における1音節語音a,n=2における2音節語音a
b……,n=mにおけるm音節語音abcd……m等m種の語
音を材料として、n=1におけるaから始まり、上記
(a)〜(m)の各手続きによって、nが1増加するご
とに、新しいnに属する総ての型を組織的に順次に作っ
ていくことができることを示す。第1図は、その結果で
きた語音区切型の樹構造を示している。
3.5.2 Simultaneous progression of the process of finding the minimum frequency sum and the process of converting the optimal syllables into kanji. Looking at the above vertical and horizontal order from another aspect, the vertical order is the same as that of Fig. 1 It shows that the delimited type is covered, and the horizontal order is
One syllable word a at n = 1, two syllable word a at n = 2
b,..., m-syllable words abcd at n = m, abcd... m, etc., starting from a at n = 1, n is incremented by 1 in each of the above procedures (a) to (m). It shows that every type belonging to a new n can be systematically and sequentially created. FIG. 1 shows the resulting speech-segmented tree structure.

語音区切型の樹構造の秩序に対する上記の認識から、
最小頻級分の逐次計算に関する次のような重要な結論が
導かれる。
From the above perception of the order of the tree structure of the phonetic division type,
The following important conclusions regarding the sequential calculation of the least frequent class are drawn.

音頻処理によってえ扱う語音を1〜M音節の語音に限
るとき、n音節長の語音列中、 (1) 末尾が1音節語音の語音列中で最小頻級和を有
するものの頻級和は、n−1音節長の語音列中で最小頻
級和を持つものの頻級和に、n番目に入力した音節の単
音節語音の頻級を加えて得られる。該頻級和の値をPn1
とする。該頻級和を持つ語音列の末尾語音の音節数は1
である。
When the speech to be handled by the vocal frequency processing is limited to speech of 1 to M syllables, in the speech sequence of n syllable length, (1) the speech sum of the speech sequence of the last one syllable speech having the minimum frequency sum is: It is obtained by adding the frequency of the monosyllabic speech of the nth input syllable to the frequency sum of the speech sequence having the minimum frequency sum in the word sequence having n-1 syllable lengths. P n1
And The number of syllables in the last word of the word string having the frequent sum is 1
It is.

(2) 末尾が2音節語音の語音列中で最小頻級和を有
するものの頻級和は、n−2音節長の語音列中で最小頻
級和を持つものの頻級和に、n−1番目に入力した音節
とn番目に入力した音節を加えた2音節語音の頻級を加
えて得られる。該頻級和の値をPn2とする。該頻級和を
持つ語音列の末尾語音の音節数は2である。
(2) The frequent sum of a speech sequence having a minimum frequency sum in a speech sequence having a two-syllable word sound at the end is the sum of n-1 in a speech sequence having a minimum frequency sum in a speech sequence of n-2 syllable lengths, and n-1. It is obtained by adding the frequency of a two-syllable word sound that is the sum of the syllable input at the nth position and the syllable input at the nth position. The value of the frequency sum is defined as P n2 . The number of syllables of the last speech in the speech sequence having the frequency sum is 2.

…… …… (M) 末尾がM音節音語の語音列中で最小頻級和を持
つものの頻級和は、n−M音節長の語音列中で最小頻級
和を持つものの頻級和に、n−M+1番目に入力した音
節からn番目に入力した音節までのM個の音節を順次に
連結して得たM音節語音の頻級を加えて得られる。該頻
級和の値をPnMとする。該頻級和を持つ語音列の末尾語
音の音節数はMである。
…… …… (M) The frequent sum of the syllables ending with M syllables that has the least frequent sum is the frequent sum of the syllables that have the minimum number of sums in the mnemonic syllable length And a frequency of M syllable words obtained by sequentially connecting M syllables from the (n−M + 1) th input syllable to the nth input syllable. Let the value of the frequency sum be P nM . The number of syllables of the last speech in the speech sequence having the frequency sum is M.

結局、n音節長の語音列のなかで最小頻級和を持つ区
切型は、上の(1)〜(M)のM個の最小頻級和の区切
型Pn1,Pn2,……,PnMのなかで、更に最小の値を持つ総最
小頻級和の区切型ただひとつである。該総最小頻級和の
値をPnとする。音頻法の原理に基づけば、該区切型は最
適語音区切型であり、末尾の語音の音節数をmoとし、そ
の語音の頻級をImoとすれば、 Pn=Pn-mo+Imo である。
As a result, the partitioning type having the minimum frequency sum in the word sequence having n syllable lengths is the partitioning type P n1 , P n2 ,..., Of the above M minimum frequency sums (1) to (M). In P nM , there is only one delimited type of the total minimum frequency sum with the smallest value. Let the value of the total minimum frequency sum be P n . Based on the principles of sound frequent method compartment Setsugata is optimal speech separator type, the number of syllables end of speech and mo, if the frequent class of the speech and I mo, P n = P n -mo + I mo It is.

nを音頻句の音節入力の順を示す音節入力番号と定義
する。nは1を初期値とし、音節が入力されるに従って
1づつ増加していくものとする。
n is defined as a syllable input number indicating the order of syllable input of syllable phrases. It is assumed that n has an initial value of 1 and increases by one as a syllable is input.

現在(n=n)入力した音節を末尾とし、1音節から
M音節の長さの音節列を読みとするM個の語音をそれぞ
れRn1,Rn2,……,RnMとする。
Assume that the syllable currently input (n = n) is at the end, and M words that read a syllable string having a length from one syllable to M syllables are R n1 , R n2 ,..., R nM .

語音Rn1,Rn2,……,RnMの頻級を、それぞれIn1,In2,…
…,InMとする。
The frequencies of speech sounds R n1 , R n2 , ..., R nM are represented by In 1 , In 2 , respectively.
…, InM .

同時に語音がRn1,Rn2,……,RnMで、現在最も確からし
い漢字語をそれぞれHn1,Hn2,……,HnMとする。
At the same time speech is R n1, R n2, ......, in the R nM, H n1, H n2 seems now most certainly Kanji words each, ..., and H nM.

現在の音頻処理区の音節長をn、最大語音音節長をM
としたとき、可能な区切型の最大数Unとすれば、 n≦Mのときには Un=2n-1 n>Mのときには、初期値をUM=2M,UM-1=2M-1……,
U1=1として Un=Un-1+Un-2+……+UnM であり、一例としてM=4,n=10ときにはU10=401とな
る。実際の書き言語においては、n音節長の音頻処理区
において、Rn1からRnMまでの総ての語音が実在するとは
限らないので、Unの値は普通は上記よりも小さい。しか
し、uもMも大きいときにはUnは相当に大きな値となる
ことは明らかである。それら総ての区切型の個々に対し
て頻級和を計算し、最小頻級和を持つ型を選抜し確定し
更に語音漢字変換の処理をするためには多くの時間を要
し、1個の音節入力と次の音節入力の間の僅かな時間で
は処理が困難になってくる。かかる困難を一掃するの
が、ここに述べる逐次音頻処理法である。
The syllable length of the current syllable processing section is n and the maximum syllable syllable length is M
If n is the maximum number of delimitable types, U n = 2 n-1 when n ≦ M, and initial values are U M = 2 M and U M-1 = 2 when n> M. M-1 ……,
Assuming that U 1 = 1, U n = U n-1 + U n-2 +... + U nM. For example, when M = 4, n = 10, U 10 = 401. In actual writing language, in sound frequently treated section of the n syllable length, since not all words sound from R n1 to R nM actually exists, the value of U n is usually less than the. However, u also M when also large it is clear that a large value U n is considerably. It takes a lot of time to calculate the frequency sum for each of these delimited types, to select and determine the type with the minimum frequency sum, and to process the phonetic kanji conversion. The processing becomes difficult in a short time between one syllable input and the next syllable input. The successive tone frequency processing method described herein eliminates such difficulties.

上記Un個の語音区切型を、末尾の語音がRn1,Rn2,…
…,RnMのM組に分ける。各組ごとの最小頻級和Pn1,Pn2,
……,PnM各組ごとの多数の区切型について頻級和の比較
処理をして求める必要はなく、nがn−1,n−2,……,n
−Mであった以前の段階における処理によって既に求め
てある総最小頻級和Pn-1,Pn-2,……,Pn-Mのそれぞれ
に、現在のnにおいて求めたIn1,In2,……,InMのそれぞ
れを加算して、次式によって簡単に求められる。
The above U n speech-segment delimiters are represented by R n1 , R n2 , ...
…, Divided into M sets of R nM . The minimum frequency sum P n1 , P n2 ,
..., P nM It is not necessary to obtain a large number of sums for each set by comparing the frequent sums, where n is n−1, n−2,.
−M, the total minimum frequency sums P n−1 , P n−2 ,..., P nM already obtained by the processing in the previous stage are In n1 and In n2 obtained at the current n. ,..., And InM , each of which is easily obtained by the following equation.

mを語音区切型における末尾語音の音節数とすると
き、 nが1≦n≦Mの範囲にあるときには、 m≦n−1のn−1個のmに対しては、該n−1個の
Pnmを Pnm=Pn-m+Inmによって計算し、 m=nの1個のmに対しては、該1個のPnmを Pnm=Pnn=Inmによって計算し、 結局Pn1,Pn2,……,Pnnのn個の最小頻級和を求め、 nがn>Mの範囲に或るときには、 1≦m≦MのM個のmに対して該m個のPnmを Pnm=Pn-m+Inmによって計算し、 結局Pn1,Pn2,……,PnMのM個の最小頻級和を求める。
When m is the number of syllables of the last speech in the speech segmentation type, When n is in the range of 1 ≦ n ≦ M, n−1 m for m ≦ n−1 of
The P nm calculated by P nm = P nm + I nm , for the one m of m = n, the one of the P nm calculated by P nm = P nn = I nm , after all P n1, P n2 ,..., P nn are obtained as n minimum frequency sums. When n is in the range of n> M, m m P nm for 1 ≦ m ≦ M m Is calculated by P nm = P nm + I nm , and finally, the M minimum sums of P n1 , P n2 ,..., P nM are obtained.

上記のPn1〜Pnmのうちから最小値を持つ頻級和をm者
択一により選抜して、これを総最小頻級和Pnとする。m
者択一は、m−1回の二者択一選抜処理によって実行さ
れる。
A frequency sum having a minimum value is selected from the above P n1 to P nm by selecting one of the m values, and is selected as a total minimum frequency sum P n . m
The alternative is executed by m-1 alternative selection processes.

Pn1,Pn2,……,Pnmの中からただ1個のPnが選抜された
とき、最小頻級和を持つ語音区切型も同時に選抜されて
いる。Pnを持つ区切型の末尾語音の音節数をmoとすれ
ば、上記Pn1,Pn2,……のm個のうち、添字moのPnmoがPn
として選抜されたのである。すなわち上記のm者択一選
抜によって、現在処理の対象になっているn音節音頻処
理区において、 (1) 最適語音区切型の最小頻級和の値 Pn (2) 該型の末尾語音の音節数 mo が決定される。ところでPnが計算されたPn=Pn-mo+Imo
の式のなかのPn-moは、nがn−moという、nよりも以
前の段階で既に求められている。即ち総最小頻級和P
n-moの語音区切型の末尾語音の音節数も同様に既知であ
る。この論理によって処理段階をn=1に至るまでさか
のぼって考えれば、本音頻処理法の作用は、次の2点に
簡約できる。
When only one P n is selected from P n1 , P n2 ,..., P nm , the word segmentation type having the minimum frequency sum is also selected at the same time. Assuming that the number of syllables of the delimited end speech having P n is mo, of the above m of P n1 , P n2 ,..., P nmo of the subscript mo is P n
It was selected as. That is, in the n-syllable syllable frequent processing section currently being processed by the above-mentioned m-choice selection, (1) the value P n of the minimum frequent class sum of the optimal syllable segmentation type; The number of syllables mo is determined. By the way, Pn calculated Pn = Pn-mo + Imo
P n-mo in the equation has already been obtained before n, where n is n-mo. That is, the total minimum frequency sum P
Similarly, the number of syllables of the last speech in the n-mo speech segmentation type is known. If the processing stage is considered up to n = 1 by this logic, the operation of the true tone processing method can be reduced to the following two points.

(1) 新しく音節が入力され、音頻句音節長が1音節
伸びるごとに、最適語音区切を更新するために、最小頻
級和Pnを示す最適語音並びの末尾語音の音節長moを求め
る(入力追従作用)。
(1) Each time a new syllable is input and the syllable syllable syllable length is extended by one syllable, the syllable length mo of the last syllable in the optimal syllable sequence indicating the minimum frequent class sum P n is determined to update the optimal syllable delimiter ( Input tracking action).

(2) 最適語音並びは、以前に求めてあったところ
の、moだけ音節長の短い音頻句の最適語音並びに、音節
長moの語音を末尾に加えて得た語音並びであり、該極音
並びの頻級和Pnは、同じく以前に求めてあったところ
の、moだけ音節長の短い音頻句の最小頻級和に、音節長
moの語音の頻級を加算して得た頻級和である(逐次作
用)。
(2) The optimal phonetic sequence is the optimal phoneme of the vocal phrasal whose syllable length is short by mo and the phonetic sequence obtained by adding the phoneme of the syllable length mo to the end, which was obtained before. The frequent syllable sum P n is calculated as the minimum frequent syllable sum of syllable phrases with short syllable length by mo
This is the sum of the frequencies obtained by adding the frequencies of the words of mo (sequential action).

上記の入力追従逐次語音区切り作用のために必要な処
理は、Pnとmoとを求めるためのM回以下の頻級検索と整
数加算およびM−1回以下の二者択一大小比較で完結
し、音節入力序号あるいは音頻句音節長nの如何に拘ら
ず、常に同一である。すなわち本音頻処理法による最適
語音区切処理は、アルゴリズムが非常に簡潔であるだけ
でなく、音節入力1回に続く処理時間が処理対象の音節
列の長さに全く無関係で常に同一である。ここのことは
実用上大きな利点となる。
The processing required for the above-described input-tracking sequential speech segmentation function is completed by a frequency search of M times or less for obtaining P n and mo, an integer addition, and a binary comparison of M-1 times or less. However, it is always the same regardless of the syllable input ordinal number or syllable syllable length n. In other words, the algorithm for the optimal word-sound segmentation processing by the true frequent processing method is not only very simple, but also the processing time following one syllable input is always the same regardless of the length of the syllable string to be processed. This is a great advantage in practical use.

ある音頻句においてn番目に入力された音節に関する
処理を終えたときには語音漢字変換は、上述の最適語音
区切処理の結果Pnと共に求められたmoを使用して次の漢
字文字列加算式によって実行される。
When the processing related to the nth input syllable in a syllable is completed, the phonetic kanji conversion is performed by the following kanji character string addition formula using the mo obtained together with the result P n of the above-described optimal syllable delimiter processing. Is done.

Kn=Kn-mo+Hmo ……(K) 上記の計算は、nがn−moの段階で既に求められてい
る漢字文字列Kn-moに、現在nがnのとき語音漢字語辞
書から語音Rn-moを見出しとして検索された最確漢字語H
moを接続する作用を果たし、最確漢字列Knは、新しい音
節入力によってnが1進む度に逐次に求められる。
K n = K n-mo + H mo ... (K) The above calculation is based on the kanji character string K n-mo already obtained when n is n -mo. The most probable kanji word H searched from the dictionary with the word sound R n-mo as the heading
fulfill the function of connecting the mo, most確漢string K n is, n the new syllable input is determined sequentially in time proceeding 1.

第2図には、M=4とし、nが1から7のときのP1
らP2までのPnを求める逐次処理と、それと同時に進行す
るKnを求める最適語音区切逐次処理および語音漢字変換
処理のアルゴリズムAを示す。このアルゴリズムは後出
の第5図の実施例Aに使用されている。Knは1個の音節
入力に対し、最初にM個(n≧Mのとき)のKnmを用意
し、そのなかからPnの選抜にならって最適の1個を選ん
でKnとする必要はなく、第5図のようにPnmの二者択一
選抜1回ごとに対応してKnm1個を計算して求めていけば
よい。このアルゴリズムは中国語ワープロに対するM=
2の音頻処理のとき有用である。
FIG. 2 shows a sequential process for obtaining P n from P 1 to P 2 when M = 4 and n is 1 to 7, an optimal word-segment separation sequential process for obtaining K n progressing simultaneously, and a word-phone kanji. The algorithm A of the conversion processing is shown. This algorithm is used in Example A in FIG. 5 described later. K n is for one syllable input, first to prepare the K nm of the M (when n ≧ M), and K n to choose one of the best in imitation from among them in the selection of P n There is no necessity, as shown in FIG. 5, one K nm may be calculated and obtained for each alternative selection of P nm . This algorithm uses M =
This is useful for the second frequency processing.

第3図には、M=4とし、n=1〜7のときのP1から
P7までの各Pnの処理ごとに求められたmoを使用して、1
個の音節入力に対してHmoの検索と式(K)の文字列加
算をただ1回実行してKnを求める語音最適区切逐次処理
および語音漢字変換処理のアルゴリズムBを示す。この
アルゴリズムは最も簡潔明瞭であり、3以上のMが必要
な日本語・韓国語のワープロにおける音頻処理に対して
有用である。このアルゴリズムBは後出の第7図に示す
実施例2において利用されている。
The third figure, with M = 4, from P 1 in the case of n = 1 to 7
Use mo determined for each processing of each P n to P 7, 1
The algorithm B of speech-sound optimal delimiter sequential processing and speech-kanji conversion processing for finding K n by executing H mo search and expression (K) character string addition only once for syllable input is shown below. This algorithm is the simplest and clearest, and is useful for frequent processing in Japanese / Korean word processors requiring M of 3 or more. This algorithm B is used in the second embodiment shown in FIG. 7 described later.

或る語音Rが辞書にないとき、したがって頻級Iも漢
字語Hも存在しないときには、関連する頻級和が当然存
在しない。そのときには、該当する二者択一選抜は不要
であり、処理の流れにおいて省略される。本法による実
際の音頻処理においては、日本語、中国語、韓国語のい
ずれにおいても、とくに音節長の長い語音において、存
在しない語音が多い。何音節の語音の頻度が統計上多い
かは、中国語では1と2音節語音が圧倒的に多いが、日
本語・韓国語ではこれと異なっている。言語によって個
性のあるこれらの事情は、処理ソフトを設計するとき考
慮する点である。
When a word R is not in the dictionary, and thus neither the frequent class I nor the kanji word H exists, there is naturally no related frequent class sum. In that case, the corresponding alternative selection is unnecessary, and is omitted in the processing flow. In the actual tone frequency processing according to the present method, there are many non-existent words in Japanese, Chinese, and Korean, especially in words having a long syllable length. The number of syllables whose frequency is statistically high is overwhelmingly high for 1 and 2 syllables in Chinese, but different for Japanese and Korean. These circumstances, which have individuality depending on the language, are points to consider when designing processing software.

あらゆる言語において、語音(語の読み)の音節長に
は上限がある。それがMである。Mは「語」の定義また
は辞書の設計方針によって変わり得るが、日本語では
6、中国語では4、韓国語では4程度ではないだろう
か。
In any language, there is an upper limit on the syllable length of speech sounds (word readings). That is M. M may vary depending on the definition of "word" or the design policy of the dictionary, but is it about 6 in Japanese, 4 in Chinese, and 4 in Korean?

nがMよりも小さいときには、Pnmはn個しかない。
したがって、Pnを得る手続きは縮減を必要とする。言語
によってnの最大値N(1音頻句の最大音節長)および
Mの最大値は異なる。音頻処理の進行中に、上記の縮減
手続が使用される率も、言語によって異なると思われ
る。中国語のときには、この率は相当に高い。ソフトの
設計に際して考慮すべき点である。
When n is smaller than M, there are only n P nm .
Therefore, the procedure for obtaining P n requires reduction. The maximum value N (maximum syllable length of one vowel phrase) and the maximum value of M differ depending on the language. The rate at which the above reduction procedure is used during the tone processing may also vary from language to language. In Chinese, this rate is quite high. This is a point to be considered when designing software.

頻級I(正の整数変数)と漢字語列H(文字変数)と
は、音節が入力されるごとに更新される。ゆえにこれら
のために必要な変数はIとHに対して実際にはI1〜IM
H1〜HMの各M個あればよく、第2図と第3図にあるよう
に各nごとにM個づつ置く必要はない。最小頻級和Pn1
〜PnMについても同じ理由で、M個だけを確保すればよ
い。
The frequent class I (positive integer variable) and the kanji word string H (character variable) are updated each time a syllable is input. Therefore, the variables needed for these are actually I 1 to I M for I and H.
It suffices to provide M for each of H 1 to H M , and it is not necessary to place M for each n as shown in FIGS. 2 and 3. Minimum sum P n1
With respect to .about.P nM, for the same reason, it is sufficient to secure only M pieces.

n番目の音節入力に対して、Pn1〜PnMの計算のために
必要なPは、Pn-1〜Pn-MのM個である。したがって、P
とKを逐次に求める処理においては、P1からPn-M-1まで
のn−M−1個分の古いデータは不必要である。同じ
く、最確漢字列処理においても、逐次処理に必要なデー
タはKn-1〜Kn-MのM個で済む。
For the n-th syllable input, P required for calculation of P n1 to P nM is M of P n−1 to P nM . Therefore, P
And in the process of sequentially obtaining the K, nM-1 pieces of old data from P 1 to P nM-1 is unnecessary. Similarly, also in the top確漢string processing, data necessary for the sequential processing requires only the M K n-1 ~K nM.

本発明者によって既に出願されている特願昭63−1050
30号および特願昭63−172163号においては「節点」に関
して、「連続する2つの音節間の仮想点を跨ぐいかなる
語音もないとき、その点を節点する。節点において音頻
処理区は切断される。」とされている。音頻処理の途中
で「節点」が見出されたときには、nを初期値(現在の
説明においては1)にリセットし、次の音節から新しい
音頻処理区が始まるとして処理を進める。
Japanese Patent Application No. 63-1050 already filed by the present inventors
In Japanese Patent Application No. 30 and Japanese Patent Application No. 63-172163, regarding "nodes", "when there is no speech that crosses a virtual point between two consecutive syllables, the node is connected. The frequent processing section is cut off at the node. . " When a “node” is found in the middle of the syllable processing, n is reset to an initial value (1 in the present description), and the process proceeds assuming that a new syllable processing section starts from the next syllable.

上記既出願の発明における「断点」の定義および効用
は、M>2の場合には無効である。
The definition and utility of the "breakpoint" in the above-mentioned invention of the application are invalid when M> 2.

以上のように、逐次処理による音頻語音区切漢字変換
は、NやMが相当に大きい場合でも非常に簡潔なアルゴ
リズムによって実用可能である。
As described above, the conversion of vowel-word-separated kanji by sequential processing can be practiced by a very simple algorithm even when N and M are considerably large.

3.5.3 頻級和同点処理 音頻処理の進行途上において、頻級和および総頻級和
を二者択一の大小比較によって実行するとき、頻級和は
正の整数であるため、往々にして二者が等しい場合が生
じる。対策には次の方法がある。
3.5.3 Frequent sum sum tying process In the process of tone frequent processing, when the frequent sum and the total frequent sum are executed by alternative magnitude comparison, the frequent sum is a positive integer. A case arises where the two are equal. The following measures are available.

(1) 2個の語音列のうち末尾の語音の音節数が多い
方を選抜するようにアルゴリズムを設定する。
(1) An algorithm is set so as to select the one with the larger number of syllables of the last speech from the two speech strings.

(2) 2個の語音列のうち、末尾の語音の音節数が少
ない方を選抜するようにアルゴリズムを設定する。
(2) An algorithm is set so as to select one of the two speech strings that has a smaller number of syllables of the last speech.

これらのうち、いずれを選ぶかは対象とする言語の特
性によるべきである。後出の実施例においては、(1)
の方法を採用している。
Which of these should be chosen depends on the characteristics of the target language. In the embodiment described later, (1)
The method is adopted.

3.6 実施例 3.6.1 音頻語音区切逐次漢字変換処理の構成例 第4図は3.5の「作用」の原理に基づき、「音頻句」
に対して最適語音区切を施し、この語音区切によって選
択された語音を漢字語に変換する本発明の一実施例の構
成を示すブロック図である。この第4図によって本発明
による語音区切および語音漢字変換方式を具体的に説明
する。
3.6 Example 3.6.1 Configuration example of frequent-word-speech-separated sequential kanji conversion processing Fig. 4 shows the "phonetic phrase" based on the principle of "action" in 3.5.
FIG. 1 is a block diagram showing a configuration of an embodiment of the present invention in which an optimal speech sound separation is performed on a utterance and a speech sound selected by the speech sound separation is converted into a kanji word. Referring to FIG. 4, the speech separation and speech / kanji conversion method according to the present invention will be described in detail.

第4図において、語音の最大音節長はM、音頻処理区
における音節入力番号nは1を初期値とし、n<Mの場
合および扱う辞書に存在しない場合の処理は省略してあ
る。また、効率的なメモリの利用や処理の順序について
の考慮は払われていない。
In FIG. 4, the initial syllable length of a word sound is M, and the syllable input number n in the syllable processing section is 1 as an initial value, and the processing in the case of n <M and in the case where it does not exist in the dictionary to be handled is omitted. In addition, no consideration is given to efficient memory use and processing order.

第4図における各手段ブロックの機能は以下の通りで
ある。
The function of each means block in FIG. 4 is as follows.

1:音節入力手段 キーボード等の「読み」を入力する。特に“音節”入
力手段としたのは、本発明の対象の言語の中国語・日本
語・韓国語が、音韻上いずれも顕著な音節構造をなし
(中国語の漢字の読みは1音節。日本語は1モーラが1
音節、ハングルはそれ自身完璧な音節文字)、たとえロ
ーマ字で入力したとしても、辞書中の語音の見出しRは
音節単位で記憶するのが効率が高いからである。
1: Syllabic input means Input "reading" from a keyboard or the like. In particular, the "syllable" input means is that Chinese, Japanese, and Korean, which are the target languages of the present invention, have a pronounced syllable structure in all phonemes (Chinese kanji reading is one syllable; Japan The word is one mora
This is because even if the syllables and Hanguls are perfect syllabic characters themselves, even if they are input in Roman characters, it is highly efficient to store the headings R of the phonetic sounds in the dictionary in syllable units.

3:辞書 以下のR,I,Hの添字は音節数を示す。1〜Mの音節の
語音の語彙が辞書に記憶されている。
3: Dictionary The following R, I, H subscripts indicate the number of syllables. The vocabulary of the syllables 1 to M is stored in the dictionary.

(1) 音節列によって表現された語音見出しR(添字
は音節数を示す。1〜M音節の語音の語彙が辞書に記憶
されている) (2) 各語音の頻級I (3) 各語音ごとの同音の漢字語彙H(漢字コード表
現)等のデータを記憶させてある記憶手段である。
(1) Speech headings R represented by syllable strings (subscripts indicate the number of syllables. The vocabulary of speech sounds of 1 to M syllables is stored in the dictionary) (2) Frequency I of each speech sound (3) Each speech sound This is storage means for storing data such as the same kanji vocabulary H (kanji code expression) for each sound.

2:語音生成手段 音節入力手段1から音節Rnが入力される都度、2は、
既に入力済みで2に記憶されている音節Rn-1,Rn-2,…
…,Rn-M+1とRnを連結し、 によって、Rn1,Rn2,……RnMのM個の語音を生成し、記
憶する。
2: Each time the syllables R n is input from the speech generation means syllable input means 1, 2,
The syllables R n-1 , R n-2 , ... already entered and stored in 2
…, Concatenate R n-M + 1 and R n , R n1 , R n2 ,..., R nM are generated and stored.

4:語音頻級漢字データ検索手段 3は4の辞書から、2で生成された語音Rn1,Rn2,…
…,RnMを見出しとして、次のデータを検索し、記憶す
る。
4: Speech frequency kanji data search means 3 The speech sounds R n1 , R n2 ,.
.., RnM is searched for the next data, and stored.

(1) 語音Rn1,Rn2,……,RnMの各頻級In1,In2,……,I
nM (2) 語音Rn1,Rn2,……,RnMを持つ漢字語Hn1,Hn2,…
…,HnM (最近アクセス優先式等の自己学習により、同音語のう
ち現在もっとも確からしいものを選定する) 5:最小頻級和生成手段 2から頻級In1,In2,……,InMを受け、1〜Mのmに対
して、式Pnm=Pn(n-m)+InmによってM個の最小頻級和P
n1,Pn2,……,PnMを求め、記憶する。
(1) Each frequency class I n1 , In 2 , ..., I of speech sounds R n1 , R n2 , ..., R nM
nM (2) Kanji words H n1 , H n2 ,… with speech sounds R n1 , R n2 , ..., R nM
…, H nM (Select the most probable of the same phonetic words by self-learning such as the recent access priority formula.) 5: Minority class sum generation means 2 and frequency classes In 1 , In 2 , ……, I Given nM , for m from 1 to M, the M minimum frequency sums P by the formula P nm = P n (nm) + I nm
Calculate and store n1 , Pn2 ,..., PnM .

6:漢字列生成手段 2から漢字語Hn1,Hn2,……,HnMを受け、1〜Mのmに
対して、式Knm=Kn(n-m)+HnmによってM個の漢字列
Kn1,Kn2,……,KnMを求め、記憶する。
6: Kanji string generating means 2 receives the kanji words H n1 , H n2 ,..., H nM from M, and, for m of 1 to M, M kanji strings by the formula K nm = K n (nm) + H nm
K n1 , K n2 ,..., K nM are obtained and stored.

7:総最小頻級和選抜手段 4から最小頻級和Pn1,Pn2,……,PnMを受け、そのなか
で最小の値を持つものを選抜し、これをPnとして記憶す
る。
7: Total minimum frequency class selection means 4 receives the minimum frequency class sums P n1 , P n2 ,..., P nM from among them, selects the one with the minimum value among them, and stores it as P n .

8:最確漢字列生成手段 5から漢字列Kn1,Kn2,……,KnMを受け、そのなかでPn
に対応するものを最確漢字列Knとして記憶する。
8: The most probable kanji string generation means 5 receives the kanji strings K n1 , K n2 , ..., K nM from among them, and among them, P n
Those corresponding to the storage as the most確漢string K n.

9:漢字列表示手段 Knをディスプレイ上に表示する。9: Kanji string display means Kn is displayed on the display.

12:漢字語音判断手段 漢字以外の記号等が入力されたとき、それを非漢字と
してディスプレイ上に表示し、音頻処理区を閉じるた
め、音節入力番号nを1にリセットして次の音頻処理区
の開始に備える。
12: Kanji word sound judging means When a symbol or the like other than Kanji is input, it is displayed on the display as a non-Kanji character, and the syllable input number n is reset to 1 to close the frequent syllable processing section. Prepare for the start of

3.6.2 第1の実施例 第5図は1音節語音、2音節語音、3音節語音、また
は4音節語音を音節を単位として入力し、本発明の核心
である二者択一式音頻自動語音区切逐次漢字変換方式を
利用した語音区切および語音漢字変換装置(本発明の第
1の実施例)における処理手順を示す流れ図である。こ
の例のアルゴリズムは前述の第2図を使用する。
3.6.2 First Embodiment FIG. 5 shows one syllable speech, two syllable speech, or four syllable speech input in units of syllables, which is the core of the present invention. 5 is a flowchart showing a processing procedure in a speech-sound separating and speech-kanji conversion apparatus (first embodiment of the present invention) using a sequential kanji conversion method. The algorithm in this example uses FIG. 2 described above.

この図においては、語音音節長は1〜4、音節入力番
号nは1を初期値とする。
In this figure, the initial values of the syllable syllable length are 1 to 4 and the syllable input number n is 1.

〔変数の説明〕[Explanation of variables]

n 正の整数変数。 n Positive integer variable.

初期値は1。音節入力番号で、節点検出によって2に
リセットされる。1ではなか2にリセットされる理由は
後に述べる。
The initial value is 1. Syllable input number, reset to 2 by node detection. The reason why 1 is reset to 2 will be described later.

m 正の整数変数。第5図では1〜4。m Positive integer variable. In FIG. 5, 1-4.

nと組みあわせて諸変数の添字とする。語音区切型の
末尾語音の音節数である。
Subscripts of various variables are used in combination with n. This is the number of syllables of the last speech in the speech separation type.

R 文字変数。R Character variable.

毎回入力した1個の音節。 One syllable entered each time.

Rm 文字変数。第5図ではR1〜R4R m character variable. In FIG. 5, R 1 to R 4 .

語音であって3.6.1項で述べたRn1〜Rnmと同じ、これ
らをRn1のごとく2変数の文字変数にしない理由は、こ
れらの変数は各回の音節入力ごとに更新されるからであ
る。
It is the same as R n1 to R nm described in Section 3.6.1, and it is not a two-character character variable like R n1 because these variables are updated for each syllable input. is there.

R1〜R4の初期値はすべてノンストリング(nstr)とす
る。Rを入力した直後の段階で、添字mの初期値を4と
し、mを1づつ減じつつRm=Rm-1+Rの計算をmが2に
達するまで繰り返せば(Rm-1はnが1段前の状態にあ
る)、R4,R3,R2が得られ、最後にm=1に対してR1=R
とすればR1〜R4を得る。このときm>nのときは上記の
計算を飛ばしてm=m−1の処理だけを計算することに
より、nが4よりも小さいとき論理的に不要なRmはすべ
てnstrのままに留まる。第5図の流れ図では、この処理
は(1)のR1〜R4生成ブロックによって実行される。な
おR1〜R4生成ブロックの詳細は第6図に示してある。
The initial values of R 1 to R 4 are all non-strings (nstr). Immediately after inputting R, the initial value of the subscript m is set to 4, and the calculation of R m = R m-1 + R is repeated while reducing m by 1 until m reaches 2, (R m-1 is n Is one stage before), R 4 , R 3 , and R 2 are obtained. Finally, for m = 1, R 1 = R
Then, R 1 to R 4 are obtained. At this time, when m> n, the above calculation is skipped, and only the processing of m = m-1 is calculated. When n is smaller than 4, all logically unnecessary R m remain nstr. In the flow diagram of Figure 5, this processing is executed by R 1 to R 4 generation block (1). Note Details of R 1 to R 4 generating block is shown in Figure 6.

Im 正の整数変数。第5図ではI1〜I4I m positive integer variable. In FIG. 5, I 1 to I 4 .

語音R1〜R4の各々の頻級。音節入力ごとに、Rmを見出
しにして辞書から求める。第5図では辞書検索の過程は
書かれていない。なお1音節の読みに対して語音のない
場合でも語音とIとHとは形式的に存在するものとす
る。これを虚語音と名付ける。ただしこの場合I=32と
し音頻処理に無関係なようにする。実語音のない2以上
の音節の語音のIは定義する必要がない。
Frequencies of each of the speech sounds R 1 to R 4 . For each syllable input obtained from the dictionary and the R m heading. In FIG. 5, the dictionary search process is not shown. Note that even if there is no speech for one syllable reading, it is assumed that speech, I, and H exist formally. This is called an imaginary word sound. In this case, however, I = 32 is set so that it is irrelevant to the tone frequency processing. It is not necessary to define the I of two or more syllable speeches without real speech.

Hm 漢字変数。第5図ではH1〜H4H m Kanji variable. In the FIG. 5 H 1 to H 4.

語音R1〜R4の各々を変換した漢字語の同音語中で、現
在最も確からしいもの。音節入力ごとに、Rmを見出しに
して辞書を引いて求める(図では省略されている)。実
語音のない1音節語音に対する漢字語H1は「読み」のま
まとする。すなわちH1=R1。なお日本語や韓国語におい
て、実語音が有で出力表現が「仮名」や「ハングル」の
場合、Hm=Rmとする。たとえば日本語の助詞「の」はI1
=5でH1=“の”となる。虚語音の「ん」はI1=32、H1
=“ん”である。実語音「から」はI2=8、H2=“か
ら”、同音H2は“殻”、“空”“唐”である。Hが漢字
または仮名あるいは両者の混合の如何にかかわらず、本
発明においては論理形式上、Hはすべて「漢字」と呼ぶ
ことにする。
Speech R 1 to R 4 each in the converted kanji word homophones in the those likely currently most reliable. For each syllable input, obtained by subtracting the dictionary and the R m heading (omitted in the figure). Kanji language H 1 for 1 syllable words sound without actual words sound has been left "reading". That is, H 1 = R 1 . It should be noted that in Japanese and Korean, the actual words sound when the output representation Yu is "pseudonym" and "Hangul", and H m = R m. For example, the Japanese particle "no" is I 1
= 5, H 1 = “of”. The imaginary word “n” is I 1 = 32, H 1
= "N". Migooto "from" is "to" I 2 = 8, H 2 =, homophones H 2 is a "shell", "sky", "Tang". Regardless of whether H is a kanji or a kana or a mixture of both, in the present invention, all Hs are called "kanji" in a logical form.

PNm 正の整数変数。第5図ではPN1〜PN4PN m positive integer variable. In the FIG. 5 PN 1 to PN 4.

末尾の語音が1〜4音節語音の語音列におけるそれぞ
れの最小頻級和。PNm=Pn-m+Imの計算によって、既に
計算済みのPにIを加えて求める。音節入力ごとに更新
される。
The minimum sum of the respective frequencies in the phonetic sequence of the last syllable having one to four syllables. By calculating the PN m = P nm + I m , determined previously by adding I to the precalculated P. Updated for each syllable input.

PA 正の整数変数。P A positive integer variable.

PN1とPN2とを比較しPN2≦PN1ならPA=PN2,PN2>PN1
らPA=PN1である。R1とR2の語音が共に存在しなければP
Aは決まらないが、日本語では、「ん」や「っ」のよう
な語音のない読みが2個以上続くことはないから、対策
は不要である。一方中国語では語音のない音節は存在し
ない。PAは音節入力のたび更新される。
PN 1 and PN 2 and compares P A = PN 2 if PN 2 ≦ PN 1, PN 2 > is P A = PN 1 if PN 1. If there speech of R 1 and R 2 are both P
A is not determined, but no countermeasures are required in Japanese because no two or more non-sounding readings such as "n" or "tsu" do not continue. On the other hand, there is no syllable without speech in Chinese. P A is updated every syllable input.

KA 文字変数。K A character variable.

上記のPAの選抜においてPN2≦PN1ならばKA=Kn-2
H2,PN2>PN1ならばKA=Kn-1+H1とする。KAの選抜は、
3.5の「作用」において既に説明したように、PA選抜に
おいて総最小頻級和が得られた区切型の末尾語音と音節
数を等しくする漢字語Hを末尾に持つ漢字列をKAに選ん
だのである。KAは音節入力の都度更新される。
If PN 2 ≦ PN 1 in selection of the above P A K A = K n- 2 +
If H 2 , PN 2 > PN 1, then K A = K n-1 + H 1 . The selection of K A
As already described in the "action" of 3.5, choose the kanji column with Kanji word H to equalize P A tail speech and number of syllables of the total minimum frequent class sum resulting separated type in singles trailing K A It is. K A is updated each time a syllable is input.

PB 正の整数変数。P B Positive integer variable.

PN3とPN4とを比較しPN4≦PN3ならPB=PN4,PN4>PN3
らPB=PN3である。R3とR4の双方とも語音がないときに
はPB=255とする。意味のあるIの最大値は18で、14音
節の長さの音頻処理区は経験上絶無だからである。
PN 3 and PN 4 are compared. If PN 4 ≤ PN 3, P B = PN 4 and if PN 4 > PN 3, P B = PN 3 . When there is no speech both of R 3 and R 4 and P B = 255. This is because the meaningful maximum value of I is 18, and the frequent syllable processing section having the length of 14 syllables is inexperienced.

KB 文字変数。K B character variable.

上記のPBの選抜において、PN4≦PN3ならKB=Kn-4
H4,PN4>PN3ならばKB=Kn-3+H3とする。PB=255のとき
には、KB=nwrdとする。
In selection of the above P B, if PN 4 ≦ PN 3 K B = K n-4 +
And H 4, PN 4> PN 3 if K B = K n-3 + H 3. When P B = 255 is the K B = nwrd.

Pn 正の整数変数。第5図ではP0〜PnP n positive integer variable. In Figure 5 P 0 to P n.

そのnにおける総最小頻級和。PNmのM者択一選抜に
よって求められる。第5図の例では、m=1〜4なの
で、1個のPnを求めるために、二者択一選抜は4−1=
3回必要である。Pnを求める過程は第3回目の選抜であ
る。PB≦PAならばPn=PB,PB>PAならばPn=PAである。
終始P0=0である。
The total minimum frequency sum at that n. It is determined by M-choice selection of PN m . In the example of FIG. 5, since m = 1 to 4, in order to obtain one P n , the alternative selection is 4-1 =
You need three times. The process of obtaining P n is the third selection. P B ≦ P A if P n = P B, a P B> P A if P n = P A.
P 0 = 0 all the time.

Kn 文字変数。第5図ではK0〜KnK n character variable. In FIG. 5, K 0 to K n .

そのnにおける最適語音区切による漢字語列。Pnが求
められる過程の一回の二者択一選抜の各段階に並行して
Knを求める過程が進行する。Pn=PBならばKn=KB,Pn=P
AならばKn=KAである。R2とKBの双方ともnwrdのときはK
n=nwrdとする。これは現在入力された音節Rの直前が
節点であることを示す。K0は終始ノンストリング(nst
r)である。
The kanji word string by the optimal word separation at that n. In parallel with each stage of one alternative selection process in which P n is required
The process of obtaining K n proceeds. If P n = P B , K n = K B , P n = P
If A, then K n = K A. K When the nwrd both of R 2 and K B
Let n = nwrd. This indicates that the node immediately before the currently input syllable R is a node. K 0 is a non-string (nst
r).

〔処理過程の説明〕[Explanation of process]

第5図は、仮名またはローマ字で読みを入力し語を自
動的に区切ったのち漢字混じり仮名の文に変換する日本
語ワープロ、ハングルで入力し語を自動的に区切ったの
ち漢字混じりハングルの文に変換する韓国語ワープロ、
およびローマ字 音で入力し語を自動的に区切ったのち漢字文に変換する
中国語ワープロに関して、いずれにも適合する逐次語音
区切語音漢字変換装置の実施例の主要部を示す。ただし
語音の最大音節数は4とする。以下、処理の流れを説明
する。
Fig. 5 shows a Japanese word processor that reads in kana or romaji and automatically separates words and then converts them into kana sentences with kanji characters. Korean word processor, which converts to
And romaji A main part of an embodiment of a sequential word-segmented-word-to-kanji conversion apparatus suitable for any Chinese word processor that automatically converts words into kanji sentences after inputting with sounds will be described. However, the maximum number of syllables of speech sounds is four. Hereinafter, the flow of the processing will be described.

スタートの直後、音節入力番号nを1に、4個の語
音R1からR4の初期値をノンストリング(nstr)に、P0
K0の初期値をそれぞれ0とnstrに設定する。
Immediately after the start, to 1 syllable input number n, the initial value of R 4 from four speech R 1 in the non-string (nstr), and P 0
Set the initial values of K 0 to 0 and nstr, respectively.

1個の音節または記号Rを入力する。 Enter one syllable or symbol R.

0:非文字処理ブロックは、読みを有する音節以外の入力
を処理し表示し、「自由区切」(本発明は元来、人の変
換キー打鍵による変換操作不要を目的とする。しかしオ
ペレータが任意に行う人力区切を排除するものではな
い。これを「自由区切」ということにする)キーが打鍵
されたときには、表示なしでへ戻る。
0: The non-character processing block processes and displays an input other than a syllable having a reading, and performs “free separation” (the present invention originally intended to eliminate the need for a conversion operation using a human conversion key. This does not preclude the manual partitioning. This is referred to as "free partitioning." When a key is pressed, the display returns to the display without display.

(1)R1〜R4生成ブロックは、第6図に詳細を示す。 (1) R 1 ~R 4 generating block, shown in detail in Figure 6.

以下、語音の頻級Im、漢字語Hm等の変数(m=1〜
4)が記述のなかに出て来るが、これらは読みRmを見出
しとして辞書から検索する。Rmが有の場合はこれらの値
を求める。無の場合にはRm=nwrd(ノンワード)とす
る。ただし第5図にはその検索の過程が省略されてい
る。
Hereinafter, speech of Shikikyu I m, such as Chinese language H m variables (m =. 1 to
4) comes out Some of the description, these are retrieved from the dictionary as a heading reading R m. If R m is present, find these values. In the case of nothing, R m = nwrd (non-word). However, FIG. 5 omits the search process.

1.第1段二者択一選抜ブロック:語音列の末尾の語音の
1音節語音および2音節語音の有無を調べ、いずれの語
音を持つ語音列が最適語音区切かを二者択一によって決
定し、その語音列に対して漢字変換を行う。
1. First-stage alternative selection block: Investigate the presence of one-syllable speech and two-syllable speech at the end of the speech sequence, and determine which speech sequence has the optimal speech segmentation. Then, kanji conversion is performed on the word sequence.

R1とR2が共に無のときの処理は、前述のように不要
であるが、第5図においては説明の便宜のためと共に
を書いてある。
Process when the R 1 and R 2 are both free, although not necessary, as described above, in the fifth view is written together with for convenience of explanation.

末尾が1音節語音の語音列の頻級和PN1を求め、
のPN選抜に備える。n=1のときにはPの添字n−1=
0であるが、それに備えてにおいてPn-1=P0を0にし
ておく必要があったのである。
Find the frequent sum PN 1 of the phonetic sequence ending with one syllable word,
Prepare for PN selection. When n = 1, the subscript n-1 of P =
Although it is 0, it was necessary to set P n-1 = P 0 to 0 in preparation for it.

R2の語音が無のときには、R2=nwrdとしての節点
判断に利用する。
When speech of R 2 is a free utilizes the node determined as R 2 = nwrd.

末尾が2音節語音の語音列の頻級和PN2を求めてお
く。
The end is previously obtained the Shikikyu sum PN 2 of the word sound column of the second syllable words sound.

PN1とPN2を比較し、小さい方を選抜する。値が同一
のときにはPN2を選抜とする(統計上の根拠はない)。
Compare PN 1 and PN 2 and select the smaller one. If the values are the same, PN 2 is selected (there is no statistical basis).

前記の結果に応じてPAとKAを決める。頻級和の
小さい語音列の語音区切の語音列と漢字列とをきめるこ
とになる。最小頻級和の語音区切と同じ語区切を持つ漢
字列はここで初めて決定される。
Determining the P A and K A in accordance with the results. The speech sequence and the kanji sequence of the speech delimiter of the speech sequence having a small frequent sum are determined. A kanji string having the same word separation as that of the minimum frequency sum is determined here for the first time.

2.第2段二者択一選抜ブロック:語音列の末尾の語音の
3音節語音および4音節語音の有無を調べ、いずれの語
音を持つ語音列が最適語音区切かを二者択一によって決
定し、検定された語音列に対して漢字変換を行う。
2. Second-stage alternative selection block: Checks for the presence of 3-syllabic and 4-syllabic speech at the end of the speech sequence, and determines which speech sequence has the optimal speech segmentation Then, kanji conversion is performed on the tested word sound sequence.

′ 3音節語音R3が有のときには処理を′に送る。
無のときには′に送る。
Send to '3 syllable speech R 3 is a process when chromatic'.
When there is nothing, send to '.

′ 末尾が3音節語音の語音列の頻級和PN3を求め
る。
'Seek Shikikyu sum PN 3 of the word sound column at the end are three syllable words sound.

′ 4音節語音R4が有のときには処理を′に送る。
無のときには′に送る。
'4 when syllable speech R 4 is closed Handles' send.
When there is nothing, send to '.

′ 末尾が4音声語音の語音列の頻級和PN4を求め
る。
'Ending seek 4 Shikikyu sum PN 4 of the word sound column of sound words sound.

′ PN3とPN4を比較し、小さい方を選抜する。値が同
一のときにはPN4を勝ちとする(統計的な根拠はな
い)。
′ Compare PN 3 and PN 4 and select the smaller one. If the values are the same, PN 4 wins (no statistical basis).

′′ ′の結果に応じてPBとKBを決める。頻級和
の小さい語音列の語音区切の語音列と漢字列とを決める
ことになる。
Determine the P B and K B in accordance with the result of '''. The speech sequence and the kanji sequence of the speech delimiter of the speech sequence having the small sum are determined.

′ 4音節語音R4が有のときには処理を′に送る。
無のときには′に送る。
'4 when syllable speech R 4 is closed Handles' send.
When there is nothing, send to '.

′ 処理は、′と同じであるが、語音R3がないた
め、PN3とPN4の間の二者択一選抜は不要で、処理は直接
′へ送られる。
'The processing is the same as', but since there is no speech R 3 , no alternative selection between PN 3 and PN 4 is required and the processing is sent directly to'.

′ R3とR4が共に無のとき、次の第3段の(a)の選
抜で確実にPn=PAとするため、PB=255と置く。255とし
たのは、日本語・中国語とも、統計上意味のある頻級I
の最大値は18であり、いっぽう節点から次の節点までの
音頻処理区の長さが14音節もあることは、経験から絶無
だからである(18×14=252)。またKB=nwrdと置く。
これはの節点判断ルーチンで使用するためである。
'When both R 3 and R 4 are absent, set P B = 255 to ensure that P n = P A in the next selection of the third stage (a). 255 is used for both Japanese and Chinese, statistically significant frequency I
Is the maximum value of 18, and the fact that the length of the frequent syllable processing section from one node to the next node is 14 syllables is the result of experience (18 × 14 = 252). Also, set K B = nwrd.
This is for use in the node determination routine.

3.第3段二者択一選抜ブロック:第1段の二者択一で決
めた末尾が1または2音節語音の語音列のうちの最適語
音列のPAと、第2段の二者択一で決めた末尾が3または
4音節語音の語音列のうち最適語音列のPBとを比較し、
値の小さい方を最適語音区切を持つ語音列として最終的
に決定する。その頻級和Pnと漢字語列Knが決定され、次
のR入力と処理のため保存される。
3. The third stage alternatively Selection Block: and P A of the optimum word sound string of words sound column at the end decided in alternative of the first stage is 1 or 2 syllable words sound, two parties of the second stage It compares the P B of the optimum word sound string of words sound column at the end decided in alternative 3 or 4 syllables sound,
The one with the smaller value is finally determined as a speech sequence having an optimal speech segmentation. The frequency sum P n and the kanji word string K n are determined and stored for the next R input and processing.

節点とは頻級ネットワークにおいて、すべてのパス
が必ず通過する所の、相隣れる2つの1音節語音頻級間
の点をいう。節点をまたぐ如何なる2以上音節の語音も
存在し得ない。節点は音頻処理区を区切るものである。
は現在のRと一段前に入力したRの間の点に関する節
点判断ルーチンである。R2=nwrdはその点をまたぐ2音
節語音が無、KB=nwrdは3および4音節語音がないこと
を示す。
A node refers to a point between two adjacent one-syllable speech frequency classes where all paths must pass through in a frequency network. There cannot be any more than two syllable speech that spans a node. The nodes separate the tone processing zones.
Is a node determination routine for a point between the current R and the R input immediately before. R 2 = nwrd indicates that two syllables speech across the that point no, K B = nwrd has no 3 and 4 syllables speech.

その点が節点でないときには、nをインクメントした
後、処理は次のR入力ルーチンへ戻る。
If the point is not a node, the process returns to the next R input routine after incrementing n.

その点が節点のときには、現在のRを次の音頻句の第
1音節として処理する必要がある。その準備のためのル
ーチンにおいて、R1=Rとし、R2からR4までをnstrと
し、I1をP1、H1をK1にそれぞれ置き直しておく。その
後、第1字目のK1を表示し、n=2にセットした後、
のR入力ルーチンへ戻る。
When that point is a node, it is necessary to process the current R as the first syllable of the next syllable. In the preparation routine, R 1 = R, R 2 to R 4 are set to nstr, I 1 is set to P 1 , and H 1 is set to K 1 . Then, to display the K 1 of the first character first, after setting the n = 2,
Return to the R input routine.

以上のようにして、音節長が1から4までの語音の総
て音頻処理の対象として、逐次語音区切語音漢字変換を
実施することができる。
As described above, it is possible to successively perform the phonetic-segmentation-word-to-kanji conversion for all syllables whose syllable lengths are 1 to 4.

第5図においては、音頻処理すべき語音の最大音節長
(第6図におけるM)は4とした。しかし理論的にはM
はいくらでも大きくすることができる。たとえば=8の
ときには、二者択一の第1段でPN1とPN2からPAを求め、
第2段ではPN3とPN4からPBを求め、第3段でPN5とPN6
らPCを、第4段でPN7とPN8からPDを求め、次いでPAとPB
からPXを、PCとPDとPYを求め、最後の第7段でPXとPY
らPnを求めることになる。これらPNおよびPの処理と並
行して各段ごとにPとKを求めていき、最後にKnに到達
する。注意すべきは、各段の処理のアルゴリジムは第5
図の第2段および第3段とまったく同形式な点である。
二者択一選抜の回数はM−1であり、1個のR入力に対
してKnを求めるのに必要な処理時間はMが大きいときに
は大体Mに比例するとみてよい。このようにが大きく音
頻ネットワークの複雑さがどんどん増加しても、処理時
間がMの1次に関係して増加するにすぎないのは、本音
頻語音区切処理の長所である。
In FIG. 5, the maximum syllable length (M in FIG. 6) of the speech to be subjected to frequent processing is set to 4. But in theory M
You can make it as large as you want. For example when the = 8, obtains a P A from PN 1 and PN 2 with a first stage of the alternative,
Seeking P B from the PN 3 and PN 4 in the second stage, the P C from PN 5 and PN 6 in the third stage, obtains a P D from PN 7 and PN 8 in the fourth stage, then P A and P B
From the P X, determine the P C and P D and P Y, thereby obtaining the P n from P X and P Y in the final seventh stage. In parallel with the processing of these PN and P to go in search of P and K for each stage, reaching the last K n. It should be noted that the algorithm in each stage
This is exactly the same type as the second and third stages in the figure.
The number of alternative selection is M-1, the processing time required to determine the K n for one R input may likely roughly proportional to M when M is large. Even if the complexity of the frequent phone network increases as described above, the processing time only increases in relation to the first order of M, which is an advantage of the real phonetic word segmentation processing.

本発明の音頻処理は、音頻句の長さにかかわらず、一
個のR入力に対してKnを求めるのに必要な時間処理は、
nの1の増加に対して、常に同じである。これは本発明
のもうひとつの長所であり、毎音節入力に直ちに追従し
て行う読み漢字変換の要求に答えるものである。
Sound frequent treatment of the present invention, regardless of the length of the sound Shikiku, time processing necessary for obtaining the K n with respect to one of the R inputs,
It is always the same for one increase of n. This is another advantage of the present invention, which responds to the demand for reading-to-kanji conversion immediately following each syllable input.

3.6.3 第2の実施例 第7図は第2の実施例を示す。第5図の第1の実施例
として比較して変数mA,mB,mo(いずれも正の整変数)が
追加されている。これらは最小語音区切型の末尾語音の
音節数である。添字AまたはBはそれぞれ第1段または
第2段の二者択一選抜、moは最終選抜のときの値であ
る。
3.6.3 Second Embodiment FIG. 7 shows a second embodiment. Compared to the first embodiment in FIG. 5, variables m A , m B , and mo (all positive integer variables) are added. These are the number of syllables of the last speech of the minimum speech separation type. The subscript A or B is the value of the first selection or the second selection, and mo is the value of the final selection.

第7図における処理アルゴリズムは、前述の第3図の
アルゴリズムにより、第5図とは次の点が異なる。
The processing algorithm in FIG. 7 differs from the algorithm in FIG. 3 in the following points.

(1) PNの大小比較による二者択一選抜の直後にKA
Kn-1+H1等の式によってKAを求めない。,,′,
′等におけるように、mAおよびmBを求める。第5図の
ように漢字語探索と漢字文字列加算を行わない。
(1) K A =
K A is not determined by an expression such as K n-1 + H 1 . ,, ′,
As in 'like, obtains the m A and m B. As shown in FIG. 5, kanji word search and kanji character string addition are not performed.

(2) 第3段二者択一選抜でPAとPBからKnを求めず、
moだけを求める。
(2) without asking K n from P A and P B in the third stage alternatively selected,
Ask for mo only.

(3) 5および6音節語音R5及びR6が追加され、これ
らに対しては最長一致法によって語音漢字変換を行って
いる。次に図中の4の第4段の最長一致区切ブロックに
ついてだけ説明する。
(3) 5 and 6 syllable speech R 5 and R 6 are added, it is performed speech kanji conversion by the longest match method for these. Next, only the longest-matching partition block at the fourth stage in FIG. 4 will be described.

(a) R5とR6が共に有の場合、処理の流れは→→
→→となり、を出た所でmo=6が確定し、6
音節語音が他の語音を圧倒して生き、において漢字
変換される。漢字列Knは、Kn-6+H6となり、6音節語音
の漢字語H6が漢字列の末尾語として確定される。
(A) If both R 5 and R 6 are present, the processing flow is →→
→→ 3
The syllable words survive the other words and are converted to kanji at 3 . Kanji column K n is, K n-6 + H 6, and the Chinese language H 6 of 6 syllables sound is determined as the last word of the kanji column.

(b) R5が有、R6が無のときには、処理の流れは→
→→となり、mo=5での式はKn=Kn-5+H5
となり、5音節語音の漢字語H5が漢字例Knの末尾語とし
て確定される。
(B) When R 5 is present and R 6 is absent, the processing flow is →
→→ 3 next, mo = formula 5 with 3 K n = K n-5 + H 5
Next, kanji word H 5 5 syllables sound is determined as the last word of Kanji example K n.

(c) R5が無で、R6が有のときには、処理の流れは
→→→で、6音節語音の漢字語H6が漢字列の末
尾語として確定される。
(C) R 5 is without, when R 6 is Yes, the process flow in →→→ 3, Chinese character word H 6 of 6 syllables sound is determined as the last word of the kanji column.

(d) R5とR6が共に無のときには、節点が検出されな
ければ、処理はからへ直通し、第3段の二者択一選
抜のKnが答となる。
When (d) R 5 and R 6 are free both, unless the node is detected, the process is direct from to, K n for alternative selection of the third stage is the answer.

(4) 以上の処理を通じ、語音漢字変換は、
などの処理の最終段階において初めて行われ
る。それ以前の処理は頻級和加算、頻級和大小比較、語
音列末尾語音音節数の確定など、整数変数の計算処理だ
けが進む。最後にただ一回の語音漢字変換が実行され
る。このアルゴリズムによって、最も時間のかかる辞書
探索の回数が最低減に減り、処理時間が短縮される。
(4) Through the above processing, speech kanji conversion is 1,
It is performed for the first time in the final stage of the processing such as 2 , 3, or the like. In the processing before that, only integer variable calculation processing such as addition of frequent class sum, comparison of frequent class sum magnitude, determination of the number of syllable syllables at the end of a word string, and the like proceed. Finally, only one phonetic-kanji conversion is performed. With this algorithm, the number of time-consuming dictionary searches is minimized and processing time is reduced.

第2の実施例のように、音頻語音区切と最長一致区切
とをつないで区切処理をすることができる。その意義は
次のところにある。
As in the second embodiment, it is possible to perform the delimiter processing by connecting the vocal utterance delimiter and the longest match delimiter. The significance is as follows.

(1) 一般に、長い読みの語音を辞書に入れて置く価
値のある場合は、その語音が頻度の高い合成語または連
語の場合に限る。この類の合成語は多数あるものではな
い。それらの語音が文中に検出されたときには、対応す
る語は一個しかなく、その語が正解である確率はほとん
ど1である。
(1) In general, when it is worthwhile to put a long-reading word sound in a dictionary, it is limited to a case where the word sound is a frequent synthetic word or collocation. There are not many compound words of this kind. When those words are detected in the sentence, there is only one corresponding word, and the probability that the word is correct is almost 1.

(2) 最長一致区切は、上記の場合、真に威力を発揮
する。日本語において、たとえば「さんぎいん」は、そ
の前に如何なる助詞音節があったとしても、「参議院」
以外はありえない。
(2) In the above case, the longest match delimiter is truly effective. In Japanese, for example, "sangiin" means "no matter what particle syllable before it,
There can be no other.

(3) 音頻語音区切は、日本語においては、語音ネッ
トワーク上での1〜4音節語音相互の干渉重複を判定す
るのに威力がある。最長一致法は特に長い語音を分離す
るのに役に立つ。
(3) In the Japanese language, the vocal utterance delimiter is effective for judging interference and duplication of one to four syllables on a speech network. The longest match method is particularly useful for separating long speech sounds.

なお、第7図においては、第1段二者択一選抜ブロッ
クより前にある処理は大幅に省略されている。また、1
音節語音は如何なる音節に対しても存在するという前提
で書かれている。表現を簡単にするためである。
In FIG. 7, the processing prior to the first-stage alternative selection block is largely omitted. Also, 1
Syllable words are written on the assumption that they exist for any syllable. This is to simplify the expression.

3.7 発明の効果 3.7.1 中国語の文に対する効果 中国語の文の特徴は、第1に、語音音節長が短い。事
務的な文章では、1または2音節語が全音節中の97%を
占める。第2に、特定の1音節語が頻繁に使用されるこ
とが多い。第3に、3または4音節語は同音語がほとん
どない。このような特徴は、本発明の音頻式自動語音区
切逐次漢字変換方式が、中国語ワープロに適しているこ
とを示す。以下に、例文を挙げて、本発明の効果につい
て述べる。なお語音頻級統計は北京語言学院編「現代漢
語品率詞典」(1986)(対象延べ音節数Ft=1,807,40
5)を使用した。
3.7 Effects of the Invention 3.7.1 Effects on Chinese Sentences One of the characteristics of Chinese sentences is that syllable lengths are short. In office sentences, one or two syllables make up 97% of all syllables. Second, a particular syllable word is often used. Third, three or four syllable words have few homonyms. Such a feature indicates that the frequent phonetic word-separation sequential kanji conversion method of the present invention is suitable for a Chinese word processor. Hereinafter, the effects of the present invention will be described with reference to example sentences. The frequent pronunciation class statistics are described in “Modern Chinese Product Indices” (ed.), Edited by Beijing Language Institute (1986) (total syllables F t = 1,807,40)
5) was used.

[例文](機関応用文、 案出版社、1885、p.83より) 石油是重要的戦略物資。自従七十年代初発生石油危機
以来,合理使用和節約石油,己経成為全世界普遍関注的
問題。目前,我国毎年焼掉的重油和原油数量很大,占原
油総産量的百分之四十左右,其中相当一部分使用不合
理。為了節約能源,必須大力圧縮焼油,使石油更多地用
作軽紡化工原料,並生産更好的成品油,以満足四化建設
的需要。為此,発布如下指令: [ローマ字 音] Shiyou shi zhongyao de zhanle wuzhi。Zicong 七
十 niandai chu fasheng shiyou weiji yilai,heli shi
yong he jieyue shiyou,yijing chengwei quan shijie
pubian guanzhu de wenti。Muqian,woguo meinian shao
dao de zhongyou he yuanyou shuliang hen da,zhan yu
anyou zongchanliang de 百 fenzhi 四十 zouyou,zhizhong xi
angdang yi bufen shiyong bu heli。Weile jieyue nen
gyuan,bixu dali yasuo shao you,shi shiyou geng duo
de yong zuo qingfang huagong yuanliao,bing shengc
han geng hao de chengpin you,yi manzu sihua jiansh
e de xuyao。weici,fabu ruxia zhiling: 第8図は、先ず上記文例ののローマ字 音書きを入力し、次に本発明の自動語音区切および逐次
漢字変換方式によって、それを漢字文に出力したときの
効果例を示す。
[Example sentence] (Institutional application sentence, (From Draft Publishers, 1885, p.83) Oil is an important strategic commodity. Self-serving Since the oil crisis that occurred in the early 70's, there has been a rational use of petroleum-saving petroleum. Immediately, the quantity of heavy oil and crude oil burned off every year in Japan, the total production of occupied crude oil is around forty percent, and the use of some of them is unreasonable. Energy saving resources, essential high-strength compression baking oil, light spinning raw materials for further use of petroleum used, average production favorable refined oil, satisfying four-dimensional construction demand. For this reason, the directive was issued as follows: [Latin alphabet Sound] Shiyou shi zhongyao de zhanle wuzhi. Zicong seventy niandai chu fasheng shiyou weiji yilai, heli shi
yong he jieyue shiyou, yijing chengwei quan shijie
pubian guanzhu de wenti. Muqian, woguo meinian shao
dao de zhongyou he yuanyou shuliang hen da, zhan yu
anyou zongchanliang de hundred fenzhi forty zouyou, zhizhong xi
angdang yi bufen shiyong bu heli. Weile jieyue nen
gyuan, bixu dali yasuo shao you, shi shiyou geng duo
de yong zuo qingfang huagong yuanliao, bing shengc
han geng hao de chengpin you, yi manzu sihua jiansh
e de xuyao. weici, fabu ruxia zhiling: Fig. 8 shows the romanization of the above example An example of the effect of inputting a syllabary and then outputting it to a kanji sentence by the automatic vocabulary separation and sequential kanji conversion method of the present invention will be described.

図中、3行の横線と2本の横線を所々で結ぶ若干の縦
線によって構成されている2段の煉瓦積みの如きパタン
は、音頻ネットワークである。第9図に第8図の行の
2つの部分(いずれも3音節語音を含む音頻句)AとB
を抜粋してある。第9図において、左側は音頻句A、右
側は音頻句Bである。1Aと1Bは、語音と頻級を記入した
音頻ネットワークで、2Aと2Bは頻級のみを記入してあ
る。2Aは1・2・3音節語音の各5・3・1個を含んで
いて、(1)から(8)までの8種の語音区切の型があ
る。太線で示したパスは、各区切型のパスを示し、ネッ
トワーク右の白抜きの数字は頻数和である。そのなかで
(8)の区切が最小頻級和30を与える。
In the figure, a pattern such as a two-stage brickwork composed of a few vertical lines connecting three horizontal lines and two horizontal lines in some places is a tone frequency network. FIG. 9 shows two parts of the row in FIG. 8 (all of which contain syllables).
Is excerpted. In FIG. 9, the left is a frequent phrase A, and the right is a frequent phrase B. 1A and 1B are phony networks in which speech and frequency are entered, and 2A and 2B are in which only the frequency is entered. 2A includes 5.3.1 of each of the 1,2,3 syllable words, and there are eight types of word segmentation from (1) to (8). The paths shown by bold lines indicate the delimited paths, and the white numbers on the right side of the network are the sums of the frequencies. Among them, the partition of (8) gives the minimum frequency class sum 30.

第10図は、上記の5音節の音頻句Aに対して、二者択
一式逐次語音区切および語音漢字変換における1音節の
入力ごとの経過を示す。図中(1)は頻級を記入した音
頻ネットワーク、(2)は二者択一式にNの各段階での
総最小頻級和PNを逐次に求めていく経過を示す。最適語
音区切はPNと同時に決まっていく。(3)は最適語音区
切の進行と同時に進む語音漢字語変換の経過である。右
側の欄は、音節入力が声母(子音)と韻母(母音)の双
打式のときのディスプレイ上の漢字表示法の一例を示
す。声母打鍵で大文字の声母が出、韻母打鍵で漢字一時
がその位置に表示される。これは非常に見易い表示方法
である。
FIG. 10 shows the progress of each input of one syllable in the alternative syllable word segmentation and kanji conversion for the five syllable phrasal phrases A described above. Figure (1) the sound frequently networks fill Shikikyu, (2) shows the course of to seek the total minimum Shikikyu sum P N at each stage of the N sequentially in the alternative expression. The optimal speech delimiter is determined at the same time as P N. (3) is the progress of speech-kanji word conversion that proceeds simultaneously with the progress of the optimal speech-segment separation. The right-hand column shows an example of a kanji display method on a display when the syllable input is a double-hit type of a vowel (consonant) and a vowel (vowel). When the initial key is pressed, an uppercase initial is displayed, and when the final key is pressed, the temporary kanji is displayed at that position. This is a very easy-to-see display method.

第8図は第9、10図で説明した二者択一語音区切およ
び逐次漢字変換方式を使用して、前記の例文(中国国務
院指令)をローマ字 音から元の漢字文に語区切と漢字変換を実行した結果で
ある。変換は句読点・漢数字の直前(漢数字は無変換直
接キー入力)の各点でしか動作していない。図のなか
で、太い破線のパスは「区切違い」に対する「再区切」
後のパスを示す。それはとに各1箇所づつある。漢
数字を除いて141漢字(音節)ある。そのうちにおけ
る区切違いはab/cをa/bcと誤ったもの、はa/bをabと
間違ったものである。141音節に対して、いわゆる文一
括変換を行い、この程度の区切ミスしか出ないというの
は、本発明の方式が相当に効果があることを示す。な
お、図のなかで網を掛けた漢字語は、同音語違いを示
す。区切は合っているが同音語ミスを犯した漢字は合計
9字である。これも決して多くはない。
Figure 8 uses the alternative word separation and sequential kanji conversion methods described in Figures 9 and 10 to convert the above example sentence (Chinese State Council directive) into romaji. This is the result of executing word separation and kanji conversion from the sound to the original kanji sentence. The conversion works only at each point immediately before the punctuation mark / kanji (Kanji is the direct key input without conversion). In the figure, the bold dashed path indicates “re-separation” for “different separation”.
Indicates a later pass. There is one for each. There are 141 kanji (syllables) excluding kanji. The difference between them is that ab / c is incorrectly a / bc and a / b is incorrectly ab. The fact that so-called sentence batch conversion is performed on 141 syllables and only such a division error occurs indicates that the method of the present invention is considerably effective. Note that the kanji words shaded in the figure indicate homophone differences. Although the punctuation is correct, there are a total of nine kanji that make the same phonetic mistake. This is not much.

以上のように、本発明の自動語音区切および逐次語音
漢字変換方式は、中国語の読み入力漢字変換式ワープロ
に対して、有効な自動区切の結果をもたらすものであ
る。
As described above, the automatic word-separation and sequential word-kanji conversion system of the present invention provides an effective automatic word-segmentation result for a Chinese input-kanji conversion word processor.

3.7.2 日本語の文に対する効果 第11図の(a)から(c)までは、全仮名書の日本語
例文に対して頻級ネットワークをつくり、該ネットワー
ク上で本発明の音頻法による最適語音区切のパスを求
め、句読点から次の句読点までの文を一括して語音区切
した結果を表す。第11図によって、本発明の音頻法の語
音区切精度が日本語文において如何に高いかがわかる。
3.7.2 Effect on Japanese sentence In Fig. 11 (a) to (c), a frequent network is created for Japanese sentence sentences in all kana books, The path of the speech punctuation is obtained, and the result from the punctuation mark to the next punctuation mark is collectively indicated. From FIG. 11, it can be seen how high the word separation accuracy of the phonetic method of the present invention is in Japanese sentences.

音頻語音区切を実行するためには、語音頻度統計が不
可欠である。ここでは国立国語研究所編「中学教科書の
語彙調査」(秀英出版,1986)(対象延べ音節数Ft=45
7,845)を使用した。この資料中の語彙とその頻度か
ら、各語音とその頻級を計算し、図の語音ネッオワーク
をつくった。図においてネットワークの上の平仮名は音
節の棒書き、ネットワーク中の数字は頻級である。理解
のため、以下に本発明による処理の一例を第14図にあげ
る(sは語音の音節数)。
In order to perform phonetic word separation, speech frequency statistics are indispensable. Here, the National Institute for Japanese Language, ed., “Vocabulary survey of junior high school textbooks” (Hideei Publishing, 1986) (total syllables Ft = 45)
7,845). Based on the vocabulary and frequency in this document, each speech and its frequency were calculated, and the speech network shown in the figure was created. In the figure, hiragana on the network is a syllabic stick and numbers in the network are frequent. For understanding, an example of the processing according to the present invention is shown below in FIG. 14 (s is the number of syllables of speech).

第14図に示す如く、この文例について最適な語音区切
および漢字列は次のように求められる。最適語音区切:
こう10/いど15(頻級和:10+15=25が最小。∴解は「こ
う/いど」。漢字変換選択:こう緯度→光緯度→校緯度
→高緯度。以後「こう」は「高」に変換。
As shown in FIG. 14, the optimal word separation and kanji string for this sentence example are obtained as follows. Optimum speech separation:
10 / id 15 (frequent sum: 10 + 15 = 25 is the minimum. ∴ solution is “ko / ido”. Kanji conversion selection: high latitude → light latitude → school latitude → high latitude. Thereafter “high” is “high” Conversion to.

(1)の音節列「こういど」を音頻語音区切法によっ
て処理する。
The syllable string “Kouido” of (1) is processed by the frequent word utterance separation method.

(1)に含まれ得る語音は(2)の7種類である。各
語音を持つ上記語彙統計から引用して(3)に示す。語
の右側の数字は統計資料中における語頻度である。
(4)の音節頻度は語頻度に語をつくる音節数を乗じた
もの。頻率(5)は音節頻度を統計資料の全音節数Ft=
457,845で除して得られる。(6)の頻級は頻率を情報
量に換算したものである。
The speech sounds that can be included in (1) are the seven types in (2). (3) is quoted from the vocabulary statistics having each word sound. The number to the right of the word is the word frequency in the statistical data.
The syllable frequency in (4) is the word frequency multiplied by the number of syllables that make up the word. Frequency (5) indicates the syllable frequency as the total number of syllables in the statistical data Ft =
Divided by 457,845. The frequency of (6) is obtained by converting the frequency to the amount of information.

音節列(1)に対し、語音(2)を用いて(9)の語
音ネットワークと、これに対応する(8)の頻級ネット
ワークを組む。その上の頻級の和が最小になるパスが最
適パスで、そのパス上の語音の種類と順序が、音節列
(1)の最適語音区切を与える。(8)と(9)におけ
る太線のパスが、解である。
For the syllable string (1), a speech network of (9) and a corresponding frequent network of (8) are formed using the speech (2). The path on which the sum of the frequent classes is the minimum is the optimal path, and the type and order of the speech on the path give the optimal speech separation of the syllable string (1). The paths indicated by thick lines in (8) and (9) are solutions.

第11図は、例文に対して、音頻法の処理のための頻級
ネットワークを示す。図中の太線は最適パスを示す。第
11図の全495音節に対して、区切違いは僅か2箇所しか
出ていない。太い破線は区切違いを修正した結果を示
す。音頻語音区切処理は、処理対象の音節列が如何に長
くても区切処理が可能な性質を持つ。したがって本質的
に「全文一括仮名漢字変換」に適した処理法である。し
かし第11図の上の頻級ネットワークの構造は相当に複雑
なように見える。特に日本語においては語音の音節数が
多いから、中国語にくらべて、頻級ネットワークがはる
かに入り組んでいる。
FIG. 11 shows a frequent class network for the processing of the frequent sound method for example sentences. The thick line in the figure indicates the optimal path. No.
For all 495 syllables in Fig. 11, there are only two distinctions. The thick broken line shows the result of correcting the difference. The phonetic word sound segmentation process has a property that the segmentation process can be performed no matter how long a syllable string to be processed is. Therefore, it is essentially a processing method suitable for "all sentence collective kana-kanji conversion". However, the structure of the upper class network in FIG. 11 seems to be considerably complicated. Especially in Japanese, there are many syllables in speech sounds, so the frequency network is much more complicated than in Chinese.

このような複雑な頻級ネットワークに対しても、本発
明の逐次語音区切処理方法は十分に威力を発揮する。第
12図に文例を挙げて、逐次語音区切の経過の例を示す。
The sequential speech segmentation processing method of the present invention is sufficiently effective even for such a complicated frequent network. No.
Fig. 12 shows an example of the progress of sequential speech segmentation, using sentence examples.

第12図において、(1)は文例の音節列Rである。
(2)に文例の頻級ネットワークを示す。ネットワーク
中、その点を跨ぐ如何なる語音もない点が「節点」であ
り、この文例では、からまでの6個の節点がある。
それらによって、例「文」は5個の「音頻処理区」に分
割されており、1から始まる音節入力番号nは、節点が
検出されるたびに1にリセットされる。音頻処理すなわ
ち最適語音区切は、各音頻処理区ごとに実行され、音頻
処理区の音節列の長さが、無限に長くなることはない。
音頻処理区のなかには、第区のように、1音節「を」
だけの短い例もある。
In FIG. 12, (1) shows a syllable string R of a sentence example.
(2) shows a frequent class network of a sentence example. In the network, a point where there is no speech sound over that point is a "node". In this example, there are six nodes from to.
Thereby, the example "sentence" is divided into five "syllable processing sections", and the syllable input number n starting from 1 is reset to 1 every time a node is detected. The vocal frequency processing, that is, the optimal speech separation, is performed for each phonological processing section, and the length of the syllable string of the phonological processing section does not become infinite.
In the syllable processing section, like the first section, one syllable ""
There are also short examples.

(4)は、音節入力番号nに従って、本発明のアルゴ
リズムにより、最小頻級和Pnmを順次に求め、次いで総
最小頻級和Pnを求めるプロセスを示す。ここでmは語音
列の末尾の語音の音節数である。この文例で、あるnに
おいて最小頻級和がフルに存在しない場合がある。たと
えば、第音頻処理区のn=4の処理においてはP41,P
42,P44があって、P43がない。理由は「んだい」という
語音がないからである。またn=2の区においてはP22
があってP21がない。これも「ん」なる語音が日本語に
はないからである。中国語においては、原則として、す
べての単音節に語音が存在する。日本語はそうではな
い。
(4) shows a process of sequentially calculating the minimum frequency sum P nm according to the algorithm of the present invention according to the syllable input number n, and then calculating the total minimum frequency sum P n . Here, m is the number of syllables of the last speech in the speech sequence. In this sentence example, there is a case where the minimum frequency class sum does not fully exist at a certain n. For example, P 41 , P
42, there is a P 44, there is no P 43. The reason is that there is no word "dai". In the case of n = 2, P 22
There is no P 21 if there is. This is also because Japanese does not have the word "n". In Chinese, in principle, every single syllable has speech. Japanese is not so.

日本語においては「ん」、「っ」、「にゃ」…などの
単音節語音はない。「ん」や「っ」で始まる多音節語音
もない。したがって日本語の頻級または語音ネットワー
クにおいては、これらの非存在語音の占める位置は
「穴」になる。また第区の第5音節に終わる2音節語
音「いみ」は、次の語音が「ん」であるから、「いみ/
ん」は成立せず、n=6においてP61が欠ける原因とな
る。第12図中、網をかけた頻級は、これらの語音欠如の
結果、無効になる既存の語音である。本発明の音頻処理
アルゴリズムは、以上のような語音欠如現象に対して、
十分有効に機能するべきである。
In Japanese, there are no monosyllable words such as "n", "tsu", "ni", etc. There are no polysyllabic sounds that begin with "n" or "tsu". Therefore, in the Japanese frequent class or speech network, the position occupied by these non-existing speech sounds is a “hole”. In the two-syllable word sound "Imi" ending with the fifth syllable in the fifth ward, the next word sound is "N", so "Imi /
N "is not satisfied, cause the P 61 in the n = 6 is absent. In FIG. 12, shaded classes are existing speech sounds that become invalid as a result of the lack of these speech sounds. The tone frequency processing algorithm of the present invention, for the above-mentioned speech lack phenomenon,
It should work effectively.

第11図(a)〜(c)の各頻級ネットワークにおける
太線のパスは、本発明の音頻処理アルゴリズムによって
処理された最適語音区切のパスである。以下に、第11図
に得られた結果を総合して、日本語文の語音区切に関す
る本発明の効果を評価する。
The thick-line paths in each frequency network in FIGS. 11 (a) to 11 (c) are paths for optimal speech separation processed by the frequent processing algorithm of the present invention. In the following, the effect of the present invention on the sound segmentation of Japanese sentences will be evaluated based on the results obtained in FIG.

(1) 「の」、「は」、「が」、「を」、「に」
「と」などの助詞類は、ほぼ100%確実に分離して区切
られている。これらの直前と直後は高率で節点になる。
(1) “no”, “ha”, “ga”, “wo”, “ni”
Particles such as "to" are almost 100% surely separated. Immediately before and after these are nodes at a high rate.

(2) 従来の「最長一致法」では区切違いが頻発した
1漢字語+2漢字語の連語、例えば「き/きんぞく→貴
金属」「そう/きんぞく/せい→総金属製」、「のう/
りゅうさん→濃硫酸」などの語音区切が、やすやすと成
功する。これらの例は第11図(c)の[C]〜[K]お
よび第11図(b)の文例6に例示してある。
(2) In the conventional "longest match method", a delimitation frequently occurs in one kanji word + two kanji word collocations, for example, "ki / kinzoku → precious metal", "so / kinzoku / sei → total metal", " Now /
Ryusan → concentrated sulfuric acid, etc., succeeds with ease. These examples are illustrated in [C] to [K] in FIG. 11 (c) and in sentence example 6 in FIG. 11 (b).

(3) 既に述べたように、日本語文に対する語音区切
処理における本発明の確度は中国語におけるよりも一層
高い。区切り違いは全495音節の文例に対して、僅かに
2箇所、6音節分にすぎない。しかも第11図(c)の
[B]の(1)の「は/ちゅう」を「はちゅう」と間違
った理由は、語音頻度の原資料が中学の社会および理科
の教科書の語彙頻度統計のため、一般には頻度が低い語
音「はちゅう→爬虫」の頻級が高過ぎるからであろう。
もっと普遍的な統計値を使えば、ここは区切違いが出な
いと推定される。とすれば本文例全体における区切違い
は、(b)の文例3の4段目の冒頭の、「きし/べ」を
「き/しべ」と間違った3音節だけとなり、誤区切率は
音節数換算で3/495=0.6%にすぎない。本発明の語音区
切能力は画期的に有効といえよう。
(3) As described above, the accuracy of the present invention in speech separation processing for Japanese sentences is higher than that in Chinese. The difference is only two places and six syllables in all 495 syllable sentences. Moreover, the reason why the word “ha / chu” in (1) of [B] in FIG. 11 (c) was mistaken for “hachu” is that the source material of the speech frequency was based on the vocabulary frequency statistics of junior high school society and science textbooks. This is probably because the frequency of the infrequently-speaking word sound "Hachichu-Reptile" is too high.
With more universal statistics, it is presumed that there is no difference here. If this is the case, the difference in the whole text example is that only the three syllables at the beginning of the fourth tier of sentence example 3 in (b), where “Kishi / be” is wrong with “ki / shibe”, have an erroneous delimitation rate of Only 3/495 = 0.6% in syllables. The speech separation ability of the present invention can be said to be epoch-makingly effective.

(4) 本発明の発想の基本は、「読み漢字変換」を第
一段の「逐次語音区切」と第二段の「語音漢字変換」に
機能分離するところにある。本発明は第一段に係わるも
のである。ワープロの理想型としての変換キー不要」の
「全文一括変換」の機能は、まず自動語音区切の機能が
優秀という条件がなければ到底達成できない。本発明
は、その条件を十分満足する効果を持ち、使い易い日本
語ワープロのゴールを目指して一歩進めるものである。
(4) The basis of the idea of the present invention lies in that the function of "reading kanji conversion" is divided into "sequential word separation" in the first stage and "word kanji conversion" in the second stage. The present invention relates to the first stage. The function of "full-text batch conversion" of "there is no need for a conversion key as an ideal type of word processor" cannot be achieved at all unless there is a condition that the function of automatic word separation is excellent. The present invention has an effect of sufficiently satisfying the conditions and advances one step toward the goal of an easy-to-use Japanese word processor.

(5) 本発明の自動逐次語音区切機能によって、100
%近い確度で語音区切を実行した後、区切られた個々の
語音に対して、連語間の文法則を利用し、同音語中より
語確定処理を行い、最終的に読み漢字変換の正変換率を
上げるべきである。
(5) The automatic sequential speech segmentation function of the present invention
After performing speech separation with an accuracy close to%, word separation processing is performed on each separated speech using the grammar rules between collocations, and finally the correct conversion rate of Yomi-Kanji conversion Should be raised.

(6) 本発明の語音区切方式は、次々の音節入力に追
従しつつ、現在までに入力された音節列全体に対して、
情報論の立場で最も確からしい語音区切を、音節入力の
都度実行するものである。したがって本発明の語音区切
方式は、本質的に音節入力に直接即時に応答してなされ
る逐次処理である。
(6) The syllable separation method of the present invention follows the syllable input one after another, and
It is the one that is most probable from the standpoint of information theory, and is executed each time a syllable is input. Thus, the word separation system of the present invention is essentially a sequential process that is performed in immediate response to syllable input.

3.7.3 韓国語の漢字まじりハングル文に対する効果 前記3.2.3項において既に述べたように、韓国語と日
本語とは、双方とも言語学上の膠着語であって、語順、
文法、漢語由来の単語の多さ等、互いに酷似している。
本発明者は、韓国語の文に対する本発明の効果を、日本
語や中国語程度の詳細さで調べてはいないが、言語学上
の当然の常識から、本発明は韓国語の漢字まじりハング
ルワープロに対しても、当然有効である。
3.7.3 Effect of Korean on Hangul sentences with Chinese characters As described in section 3.2.3 above, Korean and Japanese are both linguistic linguistics,
They are very similar to each other, such as grammar and the number of words derived from Chinese.
Although the present inventor has not examined the effect of the present invention on Korean sentences at the same level of detail as in Japanese and Chinese, based on natural common sense in linguistics, the present invention is based on the Korean kanji hangul. Of course, it is also effective for word processors.

3.7.4 漢字を使用する言語の入力処理に対する本発明
の効果 (1) 現在書き言葉のなかに漢字を使用する言語は日
本語、中国語および韓国語の3言語である。これらの言
語の文には、漢字を一部または全面的に使用する。表意
文字漢字の使用は、「読み」と「表記」の間に乖離があ
る。漢字語には同音語の出現が避けられないからであ
る。
3.7.4 Effects of the present invention on input processing of languages using kanji (1) There are three languages that use kanji in the currently written language: Japanese, Chinese, and Korean. Kanji is used partially or completely in sentences in these languages. The use of ideographic kanji has a gap between "reading" and "notation". This is because the appearance of homonyms is inevitable in kanji words.

(2) 日中韓の三語は、たまたまその読みが音節を単
位とした文字で書かれる。中国漢字の読みは1漢字が1
音節である。韓国語のハングル1字の読みは1音節であ
り、韓国漢字音も1音節である。日本語の漢字の読みは
1字1音節の仮名で書ける。従って、日中韓の三語は、
音節を単位として入力するのがよいという共通点を持
つ。
(2) The three words of Japan, China, and Korea happen to be written in syllable units. One Chinese kanji reading is one kanji
It is a syllable. One Korean Hangul reading is one syllable, and the Korean Kanji sound is one syllable. You can write Japanese kanji with one-syllable one-syllable kana. Therefore, the three words CJK are
It has a common feature that it is better to input in syllable units.

(3) 日中韓の三語は、音節単位の読みで入力したと
き、必ず読み漢字変換を行わなければ通用の文章にはな
らない。そのとき、何かを単位として文を区切り、その
単位ごとに読み漢字変換をすることになる。日韓語にお
いては、その単位は「文節」である。両者とも「文節」
は、表記上おおむね漢字で始まり仮名またはハングルで
終わる。韓国語ハングル文のなかの「スペース」は文節
ごとに置く。したがって文節の内部で漢字語を自動的に
区切ることが要求される。中語語には文節の概念がな
い。語ごとに「分かち書き」をする習慣もないから、中
国人を語に分割して書かせると、一定の分割をするのが
困難である。ゆえに中国語の読み入力処理においては、
いわゆる全文一括によって語区切と読み漢字変換を自動
的に行う技術が要求される。もし、中国語において有効
な全文一括語区切漢字変換の技術が発明されるならば、
その技術は日本語と韓国語における読み入力漢字変換の
目的にも当然有効なはずである。
(3) When three Japanese, Chinese, and Korean words are input in syllable units, they must be converted to kanji characters before they can be converted into sentences. At that time, the sentence is delimited in units of something, and the kanji conversion is performed for each unit. In Japanese and Korean, the unit is “bunsetsu”. Both are "bunsetsu"
Starts with kanji and ends with kana or Hangul. The “space” in Korean Hangul sentences is placed for each phrase. Therefore, it is required to automatically delimit kanji words within a phrase. Chinese has no concept of a clause. There is no habit of “separating” each word, so it is difficult to divide a Chinese person into words if they are divided into words. Therefore, in Chinese reading input processing,
There is a need for a technique for automatically performing word separation and reading kanji conversion in a so-called whole sentence package. If the technology of full-text batch delimited kanji conversion effective in Chinese is invented,
This technique should be effective for the purpose of reading and kanji conversion in Japanese and Korean.

(4) 本発明の根拠となっている「言語情報エントロ
ピー最小の法則」を具体的に表現すれば「文中の各語の
読みの情報量の総和が最小値をとるように文は構成され
ている」となる。この法則の成立の理由は「きまった長
さの文を書くとき、その文の各節ごとに伝達される情報
に要求される条件は、情報量の多さではなく少なさ、即
ち明瞭度である」ところにある。この要求は、書き言葉
の文でも、話し言葉の文でも同じはずである。
(4) If the "rule of minimum linguistic information entropy", which is the basis of the present invention, is specifically expressed, "a sentence is constructed such that the sum of the information amounts of the readings of each word in the sentence takes the minimum value. Yes ". The reason for the establishment of this rule is that when writing a sentence of a fixed length, the condition required for the information transmitted in each section of the sentence is not a large amount of information, but a small amount, that is, clarity. There is ". This requirement should be the same for written and spoken sentences.

(5) 本発明の中心の「音頻語音区切法」は、語の情
報量を語の「読み」の統計的頻度に求めた。語の読みの
頻級の定義I=int(−log2p)は、頻級Iが情報量その
ものであることを示している。文においてΣIが最小に
なるような語音の列が、その文に対する最適の語音区切
を与えるという事実は、中国語と日本語の多数の例文に
対して経験的に立証されている。本発明の実用上の効果
は、以上の理論の正しさからもたらされている。
(5) In the "phonetic word sound separation method" at the center of the present invention, the amount of information of a word is obtained from the statistical frequency of "reading" of the word. The definition of the word reading frequency I = int (−log 2 p) indicates that the frequency I is the information amount itself. The fact that a sequence of phonemes that minimizes ΣI in a sentence provides the best phonetic separation for that sentence has been empirically established for many example sentences in Chinese and Japanese. The practical effect of the present invention comes from the correctness of the above theory.

(6) 音頻処理区が長く、語音ネットワークが複雑な
ときには、音頻法の理論が如何に妥当でも、最適語音区
切を求める処理量が複雑で大きくなって実用性を失う心
配がある。本発明の特徴である最小頻級和と最適語音区
切とを音節入力に追従して逐次に求める手法は、音頻処
理区の長さの影響を受けない。語音音節長の上限が大き
くても、自動語音区切処理の必要時間の増加はたいした
ものではない。
(6) When the frequent phonetic processing section is long and the speech network is complicated, there is a concern that the amount of processing for finding the optimal phonetic speech segmentation is complicated and large, and the practicality is lost, no matter how valid the theory of the phonetic frequency method is. The method of sequentially finding the minimum frequent class sum and the optimal word-sound delimiter, which is a feature of the present invention, following the syllable input is not affected by the length of the frequent phonetic processing section. Even if the upper limit of the syllable syllable length is large, the time required for the automatic syllable segmentation processing is not significantly increased.

(7) 日本語ワープロにおいては、全文一括漢字変換
は、操作の大衆化の目的からたえず望まれてきた技術で
あるが、真に実用性と精度の高い技術はまだ開発されて
いない。本発明の音頻法による自動語音区切は、全文一
括漢字変換を実用的次元で可能にし、同時に音節入力に
直ちに追従した漢字変換を可能にする効果がある。
(7) In Japanese word processors, full-text batch kanji conversion is a technology that has always been desired for the purpose of popularizing operations, but a truly practical and highly accurate technology has not yet been developed. The automatic vocabulary separation according to the frequent method according to the present invention has the effect of enabling whole sentence kanji conversion in a practical dimension, and at the same time, enabling kanji conversion immediately following syllable input.

(8) 中国語ワープロに要求される機能条件は、自動
語区切という苛酷な要求である。本発明は、それに答え
るものである。
(8) The functional requirements required of a Chinese word processor are severe requirements for automatic word separation. The present invention answers that.

(9) 韓国語ワープロに対して、本発明は、すでに文
節単位で分かち書きをしている韓国語の表記の文節中で
漢字とハングルとの自動区分と、長い漢字列の漢字変換
に効果があると見做される。
(9) For Korean word processors, the present invention is effective for the automatic division of kanji and Hangul in Korean phrases that have already been segmented in paragraph units, and for the conversion of long kanji strings to kanji. Will be considered.

【図面の簡単な説明】[Brief description of the drawings]

第1図は1〜N音節の語音を含む語音区切型の樹構造を
示す図、第2図は最小頻級和と最適区切型を求める逐次
処理に同期して実行される語音漢字変換処理を示す図、
第3図は最小頻級和と最適区切の末尾語音の音節数moを
求めたのち、moによる語音漢字変換処理を示す図、第4
図は音頻語音区切漢字変換装置を示すブロック図、第5
図は逐次語音区切および語音漢字変換装置の第1の実施
例を示す図、第6図は語音の読みRm生成と節点処理の詳
細を示す図、第7図は逐次語音区切および語音漢字変換
装置の第2の実施例を示す図、第8図は音頻法による中
国語文の自動語音区切逐次漢字変換の例を示す図、第9
図は語音ネットワークの最適語音区切を示す図、第10図
は二者択一逐次語音区切漢字変換の例を示す図、第11図
は音頻法による日本語文の語音区切の例を示す図、第12
図は音頻法による日本語文の逐次語音区切の経過を例示
する図、第13図は韓国語と日本語との対応関係を例示す
る図、第14図は日本語に対し本発明を適用して得られた
語音区切の例を示す図である。
FIG. 1 is a diagram showing a speech segmentation type tree structure including speech sounds of 1 to N syllables, and FIG. 2 is a diagram showing a speech-kanji conversion process executed in synchronization with a sequential process for obtaining a minimum frequency sum and an optimal segmentation type. Diagram,
FIG. 3 is a diagram showing the syllable number kanji conversion processing by mo after calculating the syllable number mo of the last utterance of the minimum frequency sum and the optimal delimiter.
The figure shows a block diagram of the tyrannical word-separated kanji conversion device.
Figure sequential diagram showing a first embodiment of the speech separator and speech kanji conversion apparatus, Figure 6 shows the details of the R m generated and the node processing reading speech figure 7 Figure sequential speech separator and speech kanji conversion FIG. 8 is a diagram showing a second embodiment of the apparatus, FIG. 8 is a diagram showing an example of automatic syllable-separated sequential kanji conversion of a Chinese sentence by the phonetic method, FIG.
FIG. 10 is a diagram showing an optimal speech separation of a speech network, FIG. 10 is a diagram showing an example of alternative sequential speech separation Kanji conversion, FIG. 11 is a diagram showing an example of speech separation of a Japanese sentence by the phonetic method, FIG. 12
The figure illustrates the sequence of sequential speech separation of Japanese sentences by the frequent method, FIG. 13 illustrates the correspondence between Korean and Japanese, and FIG. 14 illustrates the application of the present invention to Japanese. It is a figure which shows the example of the obtained speech separation.

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】漢字を使用する言語の文において、音標文
字を使用した音節を単位として逐次に入力して得た音節
列に対して、該音節列を語音に区切って最適の語音列を
逐次に求め、該語音列の個々の語音ごとに逐次に語音漢
字変換を行い、最確の漢字語列を得る音節入力語音逐次
区切漢字逐次変換方式において、 読みを同じくし統計上有意義な各語の読みを1個の語音
とし、 前記言語の文に使用される個々の語音の統計的出現頻度
をfとし、該語音の音節長をsとし、語音統計資料中全
語音の延べ音節総数をFtとするとき、各語音の頻率pを p=(f×s)/Ftとし、 各語音の頻級Iを I=int(−loga p)、ただしa=2 として整数にし、 前記言語の文において連続した語音列を入力するとき、
該語音列の先頭の第1音節から最近に入力した第n音節
までの語音列を音頻句とし、該音頻句を最近の時点にお
ける語音逐次区切逐次漢字逐次変換処理の対象とし、 該音頻句における各語音の頻級の和を頻級和とすると
き、 前記言語において統計上有意義な1〜M音節長(ただし
Mは2以上の整数)の語音を見出しとして、該各語音の
頻級を収納した語音頻級辞書と、 前記各語音を見出しとして、該語音を読みとする漢字同
音語を漢字文字列の形で収納した語音漢字語辞典とを備
え、 前記音頻句において、1個の音節が入力される度に、該
音節を末尾とする1〜M音節長のM種類の各語音を見出
しとして、前記語音頻級辞書において該各語音の頻級を
検索し、該各語音と各頻級とを次項に記載する最適頻級
和逐次計算手段に送る語音頻級検索手段と、 前記の最適頻級和逐次計算手段に関して、 該音頻句における音節入力番号をn(=1,2,3,……,n)
とし、 最近入力したn番目の音節を末尾とする1〜M音節の長
さのM個の語音を それぞれRn1,Rn2,Rn3,……,RnMとし、 該M個の語音の頻級を それぞれIn1,In2,In3,……,InMとし、 n音節の長さの語音列において最大限に可能な型の語音
区切型を、末尾の語音の音節の長さmがそれぞれ1,2,…
…,Mで、読みがそれぞれRn1,Rn2,Rn3,……,RnMであるM
個の組に分類し、 該M個の組ごとの最小頻級和を、それぞれPn1,Pn2,Pn3,
……,PnMとしさらに該Pn1,Pn2,Pn3,……,PnM中で最小の
値のものを最適頻級和Pnとし、順次の音節入力によっ
て、nが1から1づつ増加するに従い、つぎつぎに該Pn
を求めることに関して、 nが1≦n≦Mの範囲にあるとき、 nが1のときには、P1を、 Pnm=I11=P1によって計算し、 nがMに対して1<n≦Mの範囲にあるときには、 m≦n−1のn−1個のmに対して、n−1個のPnmを Pnm=Pn-m+Inmによって計算し、 m=nの1個のmに対しては1個のPnmを Pnm=Pnn=Inmによって計算し、 結局、Pn1,Pn2,……,Pnnのn個の最小頻級和を求め、 nがMに対してM<nの範囲にあるときには、 1≦m≦MのM個のmに対してM個の最小頻級和を Pnm=Pn-m+Inmによって計算し、 結局、Pn1,Pn2,……,PnMのM個の最小頻級和を求め、 結局、n組またはM組の各組ごとの最適語音区切型の最
小頻級和を、現在の音節入力番号nよりもm音節以前の
音節入力直後の処理によって既に求められ記憶されてい
るn個またはM個の最小頻級和Pn-mの各々に、現在検索
したn個またはM個の頻級Inmの各々を加算することに
よって求める最小頻級和逐次計算手段と、 音節1個が入力される度に、前記最小頻級和逐次計算手
段によって得られたn個またはM個の最小頻級和の値を
受け取り、これらに対してn者またはM者択一の大小比
較選抜を行い、該n者またはM者のなかでの最小の値P
nmを最適頻級和Pnとして求め、該Pnの値を記憶し、同時
に該頻級和を持つ唯一の語音列の末尾の語音Rnmoと該語
音の音節数moとを求める最適頻級和区切型選抜手段と、 前記最適頻級和区切型選抜手段が求めた語音Rnmoを受け
取り、該Rnmoを見出しとして、現在入力された音節を末
尾とする音節数moの同音漢字語のうち、現在最も確から
しい漢字語Hnmoを、前記語音漢字語辞書から読み出し、
次項の最確漢字列計算手段に送る最確漢字語検索変換手
段と、 前記の最適頻級和区切型選抜手段が求めた前記mo、およ
び前項の最確漢字語検索変換手段が求めた最確漢字語H
nmoを受けて、nが1を初期値とし音節入力の度に1づ
つ増加する度に、 Knmo=Kn-mo+Hnmo なる文字列加算によって現在の最確漢字列Knmoを求め本
発明の手段の出力とする最確漢字列計算手段とを備え、 総括すれば、前記言語が1音節からM音節までの語音を
持つとき、N音節の文において、音節番号をnとし、n
の初期値を1とし、語音音節に順次に入力し、 nが1づつ増加する度に、当該文の末尾に存在し得るM
個(n≦Mのときはn個)までのm音節の語音と頻級と
を求め、前記の文の先頭から該末尾語音直前の音節まで
の語音列に対するM個までの既に求めてある各最適語音
列の頻級和の各々に、前記M個までの各末尾語音の頻級
を加算し、結局n音節の長さを持つM個までの語音列の
頻級和を得、それら頻級和のなかで最小の頻級和を持つ
唯一個の語音列を現在の最適語音区切の語音列とし、該
語音列の末尾語音を現在の最適末尾語音として決定し、 さらに該語音を漢字変換した漢字列を末尾語音漢字列と
し、該語音よりも前の既知の最確語音列に対する変換漢
字列に該末尾語音漢字列を接続した新漢字列を得て、n
が1づつ増加する度に、該漢字列を新たに逐次出力する
ことを特徴とする、 漢字を使用する言語の音節入力語音逐次区切漢字逐次変
換方式。
In a sentence of a language using kanji, a syllable string obtained by sequentially inputting syllables using phonetic characters as a unit is divided into syllables, and an optimal syllable string is sequentially determined. In the syllable-input-sequential-sequential-separated-Kanji-sequential conversion method that obtains the most probable Kanji-word sequence, the phonetic conversion is performed sequentially for each individual sound in the word-sound sequence. reading a single speech, the statistical frequency of occurrence of individual speech used sentences of the language is f, and s the syllable length of word or sound, the total syllables total of all speech in speech statistics F t when the, the Shikiritsu p of each word sounds and p = (f × s) / F t, the Shikikyu I of each word sounds I = int (-log a p) , but to an integer as a = 2, the languages When entering a continuous phonetic sequence in a sentence,
A syllable string from the first syllable at the beginning of the syllable string to the n-th syllable that was recently input is regarded as a frequent phrasal phrase, and the frequent phrasal phrase is subjected to a sequential speech / separation / sequential kanji sequential conversion process at the most recent time. When the sum of the frequency of each speech is defined as a frequency sum, the speech of 1 to M syllable lengths (where M is an integer of 2 or more) which is statistically significant in the language is used as a heading, and the frequency of each speech is stored A vocabulary lexical class dictionary, and a vocabulary kanji vocabulary dictionary in which kanji homonyms reading the vocabulary words are stored in the form of kanji character strings, with each vocabulary as a heading. Each time it is entered, each type of speech is searched for in the dictation dictionary, and each vocabulary and each frequency are searched in the dictation dictionary. Sentence to the optimal frequency sum successive calculation means described in the next section For the search means and the optimal frequency class sum sequential calculation means, the syllable input number in the syllable is n (= 1, 2, 3,..., N)
, R n1 , R n2 , R n3 ,..., R nM , respectively, the M words having the length of 1 to M syllables ending with the n-th syllable input recently. The classes are In1 , In2 , In3 , ..., InM , respectively. The syllable segmentation type of the type that can be maximized in the syllable string of n syllables length is the syllable length m of the last syllable. 1,2,…
…, M where the readings are R n1 , R n2 , R n3 , ……, R nM respectively
And the minimum frequency sum of each of the M sets is P n1 , P n2 , P n3 ,
...... further the P n1 and P nM, P n2, P n3 , ......, the optimum Shikikyu sum Pn to the smallest value in P nM, by sequential syllable input, n is 1 Increment by 1 The P n
With respect to seek, when n is in the range of 1 ≦ n ≦ M, when n is 1, the P 1, calculated by P nm = I 11 = P 1 , n 1 <n ≦ against the M when in range of M, relative to m ≦ n-1 of the (n-1) m, (n-1) and P nm calculated by P nm = P nm + I nm , 1 single m of m = n , One P nm is calculated by P nm = P nn = I nm , and finally, the n minimum frequency sums of P n1 , P n2 ,..., P nn are obtained. On the other hand, when it is in the range of M <n, M minimum frequency sums are calculated by P nm = P nm + I nm for M m of 1 ≦ m ≦ M. As a result, P n1 , P n2 , ……, P nM is calculated as the minimum sum of the most frequent syllables. After all, the minimum sum of the most uttered speech segmentation type for each of the n sets or the M sets is m syllables more than the current syllable input number n. Already obtained and stored by the processing immediately after the previous syllable input To each of the n or the M minimum Shikikyu sum P nm that, the minimum Shikikyu sum sequential calculation means for calculating by adding the each of the n or the M Shikikyu I nm by the currently searched, one syllable Is received, the values of the n or M minimum frequency sums obtained by the minimum frequency sum sequential calculation means are received, and a magnitude comparison selection of n or M alternatives is received. The minimum value P among the n persons or the M persons
seeking nm as the optimal Shikikyu sum P n, optimum Shikikyu which stores the value of the P n, obtains a unique word sound column at the end of the speech R nmo and number of syllables mo of word or sound with該頻class sum simultaneously Japanese language separation type selection means, receives the speech R nmo determined by the optimal frequency Japanese style division type selection means, and, using the R nmo as a heading, of the same-sound kanji word of the syllable number mo ending with the currently input syllable , Read the most probable kanji word H nmo from the phonetic kanji word dictionary,
The most probable kanji word search and conversion means to be sent to the most probable kanji string calculation means of the next section, the mo obtained by the optimal frequency class sum delimitation type selection means, and the most probable kanji word search and conversion means obtained by the preceding section Kanji word H
The present most probable kanji character string K nmo is obtained by adding a character string of K nmo = K n-mo + H nmo every time n is incremented by 1 each time a syllable is input, in response to nmo. Means for calculating the most probable kanji character string as an output of the means. In summary, when the language has speech sounds from one syllable to M syllable, in a sentence of N syllables, let the syllable number be n,
Is set to 1 and is sequentially input to the syllable syllable. Each time n increases by 1, M which may be present at the end of the sentence
(M when n ≦ M) and m syllables are obtained, and up to M syllables from the beginning of the sentence to the syllable immediately before the last syllable are obtained. To each of the frequency sums of the optimal speech sequence, the frequency of each of the up to M ending speech words is added, and eventually a frequency sum of up to M speech sequences having a length of n syllables is obtained. The only speech sequence having the smallest frequency sum in the sum is the speech sequence of the current optimal speech segmentation, the last speech of the speech sequence is determined as the current optimal speech, and the speech is converted to kanji. A kanji string is defined as a last kanji string, and a new kanji string obtained by connecting the last kanji string to a converted kanji string for a known most probable vocabulary string prior to the utterance is obtained.
A kanji sequence sequentially output a new kanji string each time the kanji is incremented by one.
JP1168660A 1989-06-30 1989-06-30 Syllabic input of language using kanji Expired - Lifetime JP2812495B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1168660A JP2812495B2 (en) 1989-06-30 1989-06-30 Syllabic input of language using kanji

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1168660A JP2812495B2 (en) 1989-06-30 1989-06-30 Syllabic input of language using kanji

Publications (2)

Publication Number Publication Date
JPH0334058A JPH0334058A (en) 1991-02-14
JP2812495B2 true JP2812495B2 (en) 1998-10-22

Family

ID=15872139

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1168660A Expired - Lifetime JP2812495B2 (en) 1989-06-30 1989-06-30 Syllabic input of language using kanji

Country Status (1)

Country Link
JP (1) JP2812495B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3365643B2 (en) * 1992-07-06 2003-01-14 株式会社神戸製鋼所 Ion implanter
KR20040040259A (en) * 2002-11-06 2004-05-12 석의수 A float for automatic level controlling
CN115859975B (en) * 2023-02-07 2023-05-09 支付宝(杭州)信息技术有限公司 Data processing method, device and equipment

Also Published As

Publication number Publication date
JPH0334058A (en) 1991-02-14

Similar Documents

Publication Publication Date Title
US5806021A (en) Automatic segmentation of continuous text using statistical approaches
Thet et al. Word segmentation for the Myanmar language
JP2812495B2 (en) Syllabic input of language using kanji
CN114818663B (en) Hierarchical intelligent pinyin and character matching method
JPH0140372B2 (en)
KR101777141B1 (en) Apparatus and method for inputting chinese and foreign languages based on hun min jeong eum using korean input keyboard
JPS60189069A (en) Kana and kanji converting device
JP3622841B2 (en) Kana-kanji conversion device and kana-kanji conversion method
JP2004206659A (en) Reading information determination method, device, and program
JP2798931B2 (en) Chinese phonetic delimiter and phonetic kanji conversion
Qurbonova SEMANTIC ANALYSIS OF HOMONYMS.
JP2695772B2 (en) Kana-Kanji conversion device
JPS5998236A (en) Input device of japanese sentence
JPS6118066A (en) Word extracting system
JPS61282966A (en) Kana/kanji conversion system
JP3091540B2 (en) Morphological analysis method for Japanese sentences
JP3048101B2 (en) Morphological analyzer
JPS6118065A (en) Kana-to-kanji conversion processor
Sadigh et al. A rule-based approach to farsi language text-to-phoneme conversion.
JPS62214468A (en) Kana-kanji converter
JPH0773174A (en) Processing system of japanese language
JPH0610804B2 (en) Kana-Kanji converter
JPH10247192A (en) Kana-to-kanji conversion device
Sunitha et al. Spelling Corrector for Indian Languages
JPH06290182A (en) Double word converting device and kanji conversion device