JPH0785030A - Language processing system - Google Patents

Language processing system

Info

Publication number
JPH0785030A
JPH0785030A JP5189301A JP18930193A JPH0785030A JP H0785030 A JPH0785030 A JP H0785030A JP 5189301 A JP5189301 A JP 5189301A JP 18930193 A JP18930193 A JP 18930193A JP H0785030 A JPH0785030 A JP H0785030A
Authority
JP
Japan
Prior art keywords
kana
character string
morpheme
dictionary
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5189301A
Other languages
Japanese (ja)
Other versions
JP3410163B2 (en
Inventor
Naoko Satou
奈穂子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP18930193A priority Critical patent/JP3410163B2/en
Publication of JPH0785030A publication Critical patent/JPH0785030A/en
Application granted granted Critical
Publication of JP3410163B2 publication Critical patent/JP3410163B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

PURPOSE:To provide the exact morpheme analyzed result by decreasing the number of unregistered words without increasing the capacity of a dictionary for morpheme analysis even concerning a Japanese sentence composed of a lot of Japanese syllabary(KANA) character strings with high possibility to be conventionally processed as unregistered words. CONSTITUTION:This system is provided with an input part 1 for inputting the Japanese sentence mixing Chinese characters(KANJI) and KANA, dictionary 12 for morpheme analysis, morpheme analysis part 5 for performing morpheme analysis to the Japanese sentence inputted from the input part 1 while using the dictionary 12 for morpheme analysis and for extracting the KANA character string from the Japanese sentence, and KANA/KANJI conversion part 8 for performing the KANA/KANJI conversion of the extracted KANA character string corresponding to the request of a user, and the morpheme analysis part 5 performs the morpheme analysis to the character string as the result of KANA /KANJI conversion again.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、日本語文の形態素解析
処理機能を備えた言語処理システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a language processing system having a morphological analysis processing function for Japanese sentences.

【0002】[0002]

【従来の技術】一般に、日本語文の形態素解析処理は、
入力された日本語文、すなわち入力文字列を形態素解析
用辞書内に予め登録されている単語とマッチングして単
語を同定し、単語単位に分割することによってなされる
が、入力文中に辞書に登録されていない単語(未登録
語)が存在する場合、この単語については単語の同定が
できず、未登録語として処理される。
2. Description of the Related Art In general, Japanese sentence morphological analysis processing is
It is done by matching the input Japanese sentence, that is, the input character string with the word registered in advance in the morphological analysis dictionary, identifying the word, and dividing it into word units. If there is an unregistered word (unregistered word), the word cannot be identified for this word and it is processed as an unregistered word.

【0003】ところで、未登録語の処理において問題と
なるのは、未登録語が平仮名文字列である場合であり、
未登録語が平仮名文字列であるときには、付属語との区
別をすることが難しく、未登録語の範囲決定が非常に困
難となり、形態素解析の精度を低下させる要因となって
いた。
A problem in processing unregistered words is that the unregistered words are hiragana character strings.
When the unregistered word is a hiragana character string, it is difficult to distinguish it from the adjunct word, and it becomes very difficult to determine the range of the unregistered word, which is a factor that reduces the accuracy of morphological analysis.

【0004】形態素解析におけるこのような問題を回避
するため、従来、例えば、特開昭63−095572に
開示されているような技術が知られており、この技術で
は、漢字仮名混じりの日本語文の形態素解析において、
未登録語は、自立語であるという前提の下に、「平仮名
文字列」の未登録語を検出するようにしている。
In order to avoid such a problem in morphological analysis, conventionally, for example, a technique disclosed in Japanese Patent Laid-Open No. 63-095572 is known. In this technique, a Japanese sentence containing kanji and kana is mixed. In morphological analysis,
An unregistered word is detected as an unregistered word on the assumption that it is an independent word.

【0005】[0005]

【発明が解決しようとする課題】上述した従来の技術を
用いれば、平仮名文字列の多い文章を形態素解析する際
に、「平仮名文字列」の未登録語の検出(範囲同定)を
行なうことはできるが、検出された未登録語は、未登録
語のままで、これに積極的に正しい読みや品詞が付され
るわけではない。すなわち、平仮名文字列の多い文につ
いては、一般に、形態素解析結果に未登録語が多く含ま
れてしまい、未登録語として検出することができたとし
ても、従来では、これに品詞などが付されないので、正
確な形態素解析結果を得ることができないという欠点が
あった。
With the above-mentioned conventional technique, it is possible to detect unregistered words (range identification) of "Hiragana character string" when performing morphological analysis of a sentence with many Hiragana character strings. Although it is possible, the detected unregistered word remains the unregistered word, and the correct reading or part-of-speech is not positively added to it. That is, for a sentence with many hiragana character strings, in general, many unregistered words are included in the morphological analysis result, and even if it can be detected as an unregistered word, it is conventionally not attached with a part of speech or the like. Therefore, there is a drawback that an accurate morphological analysis result cannot be obtained.

【0006】なお、平仮名文字列の多い文を形態素解析
するときに、未登録語の生起個数を少なくするために
は、同じ単語を漢字表記とともにさらに平仮名表記で形
態素解析用辞書に登録することも考えられるが、この場
合には、登録語数が増大し、形態素解析用辞書の容量が
大きくなるなどの問題が生ずる。
[0006] When performing morphological analysis on a sentence with many hiragana character strings, in order to reduce the number of unregistered words occurring, the same word may be registered in the morphological analysis dictionary in hiragana notation together with the kanji notation. It is conceivable, but in this case, the number of registered words increases and the capacity of the morphological analysis dictionary increases, which causes a problem.

【0007】本発明は、従来未登録語として処理される
可能性の高かった平仮名文字列の多い日本語文について
も、形態素解析用辞書の容量を増加させずに、未登録語
の個数を減少させることができ、正確な形態素解析結果
を得ることの可能な言語処理システムを提供することを
目的としている。
The present invention reduces the number of unregistered words without increasing the capacity of the morphological analysis dictionary, even for Japanese sentences with many hiragana character strings that were previously likely to be processed as unregistered words. It is an object of the present invention to provide a language processing system that is capable of obtaining accurate morphological analysis results.

【0008】[0008]

【課題を解決するための手段および作用】上記目的を達
成するために、請求項1記載の発明は、漢字仮名混じり
の日本語文を入力する入力手段と、形態素解析用辞書
と、入力手段により入力された日本語文を形態素解析用
辞書を用いて形態素解析し、また、該日本語文から平仮
名文字列を抽出する形態素解析手段と、抽出された平仮
名文字列を利用者の必要に応じ仮名漢字変換する仮名漢
字変換手段とを有し、形態素解析手段は、仮名漢字変換
された結果の文字列を再度形態素解析するようになって
いることを特徴としている。これにより、未登録語とし
て処理される可能性の高かった平仮名文字列の多い日本
語文についても、形態素解析用辞書の容易を増加させず
に、さらには形態素解析用辞書を何ら変更せずに、未登
録語の個数を減少させることができ、正確な形態素解析
結果を得ることができる。
In order to achieve the above object, the invention according to claim 1 uses an input means for inputting a Japanese sentence mixed with kanji and kana, a morphological analysis dictionary, and an input means. Morphological analysis is performed on the extracted Japanese sentence using a morphological analysis dictionary, and a morphological analysis unit that extracts a hiragana character string from the Japanese sentence, and the extracted hiragana character string is converted into kana-kanji characters as needed by the user. It has a kana-kanji conversion means, and the morpheme analysis means is characterized in that the character string resulting from the kana-kanji conversion is subjected to morpheme analysis again. As a result, even for Japanese sentences with many hiragana character strings that were likely to be processed as unregistered words, without increasing the ease of the morphological analysis dictionary, and without changing the morphological analysis dictionary at all, The number of unregistered words can be reduced and an accurate morphological analysis result can be obtained.

【0009】また、請求項2,請求項3記載の発明は、
上記形態素解析用辞書が、仮名漢字変換用の辞書と1つ
にまとめられたものとして構成されており、この場合、
該辞書を形態素解析用の検索形態と仮名漢字変換用の検
索形態とのいずれかに切替えるための辞書引き制御手段
がさらに設けられていることを特徴としている。これに
より、システム全体の辞書容量を低減でき、非常にコン
パクトなシステムを実現することができる。
The inventions according to claims 2 and 3 are:
The above morphological analysis dictionary is configured as one combined with a kana-kanji conversion dictionary. In this case,
It is characterized in that a dictionary lookup control means for switching the dictionary between a search form for morphological analysis and a search form for kana-kanji conversion is further provided. As a result, the dictionary capacity of the entire system can be reduced and a very compact system can be realized.

【0010】また、請求項4記載の発明は、上記形態素
解析手段が、入力された日本語文の文字種の違いを判定
して、平仮名文字列を抽出し、抽出された平仮名文字列
の文字に対して、その前後の形態素との接続チェックを
行なって付属語であるか否かを判定し、付属語であると
判定された文字部分については一形態素として取り扱
い、付属語と判定されなかった文字部分については、仮
名漢字変換対象としての連続平仮名文字列として判別す
ることを特徴としている。これにより、仮名漢字変換対
象となる部分を明確に割り出し、仮名漢字変換を正しく
行なわせることができる。
Further, in the invention according to claim 4, the morpheme analysis means determines a difference in the character type of the input Japanese sentence, extracts a hiragana character string, and extracts the hiragana character string from the extracted characters. Then, the connection with the morphemes before and after it is checked to determine whether or not it is an adjunct word, and the character part that is determined to be an adjunct word is treated as a morpheme, and the character part that is not determined to be an adjunct word. Is characterized in that it is determined as a continuous hiragana character string as a kana-kanji conversion target. As a result, it is possible to clearly identify the portion to be converted into Kana-Kanji and correctly perform the conversion into Kana-Kanji.

【0011】また、請求項5記載の発明は、上記形態素
解析手段が、仮名漢字変換された結果の文字列を再度形
態素解析したときに、連続平仮名文字列の直前形態素と
仮名漢字変換された連続平仮名文字列の先頭形態素との
接続チェックと、連続平仮名文字列の直後の形態素と仮
名漢字変換された連続平仮名文字列の後尾形態素との接
続チェックとを行なうようになっていることを特徴とし
ている。これにより、仮名漢字変換時に複数の候補が存
在する場合、候補を絞り込むことができる。
Further, in the invention according to claim 5, when the morpheme analysis means performs a morpheme analysis again on the character string resulting from the kana-kanji conversion, the immediately preceding morpheme of the continuous hiragana character string and the kana-kanji converted continuous It is characterized by performing a connection check with the first morpheme of the hiragana character string and a connection check between the morpheme immediately after the continuous hiragana character string and the tail morpheme of the kana-kanji converted continuous hiragana character string. . As a result, when there are a plurality of candidates during Kana-Kanji conversion, the candidates can be narrowed down.

【0012】また、請求項6記載の発明は、上記形態素
解析手段が、仮名漢字変換された結果の文字列を再度形
態素解析した後に、仮名漢字変換された結果の文字列を
元の平仮名文字列に復元するようになっていることを特
徴としている。これにより、元の日本語文で形態素解析
がなされたような結果を最終的に得ることができる。
Further, in the invention according to claim 6, the morpheme analysis means performs morpheme analysis again on the character string resulting from the kana-kanji conversion, and then the character string resulting from the kana-kanji conversion is converted into the original hiragana character string. It is characterized by being restored to. As a result, it is possible to finally obtain the result as if the morphological analysis was performed on the original Japanese sentence.

【0013】また、請求項7乃至請求項9記載の発明
は、さらに、表示手段と、前記表示手段の表示形態を形
態素解析処理用,仮名漢字変換用のいずれにするかを切
替える表示制御手段とを有している。これにより、利用
者は、形態素解析処理時,仮名漢字変換処理時のいずれ
においても、これらの処理結果等を容易に確認し、把握
することができる。
Further, the invention according to claims 7 to 9 further comprises a display means and a display control means for switching the display form of the display means between morphological analysis processing and kana-kanji conversion. have. As a result, the user can easily confirm and understand the processing results and the like during both the morphological analysis processing and the kana-kanji conversion processing.

【0014】特に、請求項8記載の発明では、表示制御
手段は、形態素解析処理用の表示を利用者の必要に応じ
て仮名漢字変換処理用の表示に切替えるようになってい
る。これにより、利用者は現在どの処理を行なっている
のかを常に把握することができる。
Particularly, in the invention described in claim 8, the display control means is adapted to switch the display for morphological analysis processing to the display for kana-kanji conversion processing according to the need of the user. As a result, the user can always know which process is currently being performed.

【0015】また、請求項9記載の発明では、表示制御
手段は、形態素解析処理において連続平仮名文字列が抽
出された際に、該連続平仮名文字列の部分を他の部分と
区別可能な形態で表示するようになっている。これによ
り、どの部分の文字列が仮名漢字変換の必要なものであ
るかを明瞭に示すことができる。
Further, in the invention according to claim 9, when the continuous hiragana character string is extracted in the morpheme analysis processing, the display control means can distinguish the part of the continuous hiragana character string from other parts. It is supposed to be displayed. As a result, it is possible to clearly indicate which part of the character string requires kana-kanji conversion.

【0016】[0016]

【実施例】以下、本発明の実施例を図面に基づいて説明
する。図1は本発明に係る言語処理システムの一実施例
のブロック図である。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram of an embodiment of a language processing system according to the present invention.

【0017】図1を参照すると、この言語処理システム
は、漢字仮名混じりの日本語文(テキスト文字列)を入
力する入力部1と、入力部1から入力された入力文字列
に対して形態素解析を行なう形態素解析部5と、仮名漢
字変換処理を行なう仮名漢字変換部8と、表示部11へ
の所定の表示制御を行なう表示制御部10とを有してい
る。
Referring to FIG. 1, this language processing system performs morphological analysis on an input unit 1 for inputting a Japanese sentence (text character string) mixed with Kanji and Kana and a character string input from the input unit 1. It has a morphological analysis section 5 for performing, a kana-kanji conversion section 8 for performing kana-kanji conversion processing, and a display control section 10 for performing predetermined display control on the display section 11.

【0018】ここで、形態素解析部5は、入力文字列に
対し、単語の表記と品詞情報などが登録されている図2
に示すような形態素解析用辞書12と、形態素間の接続
関係が記述されている接続テ−ブル4とを用いて、形態
素解析を行ない、形態素解析結果を形態素保持バッファ
6に保持するようになっている。
Here, the morphological analysis unit 5 registers the word notation and the part-of-speech information for the input character string as shown in FIG.
The morphological analysis is performed using the morphological analysis dictionary 12 and the connection table 4 in which the connection relationships between morphemes are described, and the morphological analysis result is held in the morphological holding buffer 6. ing.

【0019】また、形態素解析部5は、さらに、入力文
字列に対して平仮名や数字などの文字種の違いを判定
し、平仮名文字列が抽出されたときには、これを平仮名
文字列保持バッファ7に保持する機能をも有している。
また、平仮名と判定された文字に対して、その文字の前
後の形態素の品詞などを参照して接続チェックを行な
い、その接続関係から前の形態素の付属語(一形態素と
して取り扱われるべき語)であるか否かをも識別するよ
うになっている。この場合、上記平仮名文字列保持バッ
ファ7には、付属語であると識別された平仮名文字列
と、それ以外の連続平仮名文字列とが判別可能に保持さ
れるようになっている。
Further, the morphological analysis unit 5 further determines the difference in the character type such as hiragana or numeral for the input character string, and when the hiragana character string is extracted, stores it in the hiragana character string holding buffer 7. It also has a function to do.
In addition, for a character determined to be hiragana, a connection check is performed by referring to the part-of-speech of the morpheme before and after that character, and the adjunct word (word that should be treated as one morpheme) of the previous morpheme is determined from the connection relation. It is also designed to identify whether there is any. In this case, the hiragana character string holding buffer 7 holds the hiragana character string identified as an adjunct word and the other continuous hiragana character strings so that they can be discriminated from each other.

【0020】また、仮名漢字変換部8は、平仮名文字列
保持バッファ7に保持されている平仮名文字列(連続仮
名文字列)に対し、利用者の必要に応じて(例えば利用
者が所定のキ−(例えば変換キ−)を操作することによ
って)仮名漢字変換処理を行なう機能を有しており、こ
の仮名漢字変換処理を行なうのに、単語の表記と読みと
が対応付けられて記憶されている図3に示すような仮名
漢字変換辞書3を用い、また、仮名漢字変換結果を変換
文字列バッファ9に格納するようになっている。
The kana-kanji conversion unit 8 receives the hiragana character string (continuous kana character string) held in the hiragana character string holding buffer 7 as needed by the user (for example, the user selects a predetermined key). -Has a function of performing Kana-Kanji conversion processing (by operating, for example, a conversion key). When performing this Kana-Kanji conversion processing, word notation and reading are stored in association with each other. The kana-kanji conversion dictionary 3 as shown in FIG. 3 is used, and the kana-kanji conversion result is stored in the conversion character string buffer 9.

【0021】ところで、形態素解析用辞書12に、従来
の形態素解析に用いられていたと同様のものを用いる場
合、形態素解析用辞書12には、一般に、単語の漢字表
記のみが登録され、単語の平仮名表記は登録されていな
いことが多く、前述したように、平仮名文字列の多い文
が入力部1から入力すると、形態素解析部5は、平仮名
表記の単語については、これを未登録語として処理す
る。従って、平仮名文字列保持バッファ6に保持されて
いる連続平仮名文字列は、未登録語として形態素解析処
理された蓄然性が高いものである。
By the way, when the morpheme analysis dictionary 12 similar to that used in the conventional morpheme analysis is used, generally only the kanji notation of the word is registered in the morpheme analysis dictionary 12, and the hiragana of the word is registered. The notation is often not registered, and as described above, when a sentence with many hiragana character strings is input from the input unit 1, the morpheme analysis unit 5 processes the word in hiragana notation as an unregistered word. . Therefore, the continuous hiragana character string held in the hiragana character string holding buffer 6 is highly likely to be morphologically analyzed as an unregistered word.

【0022】本願の発明者は、平仮名表記であるがため
に未登録語として処理された単語については、これが漢
字表記であれば、正しく形態素解析がなされることが極
めて多いことに着目し、平仮名文字列保持バッファ6に
保持されている連続平仮名文字列を漢字仮名混じり文字
列に直した上で、再度形態素解析を行なわせれば、未登
録語の個数を減少させることができることを見出した。
そこで、本実施例では、平仮名文字列保持バッファ7に
保持されている連続平仮名文字列に対し、利用者の必要
に応じて仮名漢字変換部8で仮名漢字変換して変換文字
列バッファ9に格納し、変換文字列バッファ9に格納さ
れた変換文字列をさらに形態素解析部5に与え、形態素
解析部5において形態素解析を再度行なわせるようにし
ている。
The inventor of the present application has paid attention to the fact that a word processed as an unregistered word because it is in Hiragana notation is very often correctly morphologically analyzed if it is in Kanji notation. It has been found that the number of unregistered words can be reduced by converting the continuous hiragana character string held in the character string holding buffer 6 into a character string mixed with kanji kana and then performing morphological analysis again.
Therefore, in the present embodiment, the continuous hiragana character string stored in the hiragana character string holding buffer 7 is converted into kana characters by the kana-kanji conversion unit 8 as required by the user and stored in the converted character string buffer 9. Then, the converted character string stored in the converted character string buffer 9 is further given to the morpheme analysis unit 5 so that the morpheme analysis unit 5 performs the morpheme analysis again.

【0023】このように、平仮名表記であるがために未
登録語として処理された単語を漢字に直して再度、形態
素解析させることで、形態素解析用辞書12の登録語数
を何ら増加させることなく、さらには、形態素解析用辞
書12の内容を何ら変更することなく(すなわち、単語
の漢字表記のみが登録されている状態のままで)、未登
録語の個数を減少させることが可能となる。また、連続
平仮名文字列を仮名漢字変換部8で仮名漢字変換する
際、この仮名漢字変換処理は、一般に、マンマシンイン
タフェースで利用者の所望の漢字を選択可能になされる
ので、連続平仮名文字列を利用者の意図した正しい漢字
仮名混じり文字列に直すことができて、これにより、正
確な形態素解析結果を確実に得ることが可能となる。
As described above, by converting a word processed as an unregistered word because it is in Hiragana notation into a Kanji character and again performing morphological analysis, the number of registered words in the morphological analysis dictionary 12 is not increased at all. Furthermore, it is possible to reduce the number of unregistered words without changing the contents of the morphological analysis dictionary 12 (that is, in the state where only the Kanji notation of the word is registered). Further, when converting the continuous hiragana character string to the kana-kanji character by the kana-kanji conversion unit 8, this kana-kanji conversion processing generally enables the man-machine interface to select the desired kanji character of the user. Can be converted into a character string containing the correct kanji and kana characters intended by the user, and thereby an accurate morphological analysis result can be obtained with certainty.

【0024】また、仮名漢字変換部8を設けたことで、
これを形態素解析処理についてのみ用いるのみならず、
例えば、ワ−ドプロセッサ等のような他の機能をもさら
に実現するのに用いることもできる。すなわち、図1の
システムを形態素解析システムとしてのみならず、ワ−
ドプロセッサ等の機能をも含むより汎用的な言語処理シ
ステムに容易に拡張することが可能となる。
By providing the kana-kanji conversion unit 8,
This is not only used for morphological analysis processing,
It can also be used to further implement other functions such as, for example, a word processor. That is, the system of FIG.
It is possible to easily extend to a more general-purpose language processing system including a function such as a deprocessor.

【0025】また、図1の構成例では、形態素解析処理
に用いる辞書,すなわち形態素解析用辞書12と、仮名
漢字変換処理に用いる辞書,すなわち仮名漢字変換辞書
3とを別個に設けたが、これらを1つの辞書にまとめ、
両方の処理で共用させることも可能である。
In the configuration example of FIG. 1, the dictionary used for morpheme analysis processing, that is, the morpheme analysis dictionary 12 and the dictionary used for kana-kanji conversion processing, that is, kana-kanji conversion dictionary 3, are provided separately. In one dictionary,
It is also possible to share both processes.

【0026】図4は、形態素解析処理に用いる辞書と仮
名漢字変換処理に用いる辞書とを1つにまとめたシステ
ムの構成例を示す図である。図4を参照すると、このシ
ステムには、単語の表記と読みと品詞情報とが対応付け
されている図5に示すような辞書22と、この辞書22
の検索形態を形態素解析処理時と仮名漢字変換処理時と
で切替え可能な辞書引き制御部2とが設けられている。
FIG. 4 is a diagram showing a configuration example of a system in which a dictionary used for morpheme analysis processing and a dictionary used for kana-kanji conversion processing are integrated. Referring to FIG. 4, in this system, a dictionary 22 as shown in FIG. 5 in which word notation, reading, and part-of-speech information are associated, and this dictionary 22.
There is provided a dictionary lookup control unit 2 that can switch the search form between morphological analysis processing and kana-kanji conversion processing.

【0027】ここで、辞書22は、図2,図3にそれぞ
れ示した形態素解析用辞書12,仮名漢字変換辞書3を
1つにまとめたものとして構成され、辞書引き制御部2
の制御によって、形態素解析処理と仮名漢字変換処理と
で共用されるようになっている。すなわち、辞書引き制
御部2は、形態素解析を行なっているときには、辞書2
2に対して表記(見出し領域)による検索を行ない、ま
た、仮名漢字変換処理を行なっているときには、辞書2
2に対して読み(読み領域)による検索を行なうよう、
その検索形態を切替え制御して、この辞書22が両方の
処理で用いられるようにしている。
Here, the dictionary 22 is configured as a collection of the morphological analysis dictionary 12 and the kana-kanji conversion dictionary 3 shown in FIGS. 2 and 3, respectively.
Under the control of, the morpheme analysis process and the kana-kanji conversion process are commonly used. That is, the dictionary look-up control unit 2 makes the dictionary 2 when performing the morphological analysis.
2 is searched by notation (heading area), and when Kana-Kanji conversion processing is being performed, the dictionary 2
To perform a search by reading (reading area) for 2,
The search form is switched and controlled so that the dictionary 22 is used in both processes.

【0028】図4の構成では、辞書引き制御部2の制御
により、辞書22の検索形態を上記のように切替えるこ
とができるので、処理毎に辞書を設ける必要がなく、1
つの辞書22だけで対応できて、システム全体の辞書容
量を低減し、非常にコンパクトなシステムを実現するこ
とができる。
In the configuration of FIG. 4, the search form of the dictionary 22 can be switched as described above under the control of the dictionary lookup control unit 2, so that it is not necessary to provide a dictionary for each process.
Only one dictionary 22 can be used, the dictionary capacity of the entire system can be reduced, and a very compact system can be realized.

【0029】なお、図1,図4の構成例において、仮名
漢字変換部8により連続平仮名文字列が漢字仮名混じり
文字列に変換された後、再度の形態素解析を行なって形
態素が確定したところで、連続平仮名文字列の直前形態
素と仮名漢字変換された連続平仮名文字列の先頭形態素
との接続チェック,および連続平仮名文字列の直後の形
態素と仮名漢字変換された連続平仮名文字列の後尾形態
素との接続チェックを行なう機能をも形態素解析部5に
もたせることもでき、さらには、仮名漢字変換された文
字列を元のテキストの平仮名文字列に復元する機能をも
形態素解析部5にもたせることもできる。
In the configuration example of FIGS. 1 and 4, after the continuous hiragana character string is converted by the kana-kanji conversion unit 8 into a character string mixed with kanji kana, the morpheme analysis is performed again to determine the morpheme, Checking the connection between the immediately preceding morpheme of the continuous hiragana character string and the leading morpheme of the converted hiragana-kanji character string, and the connection between the morpheme immediately after the continuous hiragana character string and the tail morpheme of the converted hiragana character string The morpheme analysis unit 5 can be provided with the function of checking, and the morpheme analysis unit 5 can also be provided with the function of restoring the character string converted from Kana-Kanji into the Hiragana character string of the original text.

【0030】また、形態素解析処理時と仮名漢字変換処
理時とで表示の切替制御を行なう機能を表示制御部10
にもたせることもできる。例えば、形態素解析処理時に
は、表示制御部10は、表示部11に、入力文字列と、
形態素保持バッファ6に保持された形態素解析結果と、
平仮名文字列保持バッファ7に保持された平仮名文字列
とを表示し、また、平仮名文字列から連続平仮名文字列
が抽出されたときには、平仮名文字列のうち、この連続
平仮名文字列の部分だけを白黒反転させるようになって
いる。また、例えば変換キ−などの所定のキ−が操作さ
れるなどして、利用者の必要に応じ仮名漢字変換処理が
選択されたときには、表示部11を仮名漢字変換処理用
の画面に切替えるようになっている。
In addition, the display control unit 10 has a function of switching display between the morphological analysis process and the kana-kanji conversion process.
You can also give it. For example, during the morphological analysis process, the display control unit 10 causes the display unit 11 to display the input character string,
A morpheme analysis result held in the morpheme holding buffer 6,
The hiragana character string held in the hiragana character string holding buffer 7 is displayed, and when a continuous hiragana character string is extracted from the hiragana character string, only the part of the continuous hiragana character string of the hiragana character string is changed to black and white. It is designed to be inverted. Also, when the kana-kanji conversion process is selected according to the user's need by operating a predetermined key such as a conversion key, the display unit 11 is switched to the kana-kanji conversion process screen. It has become.

【0031】次にこのような構成の言語処理システムの
動作を図6乃至図8のフロ−チャ−トを用いて説明す
る。なお、以下では、便宜上、言語処理システムが図4
の構成になっているものとし、当初、辞書引き制御部2
は、辞書22の検索形態を形態素解析用に、すなわち表
記による検索がなされるように切替えしているとする。
Next, the operation of the language processing system having such a configuration will be described with reference to the flowcharts of FIGS. In the following, for convenience, the language processing system is shown in FIG.
It is assumed that the dictionary lookup control unit 2 is initially configured.
Suppose that the search form of the dictionary 22 is switched for morphological analysis, that is, a search by notation is performed.

【0032】テキスト文字列が入力部1から入力すると
(ステップS1)、形態素解析部5は、この文字列を読
み込み(ステップS2)、辞書22及び接続テ−ブル4
を用いて入力文字種判定処理(ステップS3,S4),
形態素解析処理(ステップS5)を行ない、表示部11
に入力文字列,形態素解析結果および平仮名文字列を表
示する(ステップS6)。ここで、ステップS3,S4
の入力文字種判定処理では、入力文字が平仮名,数字等
のいずれであるかを判定し、入力文字が平仮名であると
判定したときには、その文字を平仮名文字列保持バッフ
ァ7に保持する。また、形態素解析結果は、形態素保持
バッファ6に保持される。そして、形態素保持バッファ
6,平仮名文字列保持バッファ7の内容が、表示部11
に、それぞれ形態素解析結果,平仮名文字列として表示
される。
When a text character string is input from the input unit 1 (step S1), the morphological analysis unit 5 reads this character string (step S2), the dictionary 22 and the connection table 4.
Using the input character type determination process (steps S3, S4),
The morphological analysis process (step S5) is performed, and the display unit 11
The input character string, the morphological analysis result and the hiragana character string are displayed at (step S6). Here, steps S3 and S4
In the input character type determination process (1), it is determined whether the input character is a hiragana or a number, and when it is determined that the input character is a hiragana, the character is held in the hiragana character string holding buffer 7. The morpheme analysis result is held in the morpheme holding buffer 6. The contents of the morpheme holding buffer 6 and the hiragana character string holding buffer 7 are displayed on the display unit 11.
Are displayed as a morphological analysis result and a hiragana character string, respectively.

【0033】このようにして、入力したテキスト文字列
に対して上述のような一連の処理を行なった後、形態素
解析部5は、このテキスト文字列に平仮名文字列が存在
したか否かを、平仮名文字列保持バッファ7に文字列が
保持されているか否かにより判定する(ステップS
7)。この結果、平仮名文字列保持バッファ7に文字列
が保持されていない場合には、テキスト文字列に平仮名
文字列が存在しないので、ステップS4の処理で形態素
解析が全てなされたと判断し、処理を終了する。
In this way, after performing a series of processes as described above on the input text character string, the morphological analysis unit 5 determines whether or not a hiragana character string exists in this text character string. Judgment is made based on whether or not a character string is held in the hiragana character string holding buffer 7 (step S
7). As a result, when the hiragana character string holding buffer 7 does not hold the character string, the hiragana character string does not exist in the text character string, so it is determined that all the morphological analysis has been performed in the process of step S4, and the process ends. To do.

【0034】これに対し、平仮名文字列保持バッファ7
に平仮名文字列が保持されている場合には、形態素解析
部5は、さらに、平仮名文字列保持バッファ7に保持さ
れている平仮名文字列の先頭の文字について、この平仮
名文字列の直前形態素との接続チェックを行なって(ス
テップS8)、これが直前形態素の付属語であるか否か
を識別し(ステップS9)、付属語であるときには、こ
の文字を一文字ずらしたものを先頭の文字とみなし(ス
テップS10)、ステップS7に戻って、一文字ずらし
た文字も付属語であるか否かを調べる。
On the other hand, the hiragana character string holding buffer 7
If the hiragana character string is stored in the hiragana character string, the morpheme analysis unit 5 further determines that the leading character of the hiragana character string held in the hiragana character string holding buffer 7 is the previous morpheme of the hiragana character string. A connection check is performed (step S8), and it is identified whether or not this is an adjunct word of the immediately preceding morpheme (step S9). When it is an adjunct word, this character shifted by one character is regarded as the first character (step S9). S10), the process returns to step S7, and it is checked whether or not the character shifted by one character is also an adjunct word.

【0035】ステップS7乃至S10の処理を繰り返し
行なって、先頭の文字が付属語でなくなったとき、この
平仮名文字列において、付属語として識別された平仮名
文字列部分と、付属語以外の平仮名文字列部分とが確定
し(ステップS11)、付属語として識別された平仮名
文字列部分を一形態素として取り扱い、付属語以外の平
仮名文字列部分を連続平仮名文字列(この段階での未登
録語)として検出することができる。この際、連続平仮
名文字列として検出された平仮名文字列部分は、平仮名
文字列保持バッファ7において、他の文字列部分と区別
される形態で保持される(例えば、フラグなどが付され
る)。また、表示部11には、連続平仮名文字列として
検出された平仮名文字列部分を、利用者の必要に応じた
形態で(例えば、白黒反転表示などにより)、他の文字
列と区別して表示することができる(ステップS12乃
至S14)。
When the first character is no longer an adjunct word after repeating the processing of steps S7 to S10, in this hiragana character string, the hiragana character string portion identified as an adjunct word and the hiragana character string other than the adjunct word And the hiragana character string portion identified as an adjunct word is treated as a morpheme, and the hiragana character string portion other than the adjunct word is detected as a continuous hiragana character string (unregistered word at this stage). can do. At this time, the hiragana character string portion detected as the continuous hiragana character string is held in the hiragana character string holding buffer 7 in a form distinguishable from other character string portions (for example, a flag or the like is attached). In addition, the display unit 11 displays the hiragana character string portion detected as the continuous hiragana character string in a form according to the user's need (for example, by black and white reverse display) and distinguishes it from other character strings. (Steps S12 to S14).

【0036】この状態で、利用者により、例えば変換キ
ーなどが操作されて仮名漢字変換要求が出されると(仮
名漢字変換モ−ドが選択されると)(ステップS1
5)、表示制御部10は、表示部11の表示画面を形態
素解析用の表示から仮名漢字変換用の表示に切替える
(ステップS16)。また、辞書引き制御部2は、辞書
22の検索形態を仮名文字列(読み)による検索に切替
える(ステップS17)。この段階で、仮名漢字変換部
8は、利用者とのマンマシンインタフェ−スにより、平
仮名文字列保持バッファ7に保持されている連続平仮名
文字列を仮名漢字変換し(ステップS18)、その結果
を変換文字列バッファ9に格納するとともに、表示部1
1に表示する(ステップS19)。この変換結果が利用
者の意図するものである場合、利用者が所定のキ−(例
えば、図示しないが確定キ−)を押下することによっ
て、変換結果が確定し(ステップS20)、仮名漢字変
換モ−ドから抜け(ステップS21)、制御が形態素解
析部5に移る。また、この段階で、辞書引き制御部2
は、辞書22の検索形態を表記による検索に切替える。
In this state, when the user operates a conversion key or the like to issue a kana-kanji conversion request (when the kana-kanji conversion mode is selected) (step S1).
5) The display control unit 10 switches the display screen of the display unit 11 from the display for morphological analysis to the display for Kana-Kanji conversion (step S16). Further, the dictionary lookup control unit 2 switches the search mode of the dictionary 22 to the search using the kana character string (reading) (step S17). At this stage, the kana-kanji conversion unit 8 performs kana-kanji conversion of the continuous hiragana character string held in the hiragana character string holding buffer 7 by the man-machine interface with the user (step S18), and the result is obtained. The display unit 1 stores the converted character string in the buffer 9.
No. 1 is displayed (step S19). If the conversion result is intended by the user, the conversion result is confirmed by the user pressing a predetermined key (for example, a confirmation key (not shown)) (step S20), and the kana-kanji conversion is performed. The mode is exited (step S21), and control is transferred to the morpheme analysis unit 5. Also, at this stage, the dictionary lookup control unit 2
Switches the search form of the dictionary 22 to the search by notation.

【0037】このようにして、制御が形態素解析部5に
移ったとき、形態素解析部5は、変換文字列バッファ9
に格納された仮名漢字変換結果,すなわち仮名漢字変換
された文字列に対して、形態素解析を行なう(ステップ
S22)。また、この際、連続平仮名文字列の直前形態
素と仮名漢字変換された連続平仮名文字列の先頭形態素
との接続チェック,連続平仮名文字列の直後の形態素と
仮名漢字変換された連続平仮名文字列の後尾形態素との
接続チェックも行なう。
In this way, when control is transferred to the morpheme analysis unit 5, the morpheme analysis unit 5 causes the converted character string buffer 9
Morphological analysis is performed on the kana-kanji conversion result stored in, that is, the kana-kanji converted character string (step S22). In addition, at this time, the connection between the immediately preceding morpheme of the continuous hiragana character string and the leading morpheme of the kana-kanji converted continuous hiragana character string is checked, the morpheme immediately after the continuous hiragana character string and the tail of the kana-kanji converted continuous hiragana string Also check the connection with morphemes.

【0038】ステップS22における形態素解析結果
は、形態素解析バッファ6に保持され、表示部11に表
示される(ステップS23)。この表示に基づき利用者
により形態素が確定すると(ステップS24)、形態素
解析部5は、仮名漢字変換のなされた部分を元の平仮名
文字列に変換し、すなわち元のテキスト文字列に復元し
(ステップS25)、このようにして、入力文の形態素
解析が終了する。
The morpheme analysis result in step S22 is held in the morpheme analysis buffer 6 and displayed on the display unit 11 (step S23). When the morpheme is determined by the user based on this display (step S24), the morpheme analysis unit 5 converts the kana-kanji converted portion into the original hiragana character string, that is, restores the original text character string (step S24). S25), in this way, the morphological analysis of the input sentence is completed.

【0039】次に具体例を説明する。入力部1から例え
ば図9(a)に示すような文字列「おおぜいの人がつうろ
をとおる。」が入力された場合、形態素解析部5は、先
ず、この文字列を形態素解析する。この形態素解析結果
は、表示部11に図9(b)に示すように表示される。
Next, a specific example will be described. When the character string “A large number of people are walking around” as shown in FIG. 9A is input from the input unit 1, the morphological analysis unit 5 first performs a morphological analysis on this character string. . This morphological analysis result is displayed on the display unit 11 as shown in FIG.

【0040】また、この際、図9(c)に示すように、
「おおぜいの」,「がつうろをとおる」が平仮名文字列
として判定され、平仮名文字列保持バッファ7に保持さ
れる。なお、この形態素解析処理では、辞書引き制御部
2は、辞書22に対して表記による検索を行なうように
なっているので、上記平仮名文字列において「おおぜ
い」,「つうろ」,「とおる」はこの段階では未登録語
として処理される。形態素解析部5は、上記のように平
仮名文字列保持バッファ7に保持された平仮名文字列の
うち、先ず、平仮名文字列「おおぜいの」に着目し、こ
の先頭の文字「お」に直前形態素があるか否かを調べ
る。いまの場合、先頭の文字「お」には、直前形態素が
ないので、この文字「お」を先頭文字とした平仮名文字
列「おおぜいの」が連続平仮名文字列として判別され
る。また、形態素解析部5は、次に、平仮名文字列「が
つうろをとおる」に着目し、この先頭の文字「が」に直
前形態素があるか否かを調べる。いまの場合、先頭の文
字「が」には、直前形態素として「人」があり、文字
「が」は、「人」の付属語であるとして判断され、格助
詞「が」の一形態素として判定される。次いで、一文字
ずらし、文字「つ」について同様に調べるが、文字
「つ」は、直前形態素が格助詞「が」であるので、この
文字「つ」を先頭文字とした平仮名文字列「つうろをと
おる」が連続平仮名文字列として判別される。
At this time, as shown in FIG. 9 (c),
“Ozei no” and “go gakuro” are determined as hiragana character strings and are held in the hiragana character string holding buffer 7. In this morphological analysis process, the dictionary lookup control unit 2 is designed to search the dictionary 22 by notation. Therefore, in the above Hiragana character string, "Ozei", "Tsuro", and "Toru" Is treated as an unregistered word at this stage. Of the hiragana character strings held in the hiragana character string holding buffer 7 as described above, the morphological analysis unit 5 first pays attention to the hiragana character string “Ozei no” and immediately before the leading character “o”. Check whether there is a morpheme. In this case, since the leading character "O" has no immediately preceding morpheme, the hiragana character string "Ozei no" having this character "O" as the leading character is determined as a continuous hiragana character string. Further, the morpheme analysis unit 5 next pays attention to the hiragana character string “go through” and checks whether or not the leading character “ga” has the immediately preceding morpheme. In the present case, the first character "ga" has "person" as the immediately preceding morpheme, and the character "ga" is determined to be an adjunct word to "person", and is determined as one morpheme of the case particle "ga". To be done. Next, the character is shifted by one character, and the character "tsu" is similarly examined. However, the character "tsu" is the case particle "ga" as the immediately preceding morpheme, so the hiragana character string "tsuuro "Toru" is determined as a continuous hiragana character string.

【0041】このように、図9(a)の文字列から図9
(d)のような2つの連続平仮名文字列「おおぜいの」,
「つうろをとおる」が抽出されると、これらは平仮名文
字列保持バッファ7に例えばフラグ等を付して判別可能
に保持され、また、表示部11に、必要に応じた形態で
(例えば白黒反転で)表示される。
Thus, from the character string of FIG. 9 (a) to FIG.
Two consecutive hiragana character strings "Ozei no" like (d),
When “Thurs through the strings” are extracted, these are held in the hiragana character string holding buffer 7 so as to be distinguishable by, for example, attaching a flag or the like, and are also displayed on the display unit 11 in a required form (eg, black and white). It is displayed (inverted).

【0042】この段階で、利用者が仮名漢字変換モ−ド
を選択すると、辞書検索形態が仮名文字列による検索形
態に代わる。いま、辞書22に、仮名文字列「おおぜ
い」,「つうろ」,「とおる」に対応させて、漢字「大
勢」,「通路」,「通る」が登録されている場合、仮名
漢字変換部8は、図9(d)の2つの連続平仮名文字列を
図9(e)のような文字列「大勢の」,「通路を通る」に
仮名漢字変換し、この仮名漢字変換結果を表示部11に
表示する。利用者は、この表示を見て、意図したものに
変換されたか否かを確認し、意図したものとなっている
場合には、例えば確定キ−(図示せず)を選択して、仮
名漢字変換処理を終了させる。
At this stage, when the user selects the kana-kanji conversion mode, the dictionary search form is replaced by the kana character string search form. If the kanji “massive”, “passage”, “pass” is registered in the dictionary 22 in correspondence with the kana character strings “Ozei”, “tsuuro”, and “toru”, kana-kanji conversion The section 8 converts the two consecutive hiragana character strings in FIG. 9 (d) into the character strings “large number” and “passage” as shown in FIG. 9 (e) and displays the kana-kanji conversion result. It is displayed on the part 11. The user looks at this display and confirms whether or not it has been converted to the intended one. If it is the intended one, for example, the confirmation key (not shown) is selected, and kana kanji End the conversion process.

【0043】これにより、再度、形態素解析部5に制御
が移り、形態素解析部5は、仮名漢字変換された状態で
の入力文字列に対して再度解析を行ない、接続チェック
する。例えば、連続平仮名文字列「つうろをとおる」に
関しては、「通路」,「を」,「とおる」に形態素解析
し、連続平仮名文字列「つうろをとおる」の直前形態素
(すなわち、「が」の形態素)と仮名漢字変換された連
続平仮名文字列の先頭形態素(すなわち、「通路」の形
態素)との接続チェックを行ない、また、連続平仮名文
字列「つうろをとおる」の直後の形態素(すなわ
ち、「。」の形態素)と仮名漢字変換された連続平仮名
文字列の後尾形態素(すなわち、「通る」の形態素)と
の接続チェックを行なう。このようにして、再度の解
析,接続チェックがなされた後、形態素を同定する。こ
の結果、平仮名表記では、辞書に存在せず未登録語とな
っていた語が、漢字に変換されることで形態素解析可能
となり、図9(a)の入力文字列については、図9(f)の
ような形態素解析結果を得ることができる。この形態素
解析結果は、表示部11に表示され、これが利用者の意
図したものとなっている場合、利用者は確定キ−を選択
する。確定キ−が選択されると、図9(f)の各形態素
は、図9(g)のように元のテキストの表記に復元され、
図9(a)の文字列についての形態素解析を完了する。
As a result, the control is transferred to the morpheme analysis unit 5 again, and the morpheme analysis unit 5 analyzes the input character string in the Kana-Kanji converted state again and checks the connection. For example, for the continuous hiragana character string "Touro Toru", the morpheme is analyzed into "passage,""o," and "Toru," and the morpheme immediately preceding the continuous Hiragana character string "Touro Toru" (that is, "ga" Morpheme) and the leading morpheme of the kana-kanji converted continuous hiragana character string (that is, the morpheme of the "passage"), and also the morpheme immediately after the continuous hiragana character string "Tsuurou Toru" (that is, , ".") And the trailing morpheme (that is, "pass" morpheme) of the kana-kanji converted continuous hiragana character string. In this way, the morpheme is identified after the analysis and connection check are performed again. As a result, in the Hiragana notation, a word that does not exist in the dictionary and becomes an unregistered word can be converted into kanji to be morphologically analyzed, and the input character string in FIG. ) Can be obtained. This morpheme analysis result is displayed on the display unit 11, and if this is what the user intended, the user selects the confirmation key. When the confirmation key is selected, each morpheme of FIG. 9 (f) is restored to the original text notation as shown in FIG. 9 (g),
The morpheme analysis on the character string in FIG. 9A is completed.

【0044】[0044]

【発明の効果】以上に説明したように、請求項1記載の
発明によれば、漢字仮名混じりの日本語文を入力する入
力手段と、形態素解析用辞書と、入力手段により入力さ
れた日本語文を形態素解析用辞書を用いて形態素解析
し、また、該日本語文から平仮名文字列を抽出する形態
素解析手段と、抽出された平仮名文字列を利用者の必要
に応じ仮名漢字変換する仮名漢字変換手段とを有し、形
態素解析手段は、仮名漢字変換された結果の文字列を再
度形態素解析するようになっているので、未登録語とし
て処理される可能性の高かった平仮名文字列の多い日本
語文についても、形態素解析用辞書の容易を増加させず
に、さらには形態素解析用辞書を何ら変更せずに、未登
録語の個数を減少させることができ、正確な形態素解析
結果を得ることができる。
As described above, according to the invention of claim 1, the input means for inputting a Japanese sentence mixed with kanji and kana, the morphological analysis dictionary, and the Japanese sentence input by the input means are stored. Morphological analysis using a morphological analysis dictionary, and morphological analysis means for extracting hiragana character strings from the Japanese sentence, and kana-kanji conversion means for converting the extracted hiragana character strings into kana-kanji characters as required by the user. Since the morpheme analysis means is configured to perform morpheme analysis again on the character string resulting from Kana-Kanji conversion, Japanese sentences with many Hiragana character strings that were likely to be processed as unregistered words Also, the number of unregistered words can be reduced without increasing the ease of the morphological analysis dictionary and without changing the morphological analysis dictionary, and accurate morphological analysis results can be obtained. That.

【0045】また、請求項2,請求項3記載の発明によ
れば、形態素解析用辞書は、仮名漢字変換用の辞書と1
つにまとめられたものとして構成されており、この場
合、該辞書を形態素解析用の検索形態と仮名漢字変換用
の検索形態とのいずれかに切替えるための辞書引き制御
手段がさらに設けられているので、この辞書を両方の処
理で共用できて、システム全体の辞書容量を低減でき、
非常にコンパクトなシステムを実現することができる。
According to the second and third aspects of the invention, the morphological analysis dictionary is a kana-kanji conversion dictionary and a morphological analysis dictionary.
In this case, dictionary lookup control means for switching the dictionary between a search form for morphological analysis and a search form for kana-kanji conversion is further provided. Therefore, this dictionary can be shared by both processes, and the dictionary capacity of the entire system can be reduced.
A very compact system can be realized.

【0046】また、請求項4記載の発明によれば、形態
素解析手段は、入力された日本語文の文字種の違いを判
定して、平仮名文字列を抽出し、抽出された平仮名文字
列の文字に対して、その前後の形態素との接続チェック
を行なって付属語であるか否かを判定し、付属語である
と判定された文字部分については一形態素として取り扱
い、付属語と判定されなかった文字部分については、仮
名漢字変換対象としての連続平仮名文字列として判別す
るので、仮名漢字変換対象となる部分を明確に割り出
し、仮名漢字変換を正しく行なわせることができる。
According to the invention described in claim 4, the morpheme analysis means determines the difference in the character type of the input Japanese sentence, extracts the hiragana character string, and extracts the hiragana character string into the extracted characters. On the other hand, it is determined whether or not it is an adjunct word by performing a connection check with the morphemes before and after it, and the character part that is determined to be an adjunct word is treated as one morpheme, and the character that is not determined to be an adjunct word. Since the part is determined as a continuous hiragana character string to be converted to kana-kanji, the part to be converted to kana-kanji can be clearly identified and kana-kanji conversion can be performed correctly.

【0047】また、請求項5記載の発明によれば、形態
素解析手段は、仮名漢字変換された結果の文字列を再度
形態素解析したときに、連続平仮名文字列の直前形態素
と仮名漢字変換された文字列の先頭形態素との接続チェ
ックと、連続平仮名文字列の直後の形態素と仮名漢字変
換された文字列の後尾形態素との接続チェックとを行な
うようになっているので、仮名漢字変換時に複数の候補
が存在する場合、候補を絞り込むことができる。
Further, according to the invention described in claim 5, when the morpheme analysis means again performs morpheme analysis on the character string resulting from the kana-kanji conversion, the morpheme immediately before the continuous hiragana character string and kana-kanji conversion are performed. It is designed to perform a connection check with the leading morpheme of the character string and a connection between the morpheme immediately after the continuous hiragana character string and the tail morpheme of the converted kana-kanji character. If there are candidates, they can be narrowed down.

【0048】また、請求項6記載の発明によれば、形態
素解析手段は、仮名漢字変換された結果の文字列を再度
形態素解析した後に、仮名漢字変換された結果の文字列
を元の平仮名文字列に復元するようになっているので、
元の日本語文で形態素解析がなされたような結果を最終
的に得ることができる。
Further, according to the invention described in claim 6, the morpheme analyzing means performs the morpheme analysis again on the character string resulting from the kana-kanji conversion, and then returns the character string resulting from the kana-kanji conversion to the original hiragana character. Since it is supposed to be restored to the column,
It is possible to finally obtain the result as if the morphological analysis was performed on the original Japanese sentence.

【0049】また、請求項7乃至請求項9記載の発明に
よれば、さらに、表示手段と、前記表示手段の表示形態
を形態素解析処理用,仮名漢字変換用のいずれにするか
を切替える表示制御手段とを有しているので、利用者
は、形態素解析処理時,仮名漢字変換処理時のいずれに
おいても、これらの処理結果等を容易に確認し、把握す
ることができる。
Further, according to the inventions of claims 7 to 9, a display control for switching between the display means and the display form of the display means for morphological analysis processing or kana-kanji conversion. Since the means is provided, the user can easily confirm and grasp the processing results and the like at both the morphological analysis processing and the kana-kanji conversion processing.

【0050】特に、請求項8記載の発明によれば、表示
制御手段は、形態素解析処理用の表示を、利用者の必要
に応じて仮名漢字変換処理用の表示に切替えるようにな
っているので、利用者は現在どの処理を行なっているの
かを常に把握することができる。
In particular, according to the invention described in claim 8, the display control means is adapted to switch the display for morphological analysis processing to the display for kana-kanji conversion processing according to the need of the user. The user can always keep track of which process is currently being performed.

【0051】また、請求項9記載の発明によれば、表示
制御手段は、形態素解析処理において連続平仮名文字列
が抽出された際に、該連続平仮名文字列の部分を他の部
分と区別可能な形態で表示するようになっているので、
どの部分の文字列が仮名漢字変換の必要なものであるか
を明瞭に示すことができる。
According to the ninth aspect of the invention, the display control means can distinguish the part of the continuous hiragana character string from other parts when the continuous hiragana character string is extracted in the morphological analysis process. Since it is designed to be displayed in the form,
It is possible to clearly indicate which part of the character string is necessary for kana-kanji conversion.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明に係る言語処理システムの一実施例のブ
ロック図である。
FIG. 1 is a block diagram of an embodiment of a language processing system according to the present invention.

【図2】形態素解析用辞書の一例を示す図である。FIG. 2 is a diagram showing an example of a morphological analysis dictionary.

【図3】仮名漢字変換辞書の一例を示す図である。FIG. 3 is a diagram showing an example of a kana-kanji conversion dictionary.

【図4】図1の言語処理システムの変形例を示す図であ
る。
FIG. 4 is a diagram showing a modification of the language processing system of FIG.

【図5】図4の言語処理システムの辞書の一例を示す図
である。
5 is a diagram showing an example of a dictionary of the language processing system of FIG.

【図6】図4の言語処理システムの処理動作を示すフロ
−チャ−トである。
6 is a flowchart showing a processing operation of the language processing system of FIG.

【図7】図4の言語処理システムの処理動作を示すフロ
−チャ−トである。
7 is a flowchart showing a processing operation of the language processing system of FIG.

【図8】図4の言語処理システムの処理動作を示すフロ
−チャ−トである。
8 is a flowchart showing a processing operation of the language processing system of FIG.

【図9】本発明の言語処理システムの具体的な処理例を
示す図である。
FIG. 9 is a diagram showing a specific processing example of the language processing system of the present invention.

【符号の説明】[Explanation of symbols]

1 入力部 2 辞書引き制御部 4 接続テ−ブル 5 形態素解析部 6 形態素保持バッファ 7 平仮名文字列保持バッファ 8 仮名漢字変換部 9 変換文字列バッファ 10 表示制御部 11 表示部 12 形態素解析用辞書 22 辞書 DESCRIPTION OF SYMBOLS 1 input unit 2 dictionary lookup control unit 4 connection table 5 morpheme analysis unit 6 morpheme holding buffer 7 Hiragana character string holding buffer 8 Kana-Kanji conversion unit 9 conversion character string buffer 10 display control unit 11 display unit 12 morpheme analysis dictionary 22 dictionary

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 8125−5L 15/38 E ─────────────────────────────────────────────────── ─── Continuation of the front page (51) Int.Cl. 6 Identification code Office reference number FI technical display location 8125-5L 15/38 E

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 漢字仮名混じりの日本語文を入力する入
力手段と、形態素解析用辞書と、前記入力手段により入
力された日本語文を前記形態素解析用辞書を用いて形態
素解析し、また、該日本語文から平仮名文字列を抽出す
る形態素解析手段と、抽出された平仮名文字列を利用者
の必要に応じ仮名漢字変換する仮名漢字変換手段とを有
し、前記形態素解析手段は、仮名漢字変換された結果の
文字列を再度形態素解析するようになっていることを特
徴とする言語処理システム。
1. An input unit for inputting a Japanese sentence mixed with Kanji and Kana, a morphological analysis dictionary, and a Japanese sentence input by the input unit are morphologically analyzed using the morphological analysis dictionary, and the Japanese sentence is also analyzed. It has a morpheme analysis means for extracting a hiragana character string from a word sentence, and a kana-kanji conversion means for converting the extracted hiragana character string into kana-kanji characters as needed by the user, and the morpheme analysis means is kana-kanji converted. A language processing system characterized in that the resulting character string is again subjected to morphological analysis.
【請求項2】 請求項1記載の言語処理システムにおい
て、前記形態素解析用辞書は、仮名漢字変換用の辞書と
1つにまとめられたものとして構成されており、この場
合、該辞書を形態素解析用の検索形態と仮名漢字変換用
の検索形態とのいずれかに切替えるための辞書引き制御
手段がさらに設けられていることを特徴とする言語処理
システム。
2. The language processing system according to claim 1, wherein the morphological analysis dictionary is configured as one combined with a kana-kanji conversion dictionary. In this case, the morphological analysis dictionary is used. A language processing system further comprising dictionary lookup control means for switching between a search form for Kana and Kana-Kanji conversion.
【請求項3】 請求項1記載の言語処理システムにおい
て、前記辞書は、少なくとも単語の表記と単語の読みと
品詞情報とを有しており、前記辞書引き制御手段は、辞
書の検索形態を、形態素解析がなされているときには、
表記による検索形態に切替え、また、仮名漢字変換がな
されているときには、読みによる検索形態に切替え制御
するようになっていることを特徴とする言語処理システ
ム。
3. The language processing system according to claim 1, wherein the dictionary has at least word notation, word reading, and part-of-speech information, and the dictionary lookup control means sets a dictionary search form to: When morphological analysis is done,
A language processing system characterized by being switched to a search form based on notation, and being controlled to be switched to a search form based on reading when kana-kanji conversion is performed.
【請求項4】 請求項1記載の言語処理システムにおい
て、前記形態素解析手段は、入力された日本語文の文字
種の違いを判定して平仮名文字列を抽出し、抽出された
平仮名文字列の文字に対して、その前後の形態素との接
続チェックを行なって付属語であるか否かを判定し、付
属語であると判定された文字部分については一形態素と
して取り扱い、付属語と判定されなかった文字部分につ
いては、仮名漢字変換対象としての連続平仮名文字列と
して判別することを特徴とする言語処理システム。
4. The language processing system according to claim 1, wherein the morpheme analysis unit determines a difference in the character type of the input Japanese sentence, extracts a hiragana character string, and extracts the hiragana character string as a character. On the other hand, it is determined whether or not it is an adjunct word by performing a connection check with the morphemes before and after it, and the character part that is determined to be an adjunct word is treated as one morpheme, and the character that is not determined to be an adjunct word. The language processing system is characterized in that the part is determined as a continuous hiragana character string to be converted into kana-kanji.
【請求項5】 請求項1記載の言語処理システムにおい
て、前記形態素解析手段は、仮名漢字変換された結果の
文字列を再度形態素解析したときに、連続平仮名文字列
の直前形態素と仮名漢字変換された連続平仮名文字列の
先頭形態素との接続チェックと、連続平仮名文字列の直
後の形態素と仮名漢字変換された連続平仮名文字列の後
尾形態素との接続チェックとを行なうようになっている
ことを特徴とする言語処理システム。
5. The language processing system according to claim 1, wherein the morpheme analysis means performs kana-kanji conversion with the morpheme immediately preceding the continuous hiragana kana character string when the character string resulting from the kana-kanji conversion is subjected to morpheme analysis again. It is characterized by performing a connection check with the leading morpheme of the continuous hiragana character string and a connection check between the morpheme immediately after the continuous hiragana character string and the tail morpheme of the kana-kanji converted continuous hiragana character string. And language processing system.
【請求項6】 請求項1記載の言語処理システムにおい
て、前記形態素解析手段は、仮名漢字変換された結果の
文字列を再度形態素解析した後に、仮名漢字変換された
結果の文字列を元の平仮名文字列に復元するようになっ
ていることを特徴とする言語処理システム。
6. The language processing system according to claim 1, wherein the morpheme analysis unit performs morpheme analysis again on the character string resulting from the kana-kanji conversion, and then returns the character string resulting from the kana-kanji conversion to the original hiragana. A language processing system characterized by being restored to a character string.
【請求項7】 請求項1記載の言語処理システムにおい
て、さらに、表示手段と、前記表示手段の表示形態を形
態素解析処理用,仮名漢字変換用のいずれにするかを切
替える表示制御手段とを有していることを特徴とする言
語処理システム。
7. The language processing system according to claim 1, further comprising display means and display control means for switching the display form of the display means between morphological analysis processing and kana-kanji conversion. A language processing system characterized by being.
【請求項8】 請求項7記載の言語処理システムにおい
て、前記表示制御手段は、形態素解析処理用の表示を、
利用者の必要に応じて仮名漢字変換処理用の表示に切替
えるようになっていることを特徴とする言語処理システ
ム。
8. The language processing system according to claim 7, wherein the display control means displays a display for morphological analysis processing.
A language processing system characterized by switching to a display for Kana-Kanji conversion processing according to the needs of the user.
【請求項9】 請求項7記載の言語処理システムにおい
て、前記表示制御手段は、形態素解析処理において連続
平仮名文字列が抽出された際に、該連続平仮名文字列の
部分を他の部分と区別可能な形態で表示するようになっ
ていることを特徴とする言語処理システム。
9. The language processing system according to claim 7, wherein the display control means can distinguish a part of the continuous hiragana character string from another part when the continuous hiragana character string is extracted in the morphological analysis process. A language processing system characterized by being displayed in various forms.
JP18930193A 1993-06-30 1993-06-30 Language processor Expired - Fee Related JP3410163B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18930193A JP3410163B2 (en) 1993-06-30 1993-06-30 Language processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18930193A JP3410163B2 (en) 1993-06-30 1993-06-30 Language processor

Publications (2)

Publication Number Publication Date
JPH0785030A true JPH0785030A (en) 1995-03-31
JP3410163B2 JP3410163B2 (en) 2003-05-26

Family

ID=16239048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18930193A Expired - Fee Related JP3410163B2 (en) 1993-06-30 1993-06-30 Language processor

Country Status (1)

Country Link
JP (1) JP3410163B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287710A (en) * 2003-03-20 2004-10-14 Fuji Xerox Co Ltd Language processing system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287710A (en) * 2003-03-20 2004-10-14 Fuji Xerox Co Ltd Language processing system

Also Published As

Publication number Publication date
JP3410163B2 (en) 2003-05-26

Similar Documents

Publication Publication Date Title
US7110939B2 (en) Process of automatically generating translation-example dictionary, program product, computer-readable recording medium and apparatus for performing thereof
US5418718A (en) Method for providing linguistic functions of English text in a mixed document of single-byte characters and double-byte characters
JPH0696056A (en) Character input device
JP3410163B2 (en) Language processor
JPH10320399A (en) Language identification device and method therefor and recording medium for recording program of language identification
JPH01259448A (en) Kanji input system
JPH08297663A (en) Device and method for correcting input error
KR0164405B1 (en) Word processor of mode selection
JPH0154744B2 (en)
JP3220133B2 (en) Kana-Kanji conversion device
JPH0612453A (en) Unknown word extracting and registering device
JP2761622B2 (en) Character converter
JPH08171568A (en) Multilingual input method
JPH0594431A (en) Japanese sillabary converter
JPH0421901B2 (en)
JPS60207948A (en) "kana"/"kanji" conversion processor
KR960015316A (en) Korean-English automatic switching method
JPH07104863B2 (en) Kana-Kanji converter
JPH07302263A (en) Keyboard with roman character input control function
JPS6175466A (en) Kana (japanese syllabary) and kanji (chinese character) converting device
JPH02122367A (en) Kana/kanji converter
JPH02257279A (en) Character processor
JPH1185751A (en) Translation device and medium storing translation device control program
JPH0443308B2 (en)
JPH034358A (en) Kana/kanji conversion system

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees