JP2001043221A - 中国語単語分割装置 - Google Patents

中国語単語分割装置

Info

Publication number
JP2001043221A
JP2001043221A JP11215119A JP21511999A JP2001043221A JP 2001043221 A JP2001043221 A JP 2001043221A JP 11215119 A JP11215119 A JP 11215119A JP 21511999 A JP21511999 A JP 21511999A JP 2001043221 A JP2001043221 A JP 2001043221A
Authority
JP
Japan
Prior art keywords
word
chinese
candidate
character
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11215119A
Other languages
English (en)
Inventor
Shunkitsu Kaku
俊桔 郭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP11215119A priority Critical patent/JP2001043221A/ja
Priority to US09/618,293 priority patent/US6879951B1/en
Priority to SG200004106A priority patent/SG97898A1/en
Priority to TW089114951A priority patent/TW473674B/zh
Publication of JP2001043221A publication Critical patent/JP2001043221A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 中国語センテンスを単語分割処理する中国語
単語分割装置を提供する。 【解決手段】 中国語単語分割装置は、異なる発音を有
する文字の辞書と、文字音標辞書と、システム辞書と、
構文情報部と、意味情報部と、文字−発音変換部と、候
補単語選択部と、最適文字列決定部と、単語分割マーキ
ング部とを備えている。文字−発音変換部は、異なる発
音を有する文字の辞書と文字音標辞書とに照会して中国
語の文字列を音標記号列に変換する。候補単語選択部
は、音標記号列を音節に区切り、システム辞書からすべ
ての考えられる候補単語を得て、中国語の文字列に照会
して不適格候補単語をすべて放棄する。最適文字列決定
部は、放棄されなかった候補単語の同義度優先度と構文
優先度を計算し、それらに基づく総合評価を得て、最適
な単語分割を実現するルートを見つける。単語分割マー
キング部は、最適ルートで候補単語を検索し、それに単
語分割マーカを付加する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータ技術
を利用して中国語のセンテンスを単語に分割する中国語
単語分割装置に関する。
【0002】
【従来の技術】コンピュータ用途の研究が盛んなこの時
代にあって、中国語や英語などの自然言語の処理の研究
分野でも、コンピュータを利用することがよく行われて
いる。自動翻訳、スピーチ処理、テキスト自動修正、コ
ンピュータ援用教育等は、一般に自然言語処理と呼ばれ
ている。自然言語のセンテンスを分析処理する場合、そ
の段階は、順番に、入力、単語分割、構文解析、および
意味解析に分けることができる。単語分割とは、入力さ
れたセンテンス中の文字列シーケンスを単語列に変換す
るプロセスのことを言う。例えば、入力センテンスが
「昨天下雨」 である場合、考えられうる単語分割は、
「昨 * 天 * 下 * 雨」、「昨天 * 下 * 雨」、「昨 *
天 * 下雨」、「昨* 天下 * 雨」、「昨天 * 下雨」な
どである。コンピュータを利用して、候補の単語から
「昨天 * 下雨」 という正しい結果を速やかに見出すプ
ロセスが、単語分割技術である。単語分割の質が悪い
と、構文解析の質と意味解析の質を向上させたとして
も、言語分析の質は向上されない。従って、コンピュー
タによる中国語単語分割の質を改善できるかどうかが重
大な論題となっている。
【0003】図11は、「Automatic Wor
d Identificationin Chines
e Sentences by the Relaxa
tion Technique」(1987 Repu
blic of China National Co
mputer Conference Papers、
pp. 423−431)と題された記事に開示されて
いるような、従来の中国語単語分割技術の実施態様のプ
ロセスフローチャートを示す。
【0004】図示されるように、1115は、単語と、
単語長と、単語の使用頻度を格納するための辞書であ
る。ステップ1101で、入力装置を使用して中国語の
センテンスを入力する。 ステップ1105で、辞書1
115を利用して、入力された中国語センテンス中のす
べての考えられる単語を探し出す。ステップ1110
で、辞書1115の助けを借りて、それぞれの文字を、
その文字が属する可能性のある単語に割り当て、その割
当てにしたがって初期確率を算出する。ステップ112
0で、単語間の関係を解析し、それらの単語のマッチン
グ率を算出する。ステップ1130で、この確率とマッ
チング率を利用して、緩和反復(relaxation
iterative)計算を実施する。考えられる単
語の割当ての確率分布は、最終条件が満足されるまで間
断なく調整される。反復計算は最終条件が満足された時
に終了できる。
【0005】ステップ1140で、最適な単語分割結果
をプリンタに出力して、処理が完了する。緩和反復計算
は、すべての単語割当の初期確率を、所定の確率補正公
式に照会することによって、補正確率値を求めるプロセ
スである。図12の例示的な処理例において、入力され
たセンテンス「把他的確實行動做了分析」について7回
実行した後、緩和反復計算の結果が1になった個所が単
語分割結果を示す。誤った単語分割結果は、次第にほぼ
0に縮約する。このように、意味または構文の情報の助
けを借りなければ、中国語の単語分割は、精度約95%
でしか達成できない。
【0006】
【発明が解決しようとする課題】前述の中国語単語分割
技術には、次のような欠点がある。
【0007】1.それぞれの単語の使用頻度および初期
確率を算出するのに大きな中国語語彙データベースが必
要であるが、そのような中国語語彙データベースは簡単
に得られない。
【0008】2.緩和反復計算のときにマッチング率の
定義が不適切だと、マッチング率の縮約に失敗しやくな
ったり、最適な解を与えない振動現象が生じる。
【0009】3.緩和反復は繰返し計算を要するので、
より長い計算時間が必要であり、動作効率に悪影響を及
ぼす。
【0010】4.自動翻訳などのある用途に対しては9
5%という単語分割精度は不適切である。
【0011】本発明の主たる目的は、従来技術に関する
前述の欠点を克服できる中国語単語分割装置を提供する
ことである。
【0012】
【課題を解決するための手段】前述の問題を解決するた
めに、本発明は、音標(phonetic)記号情報を利用する
コンピュータ技術を採用して問題のある確率計算を置き
換え、僅かな意味/構文規則を利用して入力された中国
語センテンスの単語分割処理を行う中国語単語分割装置
を提供する。
【0013】この中国語単語分割装置は、異なる発音を
有する中国語のすべての文字と、異なる発音を有する文
字に対応するすべての文字音標記号と、文字音標記号の
それぞれに対応するすべての候補単語および該候補単語
に対応するすべての単語音標記号とを格納する、異なる
発音を有する文字の辞書と、中国語の文字と、文字に対
応する初期設定音標記号と、文字に対する他の考えられ
る音標記号とを全て格納する、文字音標辞書と、中国語
の文字または単語の音標記号と、音標記号に対応する、
同じに聞こえる競合文字または同じに聞こえる競合単語
と、同じに聞こえる競合文字または同じに聞こえる競合
単語のそれぞれに対応する使用頻度、構文マーカ、およ
び意味マーカとを格納するシステム辞書と、中国語で異
なる単語カテゴリを結合できるかどうかを示す、「1」
または「0」ビットから構成される2次元アレイを格納
する構文情報部と、中国語単語の後部意味コードと、こ
の後部意味コードに対応する考えられる前部意味コード
とを格納する意味情報部と、前述の異なる発音を有する
文字の辞書と文字音標辞書とに照会して、コンピュータ
に入力された中国語の文字列を音標記号列に変換する、
文字−発音変換部と、文字−発音変換部から伝送された
音標記号列を音節に区切り、音節のそれぞれをインデッ
クスタームとして利用することによってシステム辞書か
らすべての考えられる候補単語を得て、入力された中国
語の文字列に照会することにより不適格候補単語をすべ
て放棄する候補単語選択部と、入力された文字列内の放
棄されなかった候補単語のそれぞれの開始および終了位
置を利用して方向性ネットワークの形態で候補単語を相
互結合し、連続した候補単語2つずつを、その構文マー
カおよび意味マーカを考慮しながら構文情報部と意味情
報部とに照会することによって、各候補単語の同義度優
先度と構文優先度を計算し、使用頻度優先度、単語長優
先度、構文優先度、および同義度優先度の関数である総
合評価を得て、動的プログラミング法を利用して単語分
割に対する最適評価グレードの単語分割を達成するルー
トを見つける最適文字列決定部と、最適ルートで候補単
語を検索し、それに単語分割マーカを付加する単語分割
マーキング部とに特徴を有する。
【0014】本発明の中国語単語分割装置の構造によれ
ば、文字−発音変換部は、入力されたセンテンス内の文
字をインデックスタームとして利用して、文字音標辞書
および異なる発音を有する文字の辞書に照会しながら、
入力されたセンテンスを音標記号列に変換する。その
後、候補単語選択部は、音標記号をインデックスターム
として用いてシステム辞書から音標記号列中のすべての
考えられる候補単語を検索し、バッファ領域において入
力されたセンテンス内の文字に照会することによって考
えられる候補単語を確認する。その後、最適候補文字列
決定部は、意味情報部と構文情報部に照会して、考えら
れる候補単語の使用頻度優先度、単語長優先度、同義度
優先度、および構文優先度の関数である総合評価を出し
て、最適な単語分割ルートを見出す。単語分割マーキン
グ部が、バッファ領域から入力された文字列を検索し、
最適ルートに照会しながら入力された文字列に単語分割
マーカを付加した後、これを出力する。
【0015】本発明の中国語単語分割装置は、コンピュ
ータシステム内の文字音標情報を利用して、コンピュー
タに入力された中国語のセンテンスを単語分割処理する
技術に関する。 まず、中国語単語分割装置の文字−発
音変換部が、文字音標辞書と、異なる発音を有する文字
の辞書とに照会しながら、コンピュータシステムの入力
部から入力された中国語のセンテンスを音標記号列に変
換する。 その後、候補単語選択部が、システム辞書に
照会し、音標信号をインデックスタームとして利用して
音標記号列内のすべての考えられる候補文字および単語
と、使用頻度等の関連情報とを検索する。入力されたセ
ンテンスの文字および結合された候補単語中の構文の競
合を参照しながら、一致手段によって不適格候補文字ま
たは単語が放棄される。その後、最適文字列決定部が、
インデックスタームとして入力されたセンテンス中のそ
れぞれの候補文字または単語の開始または終了位置を利
用して、候補単語ネットワークを構築する。意味情報部
と構文情報部とに照会しながら、使用頻度優先度、単語
長優先度、同義度優先度、および構文優先度を組合わせ
て総合評価が出される。次に、動的プログラミング法に
よって単語分割の最適ルートを求める。最後に、単語分
割マーキング部が、最適ルートに照会しながら単語分割
マーカを入力されたセンテンスに付加し、中国語単語分
割装置の単語分割を終了する。本発明の装置は、98%
を越える単語分割精度を実現できる。本発明は、面倒な
反復計算を必要とせず、中国語単語分割時の作業効率お
よび精度を著しく増大する。
【0016】以下、作用を説明する。
【0017】本発明の中国語単語分割装置は、中国語の
文字列を音標記号列に変換し、その音標記号列、意味マ
ーカおよび構文マーカに基づいて単語の分割を行う。し
たがって、単語の初期確率を算出する必要がなくなるの
で大きな中国語語彙データベースが必要とならず、さら
に最適な解を得るための計算時間の短縮が可能となる。
【0018】さらに本発明の中国語単語分割装置は、音
標記号列を音節に区切り、システム辞書からすべての考
えられる候補単語を得て、中国語の文字列に照会して不
適格候補単語をすべて放棄する。したがって、不必要な
単語分割を行うことがなくなるので、実質的に操作効率
を上昇させることができる。
【0019】本発明の他の特徴および利益は、添付図面
を参照して以下の好適な実施の形態の詳細な説明で明ら
かになるであろう。
【0020】
【発明の実施の形態】本発明において、「意味」という
用語は、(意味コードで示される)単語の意味を示す。
本発明の好適な実施の形態には、日本の角川書店が発行
した1985年版類語辞典の意味分類法が使用されてい
る。この分類法では、単語の分類コードとして4つの十
六進数コードが採用されている。最も左側のコードは大
分類を示す。2番目のコードは中分類を示す。3番目の
コードは小分類を示す。最も右側のコードは細分類を示
す。この類語辞典中の全ての単語は、10の大分類、即
ち、自然、形状、変更、行動、心情、人物、性向、社
会、学芸、物品に分類される。それぞれの大分類は、更
に10の中分類に分けられる。以下に意味分類法の例を
示す。
【0021】 意味コード 内容 0 自然(大分類) 02 自然(大分類)の中の気象(中分類) 028 気象(中分類)の中の風(小分類) 028a 風(小分類)の中の強さ(細分類) 前述の階層型分類コードでは、意味コードのランクが高
くなればなるほど、それによってカバーされる意味コー
ドの範囲が広くなる。従って、意味コードのランクが低
いほど、それによってカバーされる意味コードの範囲が
狭くなる。このように、このような意味コードは、実際
の要件を満足するように適用することが可能である。例
えば、気象を表す場合に使用する必要があるのはコード
02だけである。コード02を、021、022等に拡
張してメモリ空間を減らす必要はない。また、これらの
意味コードは番号で表されるため、集合論理計算でそう
であるように、これら意味コードを数学的計算法で利用
して、意味コードの処理を行い、より多くの数値情報を
引き出すことが可能である。意味コードの詳細説明につ
いては、「Machine Translator A
pparatus」と題された中国特許第161238
号明細書を参照されたい。この引用文献の開示内容全体
は、本願明細書の一部を構成するものとする。
【0022】また、その開示内容全体が参考として本明
細書に引用される「ChineseCharacter
Transforming Apparatus(I
I)」と題された台湾(R.O.C)特許第08947
6号明細書によれば、中国語の音標(phoneti
c)記号列を文字列に変換するときに、単語長は、考慮
すべき重要な因子である。本実施の形態では、単語長優
先度も単語分割で検討されるべき因子のうちの1つであ
る。この計算を以下に示す。
【0023】単語長優先度 = (候補単語の文字数−1)
* 2 例えば、候補単語が「日月潭」の場合、単語長優先度は
(3−1)*2=4である。
【0024】また、本発明の好適な実施態様では、単語
分割の拡張因子として構文情報も要する。図9に示すよ
うに、構文情報は、二次元アレイを得るために、前後に
連接している2つの単語の、名詞、形容詞、動詞等とい
った単語カテゴリと照会する、マーク付き大語彙データ
ベースの自動学習を要する。0の値は、2つの単語カテ
ゴリが互いに置き換えることのできないものであること
を示し、1の値は、2つの単語カテゴリが互いに置き換
えることのできるものであることを示している。単語分
割評価因子としての構文優先度の定義は以下の通りであ
る。
【0025】構文優先度= (前部単語カテゴリ,後部
単語カテゴリ)の構文情報値*5また、本発明の実施態
様は、単語分割の拡張因子として意味情報も要する。図
10に示されるように、意味情報は、連続意味情報を得
るために、マーク付き大語彙データベースの自動学習を
要する。使用されている意味コードは階層型フォーマッ
トを採用しているので、連接する単語の同義度の計算
は、集合共通部分計算を利用して実行できる。例えば、
意味コード「7140」と意味コード「714a」の集
合共通部分計算の結果は、「714」である。計算結果
に3つのコードしか含まれないので、同義度は3/4と
見なされる。従って、結果に4つのコードが含まれる場
合には、同義度は1と見なされる。また、結果に2つの
コードしか含まれない場合には、同義度は1/2と見な
される。結果に1つのコードしか含まれない場合、同義
度は1/4と見なされる。結果が空集合の場合、同義度
は0と見なされる。
【0026】図1は、本発明による中国語単語分割装置
の好適な実施の形態の概略システムブロック図を示す。
【0027】この図に示されるように、250は、異な
る発音を有するすべての中国語文字と、異なる発音を有
する文字に対応するすべての文字音標記号と、文字音標
記号のそれぞれに対応するすべての候補単語および候補
単語音標記号とを格納するために使用される、異なる発
音を有する文字の辞書を示す。辞書250は図6に表示
されている。
【0028】260は、中国語の文字と、文字に対応す
る初期設定音標記号と、文字に関する他の考えられる音
標記号とを全て格納する、文字音標辞書を示す。文字音
標辞書260は図7に示されている。
【0029】350は、中国語の文字または単語の音標
記号と、音標記号のそれぞれに対応する、同じに聞こえ
る競合文字または同じに聞こえる競合単語と、同じに聞
こえる競合文字(similary sounding
conflictingwords)または同じに聞
こえる競合単語のそれぞれに対応する使用頻度、構文マ
ーカ、および意味マーカとを格納するシステム辞書を示
す。システム辞書350は図8に表示されている。
【0030】440は、中国語で異なる単語カテゴリを
結合できるかどうかを示す、「1」または「0」ビット
から構成される2次元アレイを格納するために使用され
る構文情報部を示す。構文情報部440は図9に表示さ
れている。
【0031】450は、中国語単語の後部意味コード
と、この後部意味コードに対応する考えられる前部意味
コードとを格納する意味情報部を示す。意味情報部45
0は図10に示されている。
【0032】100は、中国語の文字列を入力するため
の、キーボードなどの入力部を示す。
【0033】200は、前述の異なる発音を有する文字
の辞書250と文字音標辞書260とに照会して、入力
部100から入力された中国語の文字列を音標記号列に
変換する、文字−発音変換部を示す。
【0034】300は、文字−発音変換部から得た音標
記号列を音節に区切り、音節のそれぞれをインデックス
タームとして利用することによってシステム辞書350
からすべての考えられる候補単語を得て、入力部100
から入力された文字列に照会することにより不適格候補
単語をすべて放棄するために使用される候補単語選択部
である。
【0035】400は、最適候補文字列決定部を示す。
最適候補文字列決定部は、入力部100からインデック
スタームとして入力された文字列内の放棄されなかった
候補単語のそれぞれの開始および終了位置を利用して方
向性ネットワークの形態で候補単語を相互結合するため
に使用され、連続した候補単語2つずつを、その構文マ
ーカおよび意味マーカを考慮しながら構文情報部440
と意味情報部450とに照会することによって、同義度
優先度および構文優先度を計算するために使用され、使
用頻度優先度、単語長優先度、構文優先度、および同義
度優先度の関数である総合評価を得て、動的プログラミ
ング法を利用して最適評価グレードの単語分割を達成す
るルートを見出すために使用される。
【0036】500は、最適ルートで順に候補単語を検
索し、それに単語分割マーカを付加するために使用され
る単語分割マーキング部を示す。
【0037】600は、マークされた文字列を出力する
1出力部を示す。
【0038】700は、入力された文字列と中間処理結
果とを一時的に格納するメモリ装置から成るバッファ領
域を示す。
【0039】図2に、文字−発音変換部200のプロセ
スフローチャートを示す。
【0040】ステップS201で、入力部100から入
力された中国語の文字列をバッファ領域700に格納す
る。
【0041】ステップS205で、文字音標辞書260
に照会しながら入力された中国語センテンスを音節に切
る。
【0042】ステップS210で、文字音標辞書260
に照会しながら、異なる発音を有しない音節に分けられ
た文字の音標記号を生成する。
【0043】ステップS215で、文字列の末尾から先
頭の順に、異なる発音を有する文字の辞書250に照会
しながら、異なる発音を有する分節文字の音標記号を生
成する。
【0044】ステップS220で、簡単な構文規則を利
用して音標記号を修正する。例えば、単語「媽媽」を変
換した後の音標記号は
【外1】 である。しかし、実際には第2音節は軽声で読まれる。
したがって、このステップでは、音標記号は、構文規則
に照会して、
【外2】 に修正される。処理は、ステップS220の後に終了す
る。
【0045】図3は、候補単語選択部300のプロセス
フローチャートである。
【0046】ステップS301で、文字−発音変換部2
00から伝送された音標記号列を、システム辞書350
に照会しながら音節に切る。
【0047】ステップS305で、音標記号列の各音節
をインデックスタームとして利用して、システム辞書3
50から、候補単語および関連意味情報と、構文情報
と、使用頻度情報とを検索する。
【0048】ステップS310で、バッファ領域700
から入力された文字列を検索する。
【0049】ステップS315で、インデックスターム
として候補単語の文字および音標記号を利用し、一致手
段を使って入力された文字列と音標記号列とに照会し
て、不適格候補単語を放棄する。
【0050】ステップS320で、残りの考えられる候
補単語および関連位置情報、意味情報、構文情報、およ
び使用頻度情報をバッファ領域700に格納する。その
後、処理が終了する。
【0051】図4に、最適候補単語列決定部400のプ
ロセスフローチャート示す。ステップS401で、バッ
ファ領域700から考えられる候補単語および関連情報
を検索する。
【0052】ステップS405で、各候補単語の位置情
報をインデックスタームとして利用して、候補単語の方
向性ネットワークを構築する。例えば、前候補単語の単
語末尾位置情報が4(入力された文字列の4番目の文
字)であり、後候補単語の単語先頭位置情報が5(入力
された文字列の5番目の文字)であれば、これは、2つ
の候補単語が結合可能であることを示す。
【0053】ステップS410で、単語長優先度、構文
優先度および同義度優先度を算出する。その後、使用頻
度、単語長優先度、構文優先度および同義度優先度の関
数である総合評価を算出する。最適ルートを求める動的
プログラミングモデルの後、順次に最適ルートの候補単
語を得て出力する。その後、処理が終了する。
【0054】図5に、単語分割マーキング部500のプ
ロセスフローチャートを示す。ステップS501で、最
適候補単語列決定部400から、最適候補単語シーケン
ス(A)を送信する。
【0055】ステップS505で、バッファ領域700
から入力された文字列(B)を検索する。
【0056】ステップS510で、一致手段を利用し
て、シーケンス(A)とシーケンス(B)を比較して、
シーケンス(B)に単語分割マーカをマークする。
【0057】ステップS515で、マーキングされた文
字列を出力部600に出力する。この時点で処理が終了
する。入力部100を利用して「把他的確實行動做了研
究」を入力する例の場合、本発明の中国語単語分割装置
の文字−発音変換部200は、最初同様に処理を行う。
まず、他の発音を有しないセンテンス内の文字を、文字
音標辞書260に照会しながら変換し、結果「ba3t
a1 的 qyue4sh2 行 dong4zuo4 了
ian2jiou4」を得る。その後、センテンスの末
尾から先頭に向かって、辞書250に照会することによ
って、文字「了研」および「做了」が対応単語を形成し
ない、異なる発音を有する文字を求める。このように、
文字「了」は、初期設定値「le0」に変換される。同
じ論理により、インデックスタームとして「行動」とい
う文字を利用して辞書250に照会すると、発音が「x
ing2dong4」であることが判明する。従って、
文字「行」は、「xing2」に変換される。その後、
文字「的確」は、「di2qyue4」の中に対応候補
発音があるが、文字「的確實行動做」の発音は「de0
qyue4sh2xing2dong4zuo4」であ
るので、文字「的確」の発音「di2qyue4」は放
棄され、長単語優先規則のため、文字「的」は「de
0」に変換される。従って、文字列から音標記号列への
変換結果は、次の通りである。 「ba3ta1de0qyue4sh2xing2dong4zuo4le0ian2jiou4」
【0058】変換結果は、入力された文字列と共に、バ
ッファ領域700に格納される。その後、図3のプロセ
スフローチャートに従って候補単語選択部300が動作
する。システム辞書350に照会することによって分け
られる音標記号列のすべての考えられる音節を以下に示
す。 ba3-ta1-de0-qyue4-sh2-xing2-dong4-zuo4-le0-ian2-jiou4 ba3-ta1-de0-qyue4sh2-xing2-dong4-zuo4-le0-ian2-jiou4 ba3-ta1-de0-qyue4-sh2xing2-dong4-zuo4-le0-ian2-jiou4 ba3-ta1-de0-qyue4-sh2-xing2dong4-zuo4-le0-ian2-jiou4 ba3-ta1-de0-qyue4sh2-xing2dong4-zuo4-le0-ian2-jiou4 ba3-ta1-de0-qyue4sh2-xing2-dong4-zuo4-le0-ian2jiou4 ba3-ta1-de0-qyue4-sh2xing2-dong4-zuo4-le0-ian2jiou4 ba3-ta1-de0-qyue4-sh2-xing2dong4-zuo4-le0-ian2jiou4 ba3-ta1-de0-qyue4sh2-xing2dong4-zuo4-le0-ian2jiou4
【0059】その後、音標記号の考えられる音節をイン
デックスタームとして利用してシステム辞書350に照
会すると、以下の例示的な考えられる候補単語が得られ
る。
【0060】
【表1】
【0061】その後、バッファ領域700に格納されて
いる入力された文字列「把他的確實行動做了研究」およ
び対応位置情報を参照して、比較手段を利用し、入力さ
れた文字列から他の候補単語を排除する。考えられる候
補単語は次の通りである。
【0062】
【表2】
【0063】次に、システム辞書350からの意味情
報、構文情報、使用頻度情報等といった関連情報と、そ
れぞれの候補単語の位置情報とが、バッファ領域700
に格納される。次に、最適文字列決定部400が、考え
られる候補単語と関連情報とをバッファ領域700から
検索する。それぞれの候補単語の位置情報(すなわち、
候補単語を隣り合わせて配置可能かどうかに関する情
報)に基づいて、次のような方向性ネットワークが構築
される。
【0064】
【表3】
【0065】次いで、最適候補文字列決定部400が、
単語長優先度、構文優先度、および同義度優先度を算出
する。次に、使用頻度、単語長優先度、構文優先度、お
よび同義度優先度の関数である総合評価が算出される。
動的プログラミング法の後、最適なルートシーケンスが
「把→他→的→確實→行動→做→了→研究」であること
が分かる。最後に、単語分割マーキング部500が、バ
ッファ領域700から入力された文字列を検索し、最適
文字列シーケンスに基づいて、「把 * 他 * 的* 確實 *
行動 * 做 * 了 * 研究」という入力された文字列にマ
ーキングを挿入する。マーキングされた文字列は、次
に、出力部600に供給される。
【0066】
【発明の効果】以上から、本発明の中国語単語分割装置
が、従来技術にまつわる問題を克服できることは、明白
である。本発明の効果は、次の通りである。
【0067】1.大きな語彙データベースを必要とせ
ず、98%以上の中国語単語分割精度を達成できる。
【0068】2.考えられる候補単語を最小限に減ら
し、実質的に操作効率を上昇させることができる。
【0069】3.既存の中国語文字を、計算手段、シス
テム辞書などの音声技術変換資源に利用して、少ない労
力で最大限の結果が得られる。
【0070】4.単語分割が行われるだけでなく、種々
の単語カテゴリに関する問題も克服できる。
【0071】最も実用的で好適な実施態様と考えられる
ものを参照しながら本発明の説明を行ったが、本発明は
開示された実施態様に限定されるものではなく、最も広
い解釈の精神および範囲に含まれる種々の構成を網羅す
るものであり、そのような変更された態様および等価な
構成のすべてを包含することを理解されたい。
【図面の簡単な説明】
【図1】 本発明の中国語単語分割装置の好適な実施の
形態の概略システムブロック図である。
【図2】 本発明の好適な実施の形態の文字−発音変換
部のプロセスフローチャートである。
【図3】 図3は、本発明の好適な実施の形態の候補単
語選択部のプロセスフローチャートである。
【図4】 図4は、本発明の好適な実施の形態の最適文
字列決定部のプロセスフローチャートである。
【図5】 本発明の好適な実施の形態の単語分割マーキ
ング部のプロセスフローチャートである。
【図6】 本発明の好適な実施の形態による異なる発音
を有する文字の辞書を示す図である。
【図7】 本発明の好適な実施の形態による文字音標辞
書を示す図である。
【図8】 本発明の好適な実施の形態によるシステム辞
書を示す図である。
【図9】 本発明の好適な実施の形態の構文情報部を示
す図である。
【図10】 本発明の好適な実施の形態の意味情報部を
示す図である。
【図11】 従来の単語分割技術を示すプロセスフロー
チャートである。
【図12】 従来の単語分割技術の緩和反復処理操作を
示す例の図である。
【符号の説明】
100 入力部 200 文字−発音変換部 250 異なる発音を有する文字の辞書 260 文字音標辞書 300 候補単語選択部 350 システム辞書 400 最適候補文字列決定部 440 構文情報部 450 意味情報部 500 単語分割マーキング部 600 出力部 700 バッファ領域

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 コンピュータ技術を利用して入力された
    中国語センテンスの単語分割処理を実行する中国語単語
    分割装置であって、中国語単語分割装置は、 異なる発音を有する中国語のすべての文字と、前記異な
    る発音を有する文字に対応するすべての文字音標(phon
    etic)記号と、前記文字音標記号のそれぞれに対応する
    すべての候補単語および前記候補単語に対応するすべて
    の単語音標記号とを格納する、異なる発音を有する文字
    の辞書と、 中国語の文字と、前記文字に対応する初期設定音標記号
    と、前記文字に対する他の考えられる音標記号とを全て
    格納する文字音標辞書と、 中国語の文字または単語の音標記号と、前記音標記号の
    それぞれに順に対応する同じに聞こえる競合文字または
    前記同じに聞こえる競合単語のそれぞれに対応する、使
    用頻度、構文マーカ、および意味マーカを格納するシス
    テム辞書と、 中国語で異なる単語カテゴリを結合できるかどうかを示
    す、「1」または「0」ビットから構成される2次元ア
    レイを格納する構文情報部と、 中国語単語の後部意味コードと、この後部意味コードに
    対応する考えられる前部意味コードとを格納する意味情
    報部と、 前記異なる発音を有する文字の辞書と前記文字音標辞書
    とに照会して、コンピュータに入力された中国語の文字
    列を音標記号列に変換する文字−発音変換部と、 前記文字−発音変換部から伝送された前記音標記号列を
    音節に区切り、前記音節のそれぞれをインデックスター
    ムとして利用することによって、前記システム辞書から
    すべての考えられる前記候補単語を得て、入力された中
    国語の文字列に照会することにより不適格候補単語をす
    べて放棄する候補単語選択部と、 入力された文字列内の放棄されなかった前記候補単語の
    それぞれの開始および終了位置を利用して方向性ネット
    ワークの形態で前記候補単語を相互結合し、連続した前
    記候補単語2つずつを、その構文マーカおよび意味マー
    カを考慮しながら前記構文情報部と前記意味情報部とに
    照会することによって、前記候補単語のそれぞれの同義
    度優先度と構文優先度を計算し、使用頻度優先度、単語
    長優先度、構文優先度、および同義度優先度の関数であ
    る総合評価を得て、動的プログラミング法を利用して単
    語分割に対する最適評価グレードの単語分割を達成する
    ルートを見つける最適文字列決定部と、 最適ルートで前記候補単語を検索し、それに単語分割マ
    ーカを付加する単語分割マーキング部とを備えたことを
    特徴とする中国語単語分割装置。
JP11215119A 1999-07-29 1999-07-29 中国語単語分割装置 Pending JP2001043221A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP11215119A JP2001043221A (ja) 1999-07-29 1999-07-29 中国語単語分割装置
US09/618,293 US6879951B1 (en) 1999-07-29 2000-07-18 Chinese word segmentation apparatus
SG200004106A SG97898A1 (en) 1999-07-29 2000-07-21 Chinese word segmentation apparatus
TW089114951A TW473674B (en) 1999-07-29 2000-07-26 Chinese word segmentation apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11215119A JP2001043221A (ja) 1999-07-29 1999-07-29 中国語単語分割装置

Publications (1)

Publication Number Publication Date
JP2001043221A true JP2001043221A (ja) 2001-02-16

Family

ID=16667064

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11215119A Pending JP2001043221A (ja) 1999-07-29 1999-07-29 中国語単語分割装置

Country Status (4)

Country Link
US (1) US6879951B1 (ja)
JP (1) JP2001043221A (ja)
SG (1) SG97898A1 (ja)
TW (1) TW473674B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102394061A (zh) * 2011-11-08 2012-03-28 中国农业大学 基于语义检索的文语转换方法及系统
CN104462071A (zh) * 2013-09-19 2015-03-25 株式会社东芝 语音翻译设备和语音翻译方法
CN116226362A (zh) * 2023-05-06 2023-06-06 湖南德雅曼达科技有限公司 一种提升搜索医院名称准确度的分词方法

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7092870B1 (en) * 2000-09-15 2006-08-15 International Business Machines Corporation System and method for managing a textual archive using semantic units
JP4947861B2 (ja) * 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
US7424421B2 (en) * 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking
TWI247276B (en) * 2004-03-23 2006-01-11 Delta Electronics Inc Method and system for inputting Chinese character
WO2005122141A1 (en) * 2004-06-09 2005-12-22 Canon Kabushiki Kaisha Effective audio segmentation and classification
US9330175B2 (en) 2004-11-12 2016-05-03 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US8126890B2 (en) * 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
WO2006053306A2 (en) * 2004-11-12 2006-05-18 Make Sence, Inc Knowledge discovery by constructing correlations using concepts or terms
US7260780B2 (en) * 2005-01-03 2007-08-21 Microsoft Corporation Method and apparatus for providing foreign language text display when encoding is not available
US20060167680A1 (en) * 2005-01-25 2006-07-27 Nokia Corporation System and method for optimizing run-time memory usage for a lexicon
US8898134B2 (en) 2005-06-27 2014-11-25 Make Sence, Inc. Method for ranking resources using node pool
US8140559B2 (en) * 2005-06-27 2012-03-20 Make Sence, Inc. Knowledge correlation search engine
JP2007024960A (ja) 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
US8249873B2 (en) * 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US20070078644A1 (en) * 2005-09-30 2007-04-05 Microsoft Corporation Detecting segmentation errors in an annotated corpus
US8024653B2 (en) 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
US7831911B2 (en) * 2006-03-08 2010-11-09 Microsoft Corporation Spell checking system including a phonetic speller
US8539349B1 (en) 2006-10-31 2013-09-17 Hewlett-Packard Development Company, L.P. Methods and systems for splitting a chinese character sequence into word segments
CN101226596B (zh) * 2007-01-15 2012-02-01 夏普株式会社 文档图像处理装置以及文档图像处理方法
CN101226595B (zh) * 2007-01-15 2012-05-23 夏普株式会社 文档图像处理装置以及文档图像处理方法
CN101815996A (zh) * 2007-06-01 2010-08-25 谷歌股份有限公司 检测名称实体和新词
WO2008151466A1 (en) * 2007-06-14 2008-12-18 Google Inc. Dictionary word and phrase determination
CN101785000B (zh) * 2007-06-25 2013-04-24 谷歌股份有限公司 词概率确定方法和系统
US8364485B2 (en) * 2007-08-27 2013-01-29 International Business Machines Corporation Method for automatically identifying sentence boundaries in noisy conversational data
US20090060338A1 (en) * 2007-09-04 2009-03-05 Por-Sen Jaw Method of indexing Chinese characters
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
US9342589B2 (en) * 2008-07-30 2016-05-17 Nec Corporation Data classifier system, data classifier method and data classifier program stored on storage medium
WO2010013473A1 (ja) * 2008-07-30 2010-02-04 日本電気株式会社 データ分類システム、データ分類方法、及びデータ分類プログラム
CN101430680B (zh) 2008-12-31 2011-01-19 阿里巴巴集团控股有限公司 一种无词边界标记语言文本的分词序列选择方法及系统
CN102063423B (zh) * 2009-11-16 2015-03-25 高德软件有限公司 一种消歧的方法和装置
US9323726B1 (en) * 2012-06-27 2016-04-26 Amazon Technologies, Inc. Optimizing a glyph-based file
CN103544167A (zh) * 2012-07-13 2014-01-29 江苏新瑞峰信息科技有限公司 一种基于中文检索的逆向分词方法及装置
CN103577391A (zh) * 2012-07-28 2014-02-12 江苏新瑞峰信息科技有限公司 一种基于中文检索的双向分词方法及装置
US9195716B2 (en) * 2013-02-28 2015-11-24 Facebook, Inc. Techniques for ranking character searches
CN105279150A (zh) * 2015-10-27 2016-01-27 江苏电力信息技术有限公司 一种基于lucene全文检索的中文分词方法
JP6880956B2 (ja) * 2017-04-10 2021-06-02 富士通株式会社 解析プログラム、解析方法および解析装置
CN109800408B (zh) * 2017-11-16 2023-05-26 腾讯科技(深圳)有限公司 词典数据存储方法和装置、基于词典的分词方法和装置
CN108170682B (zh) * 2018-01-18 2021-09-07 北京同盛科创科技有限公司 一种基于专业词汇的中文分词方法及计算设备
CN108804414A (zh) * 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 文本修正方法、装置、智能设备及可读存储介质
CN109829167B (zh) * 2019-02-22 2023-11-21 维沃移动通信有限公司 一种分词处理方法和移动终端
CN110287961B (zh) * 2019-05-06 2024-04-09 平安科技(深圳)有限公司 中文分词方法、电子装置及可读存储介质
CN110502617A (zh) * 2019-08-29 2019-11-26 四川东方网力科技有限公司 车牌检索方法及设备
CN112069812B (zh) * 2020-08-28 2024-05-03 喜大(上海)网络科技有限公司 一种分词方法、装置、设备及计算机存储介质
CN112765977B (zh) * 2021-01-11 2023-12-12 百果园技术(新加坡)有限公司 一种基于跨语言数据增强的分词方法及装置
CN113076750B (zh) * 2021-04-26 2022-12-16 华南理工大学 一种基于新词发现的跨领域中文分词系统及方法
CN112989817B (zh) * 2021-05-11 2021-08-27 中国气象局公共气象服务中心(国家预警信息发布中心) 一种气象预警信息自动审核方法
CN113095065B (zh) * 2021-06-10 2021-09-17 北京明略软件系统有限公司 一种中文字向量学习方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0271619A1 (en) 1986-12-15 1988-06-22 Yeh, Victor Chang-ming Phonetic encoding method for Chinese ideograms, and apparatus therefor
JPS6231467A (ja) * 1985-08-01 1987-02-10 Toshiba Corp 文章作成装置
GB8629908D0 (en) * 1986-12-15 1987-01-28 Kemano Ltd Words & characters computer input device
TW268115B (ja) * 1991-10-14 1996-01-11 Omron Tateisi Electronics Co
US5257938A (en) 1992-01-30 1993-11-02 Tien Hsin C Game for encoding of ideographic characters simulating english alphabetic letters
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
JPH1166061A (ja) 1997-08-22 1999-03-09 Sharp Corp 情報処理装置および情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000298667A (ja) * 1999-04-15 2000-10-24 Matsushita Electric Ind Co Ltd 構文情報による漢字変換装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102394061A (zh) * 2011-11-08 2012-03-28 中国农业大学 基于语义检索的文语转换方法及系统
CN102394061B (zh) * 2011-11-08 2013-01-02 中国农业大学 基于语义检索的文语转换方法及系统
CN104462071A (zh) * 2013-09-19 2015-03-25 株式会社东芝 语音翻译设备和语音翻译方法
CN116226362A (zh) * 2023-05-06 2023-06-06 湖南德雅曼达科技有限公司 一种提升搜索医院名称准确度的分词方法

Also Published As

Publication number Publication date
TW473674B (en) 2002-01-21
SG97898A1 (en) 2003-08-20
US6879951B1 (en) 2005-04-12

Similar Documents

Publication Publication Date Title
JP2001043221A (ja) 中国語単語分割装置
US7236922B2 (en) Speech recognition with feedback from natural language processing for adaptation of acoustic model
US6999918B2 (en) Method and apparatus to facilitate correlating symbols to sounds
US20180089169A1 (en) Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
CN111104803B (zh) 语义理解处理方法、装置、设备及可读存储介质
Ernst-Gerlach et al. Generating search term variants for text collections with historic spellings
JPWO2010044123A1 (ja) 検索装置、検索用索引作成装置、および検索システム
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
CN110750967B (zh) 一种发音的标注方法、装置、计算机设备和存储介质
Zupan et al. How to tag non-standard language: Normalisation versus domain adaptation for slovene historical and user-generated texts
Yeong et al. Language identification of code switching sentences and multilingual sentences of under-resourced languages by using multi structural word information
CN106294310B (zh) 一种藏语声调预测方法及系统
Donaj et al. Context-dependent factored language models
CN114064861A (zh) 一种查询语句的生成方法和装置
JP3369127B2 (ja) 形態素解析装置
JP2000267693A (ja) 音声処理装置及び索引作成装置
JP5169602B2 (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Ramaswamy et al. Hierarchical feature-based translation for scalable natural language understanding
JP3939264B2 (ja) 形態素解析装置
JP2001100788A (ja) 音声処理装置および音声処理方法、並びに記録媒体
US20230419959A1 (en) Information processing systems, information processing method, and computer program product
US20220138420A1 (en) Difference extraction device, method and program
JP2003022266A (ja) 文章語文体変換システムおよび文章語文体変換処理プログラム