JP4845523B2 - 文字処理装置、方法、プログラムおよび記録媒体 - Google Patents
文字処理装置、方法、プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP4845523B2 JP4845523B2 JP2006022294A JP2006022294A JP4845523B2 JP 4845523 B2 JP4845523 B2 JP 4845523B2 JP 2006022294 A JP2006022294 A JP 2006022294A JP 2006022294 A JP2006022294 A JP 2006022294A JP 4845523 B2 JP4845523 B2 JP 4845523B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- storage means
- character
- character strings
- appearance probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
パス1 「とっきょ」→「町」
パス2 「とっきょ」→「庁」
パス3 「特許」→「庁」 ....
などの複数のパスを有する単語ラティスがかな漢字変換装置のメモリ上でCPUにより作成される。
決定された最有力のかな漢字変換結果がディスプレイの表示画面に表示されて、ユーザの確定操作後、文書処理装置(ワードプロセッサ用のプログラム)に、確定されたかな漢字変換結果が引き渡される。ユーザが頻繁に使用する表記の文字列についての使用頻度を言語辞書の出現確率に反映することも行なわれている。
上述のこのような連語の読みが入力された場合、上述の文字処理手法では、複数のパスを作成し、パスの出現確率を計算するので、初期の使用常態では慣用表現とは異なるかな漢字変換結果となってしまう場合がある。
2. 辞書・文法の与える確率に、辞書・文法のコンパイル時、ないし、かな漢字変換の実行時に、重み調整を加え、第1候補になりやすいようにする。(非特許文献2)
複数の連語の読み文字列と、対応する表記の文字列を1つのレコードとなし、異なる複数のレコードを有する連語辞書を記憶した第1の記憶手段と、
変換対象の複数の単語の読みの文字列で前記連語辞書を検索し、当該複数の単語の読みの文字列と同じ読みの連語辞書中の文字列に対応する複数の単語の表記の文字列を取得する検索手段と、
該検索手段の検索により得られる複数の連語の表記の文字列を複数のノードとして前記単語ラティスに追加する第1の情報処理手段と、
複数の単語の表記を1組となし、複数組の出現確率を記憶した第2の記憶手段と、
前記複数の連語の表記の出現確率を記憶した第3の記憶手段と、
前記第2の記憶手段および第3の記憶手段に記憶された出現確率に基づき、前記連語の表記の文字列がノードとして追加された単語ラティス上の最も出現確率が高くなるパス上の表記の文字列を変換候補として取得する第2の情報処理手段と、
使用頻度に従って前記第2の記憶手段に記憶された出現確率を更新する第3の情報処理手段と
を具え、前記第2の記憶手段および第3の記憶手段は同一の単語についての出現確率を記憶することを許容されており、当該同一の単語については第3の記憶手段に記憶された出願確率が、前記第2の記憶手段に記憶された出現確率よりも予め高く設定され、前記第2の記憶手段に記憶された前記同一の単語の出現確率は使用頻度に応じて前記第3の情報処理手段の更新処理により、高くなることを特徴とする。
前記文字処理装置は複数の連語の読み文字列と、対応する表記の文字列を1つのレコードとなし、異なる複数のレコードを有する連語辞書を記憶した第1の記憶手段、複数の単語の表記を1組となし、複数組の出現確率を記憶した第2の記憶手段と、前記複数の連語の表記の出現確率を記憶した第3の記憶手段検索手段、第1の情報処理手段、第2の情報処理手段および第3の処理手段を有し、
前記検索手段により、変換対象の複数の単語の読みの文字列で前記連語辞書を検索し、当該複数の単語の読みの文字列と同じ読みの連語辞書中の文字列に対応する複数の単語の表記の文字列を取得し、
前記検索手段の検索により得られる複数の単語の表記の文字列を複数のノードとして前記単語ラティスに第1の情報処理手段により追加し、
前記第2の記憶手段および第3の記憶手段に記憶された出現確率に基づき、前記連語の表記の文字列がノードとして追加された単語ラティス上の最も出現確率が高くなるパス上の表記の文字列を変換候補として前記第2の情報処理手段により取得し、
前記第3の情報処理手段により使用頻度に従って前記第2の記憶手段に記憶された出現確率を更新し、
前記第2の記憶手段および第3の記憶手段は同一の単語についての出現確率を記憶することを許容されており、当該同一の単語については第3の記憶手段に記憶された出願確率が、前記第2の記憶手段に記憶された出現確率よりも予め高く設定され、前記第2の記憶手段に記憶された前記同一の単語の出現確率は使用頻度に応じて前記第3の情報処理手段の更新処理により、高くなること特徴とする。
前記文字処理装置は複数の連語の読み文字列と、対応する表記の文字列を1つのレコードとなし、異なる複数のレコードを有する連語辞書を記憶した第1の記憶手段、複数の単語の表記を1組となし、複数組の出現確率を記憶した第2の記憶手段と、前記複数の連語の表記の出現確率を記憶した第3の記憶手段、検索手段、第1の情報処理手段および第2の情報処理手段を有し、
前記検索手段により、変換対象の複数の単語の読みの文字列で前記連語辞書を検索し、当該複数の単語の読みの文字列と同じ読みの連語辞書中の文字列に対応する複数の単語の表記の文字列を取得するステップと、
前記検索手段の検索により得られる複数の単語の表記の文字列を複数のノードとして前記単語ラティスに前記第1の情報処理手段により追加するステップと、
前記第2の記憶手段および第3の記憶手段に記憶された出現確率に基づき、前記連語の表記の文字列がノードとして追加された単語ラティス上の最も出現確率が高くなるパス上の表記の文字列を変換候補として前記第2の情報処理手段により取得するステップと、
前記第3の情報処理手段により使用頻度に従って前記第2の記憶手段に記憶された出現確率を更新するステップと
を備え、
前記第2の記憶手段および第3の記憶手段は同一の単語についての出現確率を記憶することを許容されており、当該同一の単語については第3の記憶手段に記憶された出願確率が、前記第2の記憶手段に記憶された出現確率よりも予め高く設定され、前記第2の記憶手段に記憶された前記同一の単語の出現確率は使用頻度に応じて前記第3の情報処理手段の更新処理により、高くなること特徴とする。
実施形態1の文字処理装置のシステム構成の一例を図1に示す。文字処理装置としては汎用のパーソナルコンピュータ、携帯電話機など、情報処理機能を有する種々の情報処理装置を使用することができる。
実施形態1では連語の出現確率を連語辞書130に読みの文字列、表記の文字列と共に記載していたが、出現確率を言語辞書120に記載してもよいし、また、別の辞書やテーブルに記載してもよい。
20 システムメモリ
30 入力装置
40 ハードディスク
50 ディスプレイ
Claims (7)
- 単語ラティスを使用して複数の単語の読みの文字列を対応する複数の表記の文字列に変換する文字処理装置であって、
複数の連語の読み文字列と、対応する表記の文字列を1つのレコードとなし、異なる複数のレコードを有する連語辞書を記憶した第1の記憶手段と、
変換対象の複数の単語の読みの文字列で前記連語辞書を検索し、当該複数の単語の読みの文字列と同じ読みの連語辞書中の文字列に対応する複数の単語の表記の文字列を取得する検索手段と、
該検索手段の検索により得られる複数の連語の表記の文字列を複数のノードとして前記単語ラティスに追加する第1の情報処理手段と、
複数の単語の表記を1組となし、複数組の出現確率を記憶した第2の記憶手段と、
前記複数の連語の表記の出現確率を記憶した第3の記憶手段と、
前記第2の記憶手段および第3の記憶手段に記憶された出現確率に基づき、前記連語の表記の文字列がノードとして追加された単語ラティス上の最も出現確率が高くなるパス上の表記の文字列を変換候補として取得する第2の情報処理手段と、
使用頻度に従って前記第2の記憶手段に記憶された出現確率を更新する第3の情報処理手段と
を具え、前記第2の記憶手段および第3の記憶手段は同一の単語についての出現確率を記憶することを許容されており、当該同一の単語については第3の記憶手段に記憶された出願確率が、前記第2の記憶手段に記憶された出現確率よりも予め高く設定され、前記第2の記憶手段に記憶された前記同一の単語の出現確率は使用頻度に応じて前記第3の情報処理手段の更新処理により、高くなることを特徴とする文字処理装置。 - 前記第1の記憶手段を第3の記憶手段として使用し、前記レコードの中に、出現確率を
含めることを特徴とする請求項1に記載の文字処理装置。 - 単語ラティスを使用して複数の単語の読みの文字列を対応する複数の表記の文字列に変換する文字処理装置の文字処理方法であって、
前記文字処理装置は複数の連語の読み文字列と、対応する表記の文字列を1つのレコードとなし、異なる複数のレコードを有する連語辞書を記憶した第1の記憶手段、複数の単語の表記を1組となし、複数組の出現確率を記憶した第2の記憶手段と、前記複数の連語の表記の出現確率を記憶した第3の記憶手段検索手段、第1の情報処理手段、第2の情報処理手段および第3の処理手段を有し、
前記検索手段により、変換対象の複数の単語の読みの文字列で前記連語辞書を検索し、当該複数の単語の読みの文字列と同じ読みの連語辞書中の文字列に対応する複数の単語の表記の文字列を取得し、
前記検索手段の検索により得られる複数の単語の表記の文字列を複数のノードとして前記単語ラティスに第1の情報処理手段により追加し、
前記第2の記憶手段および第3の記憶手段に記憶された出現確率に基づき、前記連語の表記の文字列がノードとして追加された単語ラティス上の最も出現確率が高くなるパス上の表記の文字列を変換候補として前記第2の情報処理手段により取得し、
前記第3の情報処理手段により使用頻度に従って前記第2の記憶手段に記憶された出現確率を更新し、
前記第2の記憶手段および第3の記憶手段は同一の単語についての出現確率を記憶することを許容されており、当該同一の単語については第3の記憶手段に記憶された出願確率が、前記第2の記憶手段に記憶された出現確率よりも予め高く設定され、前記第2の記憶手段に記憶された前記同一の単語の出現確率は使用頻度に応じて前記第3の情報処理手段の更新処理により、高くなること特徴とする文字処理装置の文字処理方法。 - 前記第1の記憶手段を第3の記憶手段として使用し、前記レコードの中に、出現確率を含めることを特徴とする請求項3に記載の文字処理装置の文字処理方法。
- 単語ラティスを使用して複数の単語の読みの文字列を対応する複数の表記の文字列に変換する文字処理装置のための文字処理プログラムであって、
前記文字処理装置は複数の連語の読み文字列と、対応する表記の文字列を1つのレコードとなし、異なる複数のレコードを有する連語辞書を記憶した第1の記憶手段、複数の単語の表記を1組となし、複数組の出現確率を記憶した第2の記憶手段と、前記複数の連語の表記の出現確率を記憶した第3の記憶手段、検索手段、第1の情報処理手段および第2の情報処理手段を有し、
前記検索手段により、変換対象の複数の単語の読みの文字列で前記連語辞書を検索し、当該複数の単語の読みの文字列と同じ読みの連語辞書中の文字列に対応する複数の単語の表記の文字列を取得するステップと、
前記検索手段の検索により得られる複数の単語の表記の文字列を複数のノードとして前記単語ラティスに前記第1の情報処理手段により追加するステップと、
前記第2の記憶手段および第3の記憶手段に記憶された出現確率に基づき、前記連語の表記の文字列がノードとして追加された単語ラティス上の最も出現確率が高くなるパス上の表記の文字列を変換候補として前記第2の情報処理手段により取得するステップと、
前記第3の情報処理手段により使用頻度に従って前記第2の記憶手段に記憶された出現確率を更新するステップと
を備え、
前記第2の記憶手段および第3の記憶手段は同一の単語についての出現確率を記憶することを許容されており、当該同一の単語については第3の記憶手段に記憶された出願確率が、前記第2の記憶手段に記憶された出現確率よりも予め高く設定され、前記第2の記憶手段に記憶された前記同一の単語の出現確率は使用頻度に応じて前記第3の情報処理手段の更新処理により、高くなること特徴とする文字処理プログラム。 - 前記第1の記憶手段を第3の記憶手段として使用し、前記レコードの中に、出現確率を含めることを特徴とする請求項5に記載の文字処理プログラム。
- 請求項5または6に記載のプログラムを記録したことを特徴とする記録媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006022294A JP4845523B2 (ja) | 2006-01-31 | 2006-01-31 | 文字処理装置、方法、プログラムおよび記録媒体 |
CN2007800028749A CN101371252B (zh) | 2006-01-31 | 2007-01-31 | 字符处理装置、方法、程序以及存储介质 |
TW096103598A TW200821868A (en) | 2006-01-31 | 2007-01-31 | A character processing apparatus, and a method, a program, and a recording medium thereof |
PCT/JP2007/051622 WO2007088902A1 (ja) | 2006-01-31 | 2007-01-31 | 文字処理装置、方法、プログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006022294A JP4845523B2 (ja) | 2006-01-31 | 2006-01-31 | 文字処理装置、方法、プログラムおよび記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007206796A JP2007206796A (ja) | 2007-08-16 |
JP4845523B2 true JP4845523B2 (ja) | 2011-12-28 |
Family
ID=38327473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006022294A Expired - Fee Related JP4845523B2 (ja) | 2006-01-31 | 2006-01-31 | 文字処理装置、方法、プログラムおよび記録媒体 |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP4845523B2 (ja) |
CN (1) | CN101371252B (ja) |
TW (1) | TW200821868A (ja) |
WO (1) | WO2007088902A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510222B (zh) * | 2009-02-20 | 2012-05-30 | 北京大学 | 一种多层索引语音文档检索方法 |
JP5626557B2 (ja) * | 2009-12-04 | 2014-11-19 | バイドゥ株式会社 | 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム |
JP2011210149A (ja) * | 2010-03-30 | 2011-10-20 | Baidu Japan Inc | 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム |
CN103455159A (zh) * | 2012-05-30 | 2013-12-18 | 苏州卫生职业技术学院 | 运用于英语输入法中的英语字符串输入技术及实现方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0816910B2 (ja) * | 1986-10-03 | 1996-02-21 | 株式会社リコー | 言語解析装置 |
JPH06131326A (ja) * | 1992-10-22 | 1994-05-13 | Seiko Epson Corp | かな漢字変換装置 |
JP2004118461A (ja) * | 2002-09-25 | 2004-04-15 | Microsoft Corp | 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体 |
-
2006
- 2006-01-31 JP JP2006022294A patent/JP4845523B2/ja not_active Expired - Fee Related
-
2007
- 2007-01-31 WO PCT/JP2007/051622 patent/WO2007088902A1/ja active Application Filing
- 2007-01-31 TW TW096103598A patent/TW200821868A/zh unknown
- 2007-01-31 CN CN2007800028749A patent/CN101371252B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN101371252B (zh) | 2013-11-13 |
TW200821868A (en) | 2008-05-16 |
CN101371252A (zh) | 2009-02-18 |
WO2007088902A1 (ja) | 2007-08-09 |
JP2007206796A (ja) | 2007-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4058071B2 (ja) | 用例翻訳装置、用例翻訳方法および用例翻訳プログラム | |
US10803241B2 (en) | System and method for text normalization in noisy channels | |
JP2007004633A (ja) | 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置 | |
JP2015038731A (ja) | 言語変換において複数の読み方の曖昧性を除去する方法 | |
EP2643770A2 (en) | Text segmentation with multiple granularity levels | |
JP2007226729A (ja) | 訳語情報出力処理プログラム,処理方法および処理装置 | |
JP4845523B2 (ja) | 文字処理装置、方法、プログラムおよび記録媒体 | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP6811087B2 (ja) | 検索装置、検索方法、及びプログラム | |
JP5851130B2 (ja) | 日本語のための音声キー | |
JP6619932B2 (ja) | 形態素解析装置およびプログラム | |
JP3452353B2 (ja) | 辞書データ構造を記録した記録媒体、辞書引き方法、語句取得方法、辞書引き装置、語句取得装置、プログラムを記録した記録媒体 | |
JP4155970B2 (ja) | 情報処理装置、同義語データベース生成方法、同義語データベース生成プログラム | |
JP2000353159A (ja) | 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体 | |
JP2004118461A (ja) | 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体 | |
JP2007213157A (ja) | 用例文検索装置および用例文検索方法 | |
JP5097454B2 (ja) | データ入力装置、方法、及びプログラム | |
JP2019008477A (ja) | 判別プログラム、判別装置及び判別方法 | |
JP7200474B2 (ja) | 変換補助装置、変換補助システム、変換補助方法及びコンピュータプログラム | |
JP2007171275A (ja) | 言語処理装置及び現後処理方法 | |
JP6511874B2 (ja) | コンピュータプログラム、検索装置及び検索方法 | |
JP5664042B2 (ja) | 検索装置、検索方法、検索プログラム及び検索システム | |
JP5229448B2 (ja) | 読み付与装置、およびプログラム | |
JP2009223704A (ja) | 翻訳装置及び翻訳プログラム | |
JP2020052819A (ja) | 情報処理装置、情報処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110415 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110715 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111004 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111011 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141021 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4845523 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |