JP5130892B2 - 文字符号化処理方法及びシステム - Google Patents
文字符号化処理方法及びシステム Download PDFInfo
- Publication number
- JP5130892B2 JP5130892B2 JP2007318985A JP2007318985A JP5130892B2 JP 5130892 B2 JP5130892 B2 JP 5130892B2 JP 2007318985 A JP2007318985 A JP 2007318985A JP 2007318985 A JP2007318985 A JP 2007318985A JP 5130892 B2 JP5130892 B2 JP 5130892B2
- Authority
- JP
- Japan
- Prior art keywords
- numbers
- code
- code string
- character encoding
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
例文2:“7月21日夜19:30”
例文3:“6:2、5:7及び7:5のスコアで相手を破った”
自然言語テキストにおける複雑な形式の数字と特殊符号に対して行う文字符号化処理について、例えば、特許文献1−5に開示されている。
例文2:“電話:65992238 65993388−1826、1828。”
例文3:“遼中36−1油田は渤海の遼東湾の北部に位置する。”
また、全体的に理解しないと正確な文字符号処理を実現することができない他の例もある。以下は、二つの例文である。例文4の中における“1996”の部分の意味(年)が、“1996、1997二年”を考査した後にのみ確定されることができるので、電報的読み方で数字列“1996”を文字符号化すべきである。言い換えると、“1996”の文字符号化規則が“1997”の文字符号化規則を継承したものである。従って、ここでは、この種の問題を逆方向継承問題に分類する。勿論、この種の逆方向継承の使用が厳しく制限される。例えば、次の二つの中国語例文には、句読点の読点“、”が逆方向継承の欠くことのできない条件の一つである。
例文5:“アルカリ除去指導部により提供された資料によると:1985、1986、1987年の穀物の収穫量が連年増加する。”
ゆえに、従来技術のような、入力テキストを順次スキャンし、その中の数字と特殊符号列を区間ごとに抽出し、そして、それに対してテンプレートマッチングを行うことにより実現された数字と特殊符号列の処理は、一つの語義ユニットを全体的に考査することができないのみならず、逆方向継続的な方式で数字と特殊符号列を処理することも行わないので、テキストにおける多義問題、特に、特殊符号の多義問題を解決することができない。
102 テキストプリ処理部
103 数字・特殊符号列のテンプレートマッチング部
104 上下文単語境界処理部
1041 関連処理部
1042 逆方向継承部
105 数字・特殊符号列の文字符号化部
106 ポスト処理部
107 分析結果
201 テンプレート上下文単語境界考査データベース
202 上下文単語境界考査部
203 数字・特殊符号列の履歴データベース
204 精確テンプレート生成部
205 精確テンプレートタイプ
206 数字・特殊符号列の履歴記録部
207 他の標識データベース
208 他の標識部
209 テンプレート文字符号化規則データベース
210 文字符号化規則生成部
211 文字符号規則の分析結果
301 数字・特殊符号列の履歴記録をスキャンする
302 文字符号化されていない数字・特殊符号列の有無?
303 テンプレート逆方向継承データベース
304 逆方向継承検査部
305 文字符号化規則の継承結果
Claims (13)
- 自然言語テキストにおける数字と符号列の文字符号化処理方法であって、
入力部が、ユーザから自然言語テキストを受けるステップと、
抽出部が、前記自然言語テキストにおける複数の数字と符号列を区間ごとに抽出するステップと、
テンプレートマッチング部が、前記複数の数字と符号列と、予め記憶されたテンプレートとのマッチングを行い、前記複数の数字と符号列の各々が属する複数のテンプレートタイプを特定するステップと、
文字符号化部が、前記複数の数字と符号列のうちの第1の数字と符号列の属するテンプレートタイプと、前記第1の数字と符号列に隣接する第2の数字と符号列のテンプレートタイプとに基づき、前記第1の数字と符号列に対して文字符号化処理を行うステップと、
逆方向承継部が、前記複数の数字と符号列のうち、前記第1の数字と符号列以外の他の全ての数字と符号列において、文字符号化処理されていない数字と符号列を発見した場合、当該数字と符号列に対して逆方向継承文字符号化を行うステップと、
を含む、
文字符号化処理方法。 - 上下文単語境界考査部が、前記第2の数字と符号列のテンプレートタイプから関連する上下文単語境界を発見した場合、前記第1の数字と符号列と、前記第2の数字と符号列とを併合し一つの語義ユニットを形成し、当該語義ユニットの対応するテンプレートを生成し、当該語義ユニットの対応する数字と符号列を記録する、
請求項1に記載の文字符号処理方法。 - 語義ユニットマーク付け部が、前記語義ユニットに所定のマークを付する、
請求項2に記載の文字符号処理方法。 - 前記上下文単語境界は、テンプレートタイプ、区間範囲または文字符号化規則を含む、
請求項2に記載の文字符号処理方法。 - ポスト処理部が、文字符号化処理により新たに加えられた文字に対してポスト処理を行う、
請求項1に記載の文字符号処理方法。 - 前記符号は、非自然言語符号である、
請求項1に記載の文字符号処理方法。 - 自然言語テキストにおける数字と符号列の文字符号化処理システムであって、
自然言語テキストを入力するための入力部と、
前記自然言語テキストにおける複数の数字と符号列を区間ごとに抽出するための数字と符号列抽出部と、
前記複数の数字と符号列と、予め記憶されたテンプレートとのマッチングを行い、前記複数の数字と符号列の各々が属する複数のテンプレートタイプを特定するためのテンプレートマッチング部と、
前記複数の数字と符号列のうちの第1の数字と符号列の属するテンプレートタイプと、前記第1の数字と符号列に隣接する第2の数字と符号列のテンプレートタイプとに基づき、前記第1の数字と符号列に対して文字符号化処理を行い、前記第1の数字と符号列の文字符号化規則を生成するための文字符号化規則生成部と、
前記複数の数字と符号列のうち、前記第1の数字と符号列以外の他の全ての数字と符号列において、文字符号化処理されていない数字と符号列を発見した場合、当該数字と符号列に対して逆方向継承文字符号化を行うための逆方向継承部と、
を含む、
文字符号化処理システム。 - 前記第2の数字と符号列のテンプレートタイプを考査するための上下文単語境界考査部と、
前記第2の数字と符号列のテンプレートタイプから関連する上下文単語境界を発見した場合、前記第1の数字と符号列と、前記第2の数字と符号列とを併合し一つの語義ユニットを形成し、当該語義ユニットの対応するテンプレートを生成するための語義ユニット確定部と、
を更に含み、
前記語義ユニットの対応する数字と符号列が記録される、
請求項7に記載の文字符号処理方システム。 - 前記語義ユニットに所定のマークを付するための語義ユニットマーク付け部を更に含む、
請求項8に記載の文字符号処理方システム。 - 前記上下文単語境界は、テンプレートタイプ、区間範囲または文字符号化規則を含む、
請求項8に記載の文字符号処理方システム。 - 文字符号化処理により新たに加えられた文字に対してポスト処理を行うためのポスト処理部を更に含む、
請求項7に記載の文字符号処理方システム。 - 自然言語テキストにおける数字と符号列の文字符号化処理プログラムであって、コンピュータに
自然言語テキストを入力するステップと、
前記自然言語テキストにおける複数の数字と符号列を区間ごとに抽出するステップと、
前記複数の数字と符号列と、予め記憶されたテンプレートとのマッチングを行い、前記複数の数字と符号列の各々が属する複数のテンプレートタイプを特定するステップと、
前記複数の数字と符号列のうちの第1の数字と符号列の属するテンプレートタイプと、前記第1の数字と符号列に隣接する第2の数字と符号列のテンプレートタイプとに基づき、前記第1の数字と符号列に対して文字符号化処理を行うステップと、
前記複数の数字と符号列のうち、前記第1の数字と符号列以外の他の全ての数字と符号列において、文字符号化処理されていない数字と符号列を発見した場合、当該数字と符号列に対して逆方向継承文字符号化を行うステップと、
を実行させるための
文字符号化処理プログラム。 - 自然言語テキストにおける数字と符号列の文字符号化処理プログラムを記憶したコンピュータ読み出し可能な記憶媒体であって、
前記文字符号化処理プログラムはコンピュータに
自然言語テキストを入力するステップと、
前記自然言語テキストにおける複数の数字と符号列を区間ごとに抽出するステップと、
前記複数の数字と符号列と、予め記憶されたテンプレートとのマッチングを行い、前記複数の数字と符号列の各々が属する複数のテンプレートタイプを特定するステップと、
前記複数の数字と符号列のうちの第1の数字と符号列の属するテンプレートタイプと、前記第1の数字と符号列に隣接する第2の数字と符号列のテンプレートタイプとに基づき、前記第1の数字と符号列に対して文字符号化処理を行うステップと、
前記複数の数字と符号列のうち、前記第1の数字と符号列以外の他の全ての数字と符号列において、文字符号化処理されていない数字と符号列を発見した場合、当該数字と符号列に対して逆方向継承文字符号化を行うステップと、
を実行させる
読み出し可能な記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200610165633.3 | 2006-12-08 | ||
CNB2006101656333A CN100568225C (zh) | 2006-12-08 | 2006-12-08 | 文本中数字和特殊符号串的文字符号化处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008148322A JP2008148322A (ja) | 2008-06-26 |
JP5130892B2 true JP5130892B2 (ja) | 2013-01-30 |
Family
ID=39547308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007318985A Active JP5130892B2 (ja) | 2006-12-08 | 2007-12-10 | 文字符号化処理方法及びシステム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5130892B2 (ja) |
CN (1) | CN100568225C (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184167B (zh) * | 2011-05-25 | 2013-01-02 | 安徽科大讯飞信息科技股份有限公司 | 一种文本数据处理方法和装置 |
CN103809766A (zh) * | 2012-11-06 | 2014-05-21 | 夏普株式会社 | 将文字转换成表情符号的方法和电子装置 |
CN104035919A (zh) * | 2014-06-25 | 2014-09-10 | 深圳市中兴移动通信有限公司 | 数字联想方法和装置 |
CN106708797B (zh) * | 2015-07-15 | 2021-03-16 | 中兴通讯股份有限公司 | 一种文字处理方法和装置 |
CN105404670B (zh) * | 2015-11-16 | 2018-09-25 | 北京奇虎科技有限公司 | 骚扰短信判别方法及装置 |
CN105589846B (zh) * | 2015-12-22 | 2018-07-31 | 北京奇虎科技有限公司 | 一种识别数字语义的方法、检测短信类别的方法及装置 |
CN106293125A (zh) * | 2016-08-09 | 2017-01-04 | 武汉开目信息技术股份有限公司 | 支持安卓系统的可进行特殊工艺符号输入的方法和系统 |
CN107633006B (zh) * | 2017-08-09 | 2020-10-13 | 联动优势科技有限公司 | 一种词典格式生成方法及电子设备 |
CN107733924A (zh) * | 2017-11-27 | 2018-02-23 | 北京小米移动软件有限公司 | 短信息云同步方法、装置、终端及存储介质 |
CN109299439B (zh) * | 2018-08-22 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 数字提取方法和装置、存储介质及电子装置 |
CN109558599B (zh) * | 2018-11-07 | 2023-04-18 | 北京搜狗科技发展有限公司 | 一种转换方法、装置和电子设备 |
CN110136688B (zh) * | 2019-04-15 | 2023-09-29 | 平安科技(深圳)有限公司 | 一种基于语音合成的文字转语音方法及相关设备 |
CN111026844B (zh) * | 2019-12-04 | 2023-08-01 | 河北数云堂智能科技有限公司 | 一种识别数字串读法的方法及装置 |
CN114462399A (zh) * | 2020-11-09 | 2022-05-10 | 中核核电运行管理有限公司 | 一种核电厂质量缺陷报告与状态报告的精确匹配方法 |
CN112800722B (zh) * | 2021-02-09 | 2024-04-26 | 柳州智视科技有限公司 | 基于语义理解的文字组织编码方法 |
CN115346513A (zh) * | 2021-04-27 | 2022-11-15 | 暗物智能科技(广州)有限公司 | 一种语音合成方法、装置、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08221418A (ja) * | 1995-02-17 | 1996-08-30 | Meidensha Corp | 日本語処理システム |
JP2005063030A (ja) * | 2003-08-08 | 2005-03-10 | Ricoh Co Ltd | 概念表現方法、概念表現生成方法及び概念表現生成装置並びに該方法を実現するプログラム及び該プログラムが記録された記録媒体 |
-
2006
- 2006-12-08 CN CNB2006101656333A patent/CN100568225C/zh active Active
-
2007
- 2007-12-10 JP JP2007318985A patent/JP5130892B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008148322A (ja) | 2008-06-26 |
CN100568225C (zh) | 2009-12-09 |
CN101196881A (zh) | 2008-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5130892B2 (ja) | 文字符号化処理方法及びシステム | |
CN112801010B (zh) | 一种针对实际ocr场景下的视觉富文档信息抽取方法 | |
US20210157975A1 (en) | Device, system, and method for extracting named entities from sectioned documents | |
CN110489760A (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN109960728B (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
Snoek et al. | Modeling the noun morphology of Plains Cree | |
CN112084381A (zh) | 一种事件抽取方法、系统、存储介质以及设备 | |
CN113591457A (zh) | 文本纠错方法、装置、设备及存储介质 | |
JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
Uchimoto et al. | Morphological analysis of the Corpus of Spontaneous Japanese | |
KR100629862B1 (ko) | 외래어를 한국어로 표기하기 위한 한국어 표기장치 및 방법 | |
Clérice et al. | CATMuS Medieval: A multilingual large-scale cross-century dataset in Latin script for handwritten text recognition and beyond | |
TW420774B (en) | Method and apparatus for automatically correcting documents in chinese language | |
CN113536776B (zh) | 混淆语句的生成方法、终端设备及计算机可读存储介质 | |
JP2019095603A (ja) | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 | |
Seresangtakul et al. | Thai-Isarn dialect parallel corpus construction for machine translation | |
Romero et al. | Information extraction in handwritten marriage licenses books | |
Szymanski | Morphological inference from Bitext for resource-poor languages | |
KR100910275B1 (ko) | 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치 | |
Kaur et al. | Improving the accuracy of tesseract OCR engine for machine printed Hindi documents | |
Namboodiri et al. | On using classical poetry structure for Indian language post-processing | |
KR101080880B1 (ko) | 외래어의 자동 음차 표기 방법 및 장치 | |
Vidra | Morphological segmentation of Czech words | |
Saychum et al. | A great reduction of wer by syllable toneme prediction for thai grapheme to phoneme conversion | |
KR20090042201A (ko) | 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120717 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120914 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121009 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121022 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151116 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5130892 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |