JP5130892B2 - 文字符号化処理方法及びシステム - Google Patents

文字符号化処理方法及びシステム Download PDF

Info

Publication number
JP5130892B2
JP5130892B2 JP2007318985A JP2007318985A JP5130892B2 JP 5130892 B2 JP5130892 B2 JP 5130892B2 JP 2007318985 A JP2007318985 A JP 2007318985A JP 2007318985 A JP2007318985 A JP 2007318985A JP 5130892 B2 JP5130892 B2 JP 5130892B2
Authority
JP
Japan
Prior art keywords
numbers
code
code string
character encoding
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007318985A
Other languages
English (en)
Other versions
JP2008148322A (ja
Inventor
チン グオ
伸之 片江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2008148322A publication Critical patent/JP2008148322A/ja
Application granted granted Critical
Publication of JP5130892B2 publication Critical patent/JP5130892B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、文字の符号化を行う技術に関し、具体的に、テキストにおける数字と特殊符号列の文字符号化処理方法及びシステムに関する。
自然言語テキストでは、数字と特殊符号(外来語符号を含み、例えば、中国語における英文字母)が、自然言語の基本符号として幅広く且つ多数存在している。中国語を例とすれば、人民日報1998年分の資料の中で、約25%の文には数字と特殊符号が存在している。
情報処理分野では、言語処理技術に関する多くの応用、例えば、言語の理解、マシン翻訳、言語音合成などは、何れもが自然言語のテキストに存在する数字、特殊符号列を正確に理解することを要求し、理解した上でその中の数字或いは特殊符号に対して文字符号化処理を行い、即ち、数字或いは特殊符号をそれに等価する文字に変換する。
言語音合成システムでは、数字或いは特殊符号に対して文字符号化処理を行った上で、文字を音声に変換する処理を行い、また、数字、特殊符号列の構造に基づいて適当な単語境界或いは一つ上のレベルの韻律単語境界を加えることにより、合成された言語音をより自然にさせる。よって、自然言語処理技術に関する多くの応用にとって、数字、特殊符号に対しての有効な文字符号化処理システムは必要である。
数字と特殊符号が自然言語テキストに幅広く存在しているので、多くの常用な固定型が形成されている。数字に即して言えば、上下文単語境界或いは習慣用法によって二種類の読み方があり、一つは数値的読み方であり、もう一つは電報的読み方である。中国語を例とすれば、“130”が数量を表す場合、例えば、“この高速プリンターは、一分間130ページを印刷することができる”ことを述べる時に“百三十”と読むが、“130医院”或いは“130掘削隊”のような上下文単語境界では“一三〇”と読む。また、例えば“70年”が、独立の文法ユニットとして、それ自体も多義性を有し、1970年としても良く、七十年間としても良い。この場合、より広く、より深い分析、例えば、段落や上下文単語境界の解析或いは語義理解の上で、それに対して正確な文字符号化処理を行う必要がある。
特殊符号の言語の使用形式が更に多種多様であり、特殊符号の文字符号化については、二つの側面で問題が存在する。一つ目は、その用法の多様性であり、二つ目は、その用法の多様性による多義性である。中国語を例とすれば、“−”、“/”及び“:”が三つの常用な符号である。それらは、異なる言語の使用手段として多くの固定表記に現れているので、コンピュータにより正確に理解することが難しい。それらの特殊符号は、通常、数字とともに現れ、更に、時には、それらの特殊符号、数字の中に漢字も入り混じ、組み合わせて大きな文法ユニットを構成する。例えば、“2000元/月”、“16日―19日”、“三ヶ月―六ヶ月”、“ボーイング−747”、“電話:65992238 65993388―1826、1828”などである。特殊符号の多義性も解決しなければならない問題の一つである。例えば、“:”が次の三つの文に異なる役割をしている。例文1と例文3における“:”が“比”として文字符号化されるべきであるが、例文2において“時”として文字符号化されるべきである。
例文1:“6:2:2の構成である給与制を実行する”
例文2:“7月21日夜19:30”
例文3:“6:2、5:7及び7:5のスコアで相手を破った”
自然言語テキストにおける複雑な形式の数字と特殊符号に対して行う文字符号化処理について、例えば、特許文献1−5に開示されている。
一般的に言えば、数字と特殊符号の文字符号化システムは、上下文単語境界に基づき、異なる形式の数字、特殊符号列に対して特別な規則を作ることにより実現される。例えば、“この高速プリンターが一分間130ページを印刷することができる”という文には、“130”である数字列とその直後の量詞である“ページ”を考査することにより、“130ページ”が“数詞+量詞”である理解を得ることができ、そして、対応する文字符号規則(数値的読み方)を用い、“この高速プリンターが一分間百三十ページを印刷することができる”である文字符号化結果が得られる。
従来技術において、数字と特殊符号の文字符号化システムが、入力テキストを順にスキャンすることで、その中にある数字と特殊符号列を区間ごとに抽出し、そして、それに対してテンプレートマッチングを行うことにより実現される。このようなシステムには、主に次の二つの欠点が存在している。
一つは、考査の範囲が語義ユニットの実際の区間より小さいことが多い。よって、場合によって、完全な語義理解ができず、ひいては語義理解が誤ったこともあり、誤った文字符号化の結果になってしまう。従来のシステムは、大体、入力テキストを順にスキャンし、数字或いは特殊符号を見つけたら、それを符号化することが可能かを随時判断し、特殊符号が現れたら、該特殊符号の処理規則を呼び出す。この種のスキャニング方法の弱点が、その考査の範囲の局所性にある。前述した簡単な“数値+量詞”の場合、一般的には問題がない。しかしながら、やや複雑な状況には、考査の範囲が比較的に狭く見える場合が有る。例えば、“1970年1月1日9:30”が、四つの区域である“1970年”、“1月”、“1日”及び“9:30”に分けられて処理される可能性がある。実際には、この四つの区域が一つの完全な語義ユニットを構成し、自然言語理解のポスト処理において一つの文ブロックとして処理されるべきであり、また、言語音合成の応用に関するポスト処理において一つの韻律フレーズとして見なされるべきである。更に、複雑な状況では、全体的に一つの語義ユニットを考査することができない場合があるので、一部の多義問題、特に、特殊符号の多義問題を解決することができない場合がある。以下は、三つの例文であり、これらを全体的に理解しないと正確な文字符号化処理を実現することができない。
例文1:“新たにエイズに感染した多くの人は年齢が15歳−24歳の若者である。”
例文2:“電話:65992238 65993388−1826、1828。
例文3:“遼中36−1油田は渤海の遼東湾の北部に位置する。”
また、全体的に理解しないと正確な文字符号処理を実現することができない他の例もある。以下は、二つの例文である。例文4の中における“1996”の部分の意味(年)が、“1996、1997二年”を考査した後にのみ確定されることができるので、電報的読み方で数字列“1996”を文字符号化すべきである。言い換えると、“1996”の文字符号化規則が“1997”の文字符号化規則を継承したものである。従って、ここでは、この種の問題を逆方向継承問題に分類する。勿論、この種の逆方向継承の使用が厳しく制限される。例えば、次の二つの中国語例文には、句読点の読点“、”が逆方向継承の欠くことのできない条件の一つである。
例文4:“1996、1997二年間だけでも10頭の繁殖に成功した。”
例文5:“アルカリ除去指導部により提供された資料によると:1985、1986、1987年の穀物の収穫量が連年増加する。”
ゆえに、従来技術のような、入力テキストを順次スキャンし、その中の数字と特殊符号列を区間ごとに抽出し、そして、それに対してテンプレートマッチングを行うことにより実現された数字と特殊符号列の処理は、一つの語義ユニットを全体的に考査することができないのみならず、逆方向継続的な方式で数字と特殊符号列を処理することも行わないので、テキストにおける多義問題、特に、特殊符号の多義問題を解決することができない。
米国特許第6,721,697号 米国特許第6,266,642号 米国特許第6,826,568号 米国特許第5,930,756号 米国特許第6,182,028号
本発明の目的は、テキストにおける数字と特殊符号の構成規則に基づき、テキストにおける数字、特殊符号列に対して区間ごとにテンプレート識別を行うと同時に、対象となる数字、特殊符号列の上下文単語境界、即ち、前後に隣接可能な数字、特殊符号列のテンプレートタイプを考査し、複雑な形式の数字、特殊符号列の対応する完全な語義ユニットを発見し、そして、該語義ユニットの対応する精確テンプレートを確定することにより、複雑な形式の数字、特殊符号列に対して精確な文字符号化処理を行うことができる、テキストにおける数字と特殊符号列の文字符号化処理方法及びシステムを提供することにある。
本発明は、自然言語テキストにおける数字と符号列の文字符号化処理方法を提供し、この方法は、自然言語テキストを入力するステップと、前記自然言語テキストにおける複数の数字と符号列を区間ごとに抽出するステップと、前記複数の数字と符号列と、予め記憶されたテンプレートとのマッチングを行い、前記複数の数字と符号列の各々が属する複数のテンプレートタイプを特定するステップと、前記複数の数字と符号列のうちの第1の数字と符号列の属するテンプレートタイプと、前記第1の数字と符号列に隣接する第2の数字と符号列のテンプレートタイプとに基づき、前記第1の数字と符号列に対して文字符号化処理を行うステップと、を含む。
前記第2の数字と符号列のテンプレートタイプから関連する上下文単語境界を発見した場合、前記第1の数字と符号列と、前記第2の数字と符号列とを併合し一つの語義ユニットを形成し、当該語義ユニットの対応するテンプレートを生成し、当該語義ユニットの対応する数字と符号列を記録する。
本発明により、テキストにおける数字と特殊符号の構成規則に基づいて、テキストにおける数字、特殊符号列に対して区間ごとにテンプレート識別を行うと同時に、処理対象となる数字、特殊符号の前後の数字、特殊符号列のテンプレートタイプも考査し、複雑な形式の数字、特殊符号列の対応する完全な語義ユニットを発見し、精確なテンプレートを確定し、複雑な形式の数字、特殊符号列に対して正確な文字符号化処理を行うことができることにある。
また、大きな語義ユニットに対してマークを付することもできる。例えば、自然言語理解のポスト処理において、大きな語義ユニットを一つの文ブロックとして標識され、或いは、言語音合成の応用に関するポスト処理において、韻律フレーズとして標識する。また、逆方向継承処理により、テキストにおける数字と特殊符号の識別精度と効率を向上することができる。
次に、添付した図面を参照しながら、本発明の好適な実施形態を詳細に説明する。
図1に示すように、本発明は、自然言語テキストにおける数字と符号列の文字符号化処理システムであり、このシステムは、自然言語テキストを入力するための入力部と、前記自然言語テキストにおける複数の数字と符号列を区間ごとに抽出するための数字と符号列抽出部と、前記複数の数字と符号列と、予め記憶されたテンプレートとのマッチングを行い、前記複数の数字と符号列の各々が属する複数のテンプレートタイプを特定するためのテンプレートマッチング部と、前記複数の数字と符号列のうちの第1の数字と符号列の属するテンプレートタイプと、前記第1の数字と符号列に隣接する第2の数字と符号列のテンプレートタイプとに基づいて、前記第1の数字と符号列に対して文字符号化処理を行い、前記第1の数字と符号列の文字符号化規則を生成するための文字符号化規則生成部と、履歴数字と符号列のテンプレートタイプ及びその相関情報を記録するための情報記録部と、を含む。
本発明のシステムは、コンピュータ、サーバ或いはサーバと端末からなるネットワークに実現され、その内、入力部は、キーボード、マウス、音声或いは通信インターフェースなどの方式或いはそれらの組合せであり、出力は、スクリーン、プリンター、通信インターフェース或いは音声などの方式或いはそれらの組合せである。
本願発明の原理が図2に示す。このシステムでは、モジュール101が、入力された任意のテキストである。
テキストプリ処理部102が入力テキストに対して処理を行い、例えば、句読点の処理、言語用符号の処理、他の言語文字の処理、コードフォーマットの統一(中国語の応用では、全角符号から半角符号への変換或いはその逆変換である)などがある。
数字・特殊符号列テンプレートマッチング部103が、入力テキストに存在することが可能な数字・特殊符号列を区間ごとにマッチングする。数字・特殊符号列テンプレートマッチング部103は、入力テキストを順にスキャンし、その中の数字・特殊符号を区間ごとに抽出し、そして、処理対象となる数字・特殊符号を、テンプレートデータベースに定義されたテンプレートとマッチングし、その属するテンプレートタイプを確定する。
上下文単語境界処理部104が処理対象となる数字・特殊符号列の上下文単語境界に対して分析を行い、全体的に理解した上で、対象となる数字・特殊符号列に対して正確な文字符号化処理を実現する。具体的に言えば、上下文単語境界処理部104が二つのサブモジュールから構成される。一つは、関連処理部1041であり、もう一つは、逆方向継承部1042である。前者は、まず、他の数字・特殊符号列の相関情報、例えば、区間範囲、マッチングテンプレートタイプ、文字符号化規則などを記録し、そして、対象となる数字・特殊符号列のテンプレートタイプに基づいて対応する上下文単語境界を考査し、全体的に対象となる数字と特殊符号列に対してより精確な文字符号化処理を行う。後者は、逆方向継承を行う。
数字・特殊符号列文字符号化部105が、数字・特殊符号列に対して文字符号化処理を行う。数字・特殊符号列文字符号化部105は、対象となる数字と特殊符号列の属するテンプレートタイプに基づいて、可能な単位境界を組合せて、対象となる数字・特殊符号列に対して文字符号化処理を行う。
106がポスト処理部であり、文字符号化プロセスにおいて新たに加えられた文字に対してポスト処理を行う。自然言語処理では、単語境界、文ブロック境界の追加などを行う。言語音合成では、新文字に対して音声付き及び境界韻律レベルの追加などを行う。
107が最終の分析結果である。
図3は、関連処理部1041である。
202が上下文単語境界考査部であり、対象となるテンプレートタイプ数字・特殊文字列テンプレートマッチング部103により得たものに基づいて、201であるテンプレート上下文単語境界考査データベースに記憶された上下文単語境界考査データを呼出し、対象となる数字・特殊符号列の上下文単語境界に対して考査を行う。対象となる数字・特殊符号列の上下文単語境界が、203に記憶された他の数字・特殊符号列のデータベースから得られる。
204が精確テンプレート生成部であり、即ち、前述した語義ユニット確定部である。これは、上下文単語境界考査部による考査結果に基づき、関連する上下文単語境界を発見した場合、即ち、大きな語義ユニットを発見した場合、この大きな語義ユニットの対応する精確テンプレートの生成を行う。新しく得られた精確テンプレートのタイプが205に記憶される。
206が数字・特殊符号列の記録部であり、数字・特殊符号列の情報を記録するためのものである。前述した精確テンプレート生成部に大きな語義ユニットを発見した場合、206は、前の数字と特殊符号列の情報を更新し、即ち、大きな数字と特殊符号列の語義ユニットにより前の局所的な数字と特殊符号列情報をカバーする。言い換えると、完全な語義ユニットに対応する数字・特殊符号列の履歴情報を記録する。
208が他の標識部であり、他の標識データベース207に基づき、対象となる大きな語義ユニットに対して必要な標識をつける。例えば、自然言語理解のポスト処理において、対象となる大きな語義ユニットが一つの文ブロックとして標識され、或いは、言語音合成応用に関するポスト処理において、韻律フレーズとして標識する。この場合、韻律単語の区分などを行うことがある。
文字符号化規則生成部210は、テンプレート文字符号化規則データベース209に記憶された、関連する精確テンプレートの文字符号化規則を呼び出し、対象となる数字・特殊符号列の文字符号化規則を生成するためのものである。分析結果が文字符号化規則分析結果211の中に記憶される。
図4は、逆方向継承部1042の処理フローチャートを示す。
301が数字・特殊符号列の履歴記録をスキャンするためのものである。
302が数字・特殊符号列の履歴記録の中に文字符号化されていない数字と特殊符号列があるかをチェックするためのものである。全ての数字・特殊符号列が文字符号化されていると判断した場合、処理が終了する。文字符号化されていない数字・特殊符号列が発見されたら、逆方向継承検査部304に進んで後の処理を行う。
逆方向継承検査部304は、対象となるテンプレートタイプに基づいてテンプレート逆方向継承データベース303に記憶された、関連する逆方向経継承制限条件を呼び出し、対象となる数字と特殊符号列が文字符号化規則を逆方向に継承することができるかをチャックする。継承ができないなら、301に進む。継承ができるなら、対象となる数字・特殊符号列の文字符号化の継承結果305を記入し、そして、301に進む。
本発明は、複雑な形式の数字、符号(特殊符号)列について、その対応する完全な語義ユニットを発見し、そして、該語義ユニットの対応する精確テンプレートを確定することができ、これにより、複雑な形式の数字、特殊符号列に対して精確な文字符号化処理を行うことができる。これをベースに、大きな語義ユニットに対して所要な他の標識を応用することもできる。例えば、自然言語理解のポスト処理において、対象となる大きな語義ユニットが一つの文ブロックとして標識され、或いは、言語音合成応用に関するポスト処理において、一つの韻律フレーズとして標識される。また、逆方向継承方法も提供する。
自然言語は、中国語、日本語、英語などの多言語を含み、ここでは、中国語を例とし、言語音合成システムに実現された、中国語テキストにおける数字と特殊符号に対しての文字符号化処理方法と装置は、テキストに存在可能な数字、特殊符号列に対して精確的な文字符号化処理を行うことができ、特に、複雑な数字や特殊符号列、例えば、電話番号、特殊符号を有する数量区間などに対しての処理に適用される。
図5は、中国語テキストにある数字と特殊符号の文字符号化処理の具体的な例を示すものである。数字・特殊符号列テンプレートマッチング部(モジュール103)が入力テキストに存在可能な数字・特殊符号列を区間ごとにマッチングする。そのうち、このモジュールは、入力テキストを順にスキャンし、その中の数字・特殊符号列を区間ごとに抽出し、そして、対象となる数字・特殊符号列とテンプレートデータベースに定義されたテンプレートとのマッチングを行い、その属するテンプレートタイプを獲得する。このようにすると、この例文のテキストには、二つの数字・特殊符号列、即ち、“15”と“−44”がある。しかし、実際には、“15歳―44歳”が一つの完全な語義ユニットである。単純な順序スキャン、逐段マッチングのメカニズムの下で、数字・特殊符号列に対しての考査範囲が大抵語義ユニットの実際の区間より小さい。よって、本例文に類似する状況では、完全な語義理解をすることができず、ひいてはある時には誤った語義理解であるため、誤った文字符号化結果を得てしまい。
図5では、枠が太いボックス内のものが、モジュール103である数字・特殊符号列テンプレートマッチング部が順序スキャン、逐段マッチングを行った後に得られた数字・特殊符号列である。第一個の数字・特殊符号列“15”のマッチングテンプレートが“一般的な正整数”であり、その直後の量詞“歳”と合わせ、その文字符号化方法が数値的読み方であると確定する。第二個の数字・特殊符号列“−44”のマッチングテンプレートが“ハイフォン符号先頭の数”であり、このマッチングテンプレートが関連処理部1041に渡されて上下文単語境界考査が行われ、その直後の量詞“歳”、前の数字・特殊符号列のテンプレートタイプと合わせることにより、対象となる数字・特殊符号列が前の数字・特殊符号列と組合せて一つの大きな語義ユニット、即ち“15歳−44歳”が生成され、その精確テンプレートが数量区間であると確定し、また、これにより、その文字符号化方法が数量区間、数値的読み方であると確定する。最後に、入力テキストである“エイズが15歳―44歳の青壮年の第一の死亡原因となっている。”が“エイズが十五歳乃至四十四歳の青壮年の第一の死亡原因となっている。”に文字符号化される。また、自然言語理解の応用では、他の標識部が“十五歳乃至四十四歳”を一つの完全な文ブロックとして標識することができる。言語音合成の応用では、他の標識部208が“十五歳”と“四十四歳”を二つの韻律単語として標識することができるが、“十五歳乃至四十四歳”を一つの韻律フレーズとして標識しても良い。
図6は、テキストにおける数字と特殊符号の文字符号化処理の逆方向継承の具体的な例を示すものである。
一般的言えば、数字・特殊符号列テンプレートマッチング部103が入力テキストに存在する数字・特殊符号列を区間ごとにマッチングする。数字・特殊符号列テンプレートマッチング部103は、入力テキストを順にスキャンし、その中の数字・特殊符号列を区間ごとに抽出し、そして、対象となる数字・特殊符号列とテンプレートデータベース内に定義されたテンプレートとのマッチングを行い、その属するテンプレートタイプを得る。このようにすると、この例文のテキストには、三つの数字・特殊符号列、即ち、“1985”、“1986”及び“1987”がある。“1985”或いは“1986”に対し処理を行う時に、左から右への順に分析し、この時は、局所的な理解だけであるため、正確な文字符号化処理を行うことができない。言い換えると、全体的に理解した上で、即ち、“1987(年)”の部分まで考査し、本発明の逆方向継承部により処理された後にのみ、全ての三つの数字・特殊符号列に対しての正確な文字符号化処理を実現することができる。
図6では、枠が太いボックス内のものが、数字・特殊符号列テンプレートマッチング部103が順次スキャン、逐次マッチングを行った後に得られた数字・特殊符号列である。一番目の数字・特殊符号列“1985”のマッチングテンプレートが“一般的な正整数(四桁)”であり、その前後のキーワードを全然考査していないので、その文字符号化方法を確定することができず、一時にデフォルトとして確定される。二番目の数字・特殊符号列“1986”も同様である。三番目の数字・特殊符号列“1987”のマッチングテンプレートが“一般的な正整数(四桁)”であり、その直後の特殊単語“年”と合わせる。対象となる数字・特殊符号列のテンプレートが“年の日付”であり、且つ、“1987”の文字符号化方法が電報的読み方であると確定する。そして、モジュール1042である逆方向継承部が逆方向継承の可能性の有無をチェックする。このようにすると、数字・特殊符号列“1986”直後の“、”及び直前の“、”が、“1986”がその後の数字・特殊符号列を逆方向に継承するとの文字符号化方法、即ち、“年”テンプレートの文字符号化方法を決定した。同様に、数字・特殊符号列“1985”も逆方向継承である。最後に、入力テキストの“アルカリ除去指導部により提供された資料によると:1985、1986、1987年の穀物の産量が連年増加する。”が、“アルカリ除去指導部により提供された資料によると:一九八五、一九八六、一九八七年の穀物の収穫量が連年増加する。”に文字符号化された。
図7は、テンプレート上下文単語境界考査データベース201の具体的な例を示すものである。
図7は、テンプレート上下文単語境界考査データベース201の基本データ構造とその例を示す。テンプレート上下文単語境界考査データベースは、少なくとも、対象となる数字・特殊符号列の属するテンプレートタイプと、前の数字・特殊符号列のテンプレートタイプと、前の数字・特殊符号列の終了位置と、前の数字・特殊符号列の拡張終了位置と、前の数字・特殊符号列のキーワードタイプと、対象となる数字・特殊符号列のキーワードタイプと、精確テンプレートタイプと、を記憶する。
図8は、数字・特殊符号列の履歴データベース203の具体的な例を示すものである。
図8は、数字・特殊符号列の履歴データベースの基本データ構造とその例(図5の例文の中の“15(歳)”)を示す。数字・特殊符号列の履歴データベースには、少なくとも、数字・特殊符号列の属するテンプレートタイプと、数字・特殊符号列の開始位置と、数字・特殊符号列の終了位置と、数字・特殊符号の拡張開始位置と、数字・特殊符号列の拡張終了位置と、数字・特殊符号列のキーワードタイプと、数字・特殊符号列のキーワード内容とが記憶される。
図9は、他の標識データベース207の具体的な例を示すものである。
図9は、他の標識データベース207の基本データ構造とその二つの例を示す。他の標識データベース207には、少なくとも、対象となる数字・特殊符号列の属するテンプレートタイプと、韻律単語標識規則と、韻律フレーズ標識規則とが記憶される。
図10は、テンプレート文字符号化規則データベース209の具体的な例を示すものである。
図10は、テンプレート文字符号化規則データベースの基本データ構造とその二つの例を示す。テンプレート文字符号化規則データベースには、少なくとも、テンプレートタイプと、上下文単語境界規則と、キーワード規則と、符号化規則とが記憶される。
図11は、テンプレート逆方向継承データベース303の具体的な例を示すものである。
図11では、テンプレート逆方向継承データベースの基本データ構造とその例を示す。テンプレート逆方向継承データベースには、少なくとも、対象となる数字・特殊符号列の属するテンプレートタイプと、次の数字・特殊符号列のテンプレートタイプと、次の数字・特殊符号列の開始位置と、対象となる数字・特殊符号列と次の数字・特殊符号列との間の分離符号と、対象となる数字・特殊符号列のキーワードタイプと、対象となる数字・特殊符号列と次の数字・特殊符号列との間の分離漢字と、逆方向継承規則とが記憶される。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の範囲に属する。
本発明のシステムの構造のブロック図である。 本発明のシステムの実施例のフローチャートである。 本発明の関連処理のフローチャートである。 本発明の逆方向継承のフローチャーである。 本発明の具体的な実施形態における文字符号化処理のフローチャートである。 本発明の具体的な実施形態における文字符号化処理の逆方向継承のフローチャートである。 本発明の具体的な実施形態におけるテンプレート上下文単語境界考査データベースを示す図である。 本発明の具体的な実施形態における数字・特殊符号列の履歴データベースを示す図である。 本発明の具体的な実施形態における他の標識データベースを示す図である。 本発明の具体的な実施形態におけるテンプレート文字符号化規則のデータベースを示す図である。 本発明の具体的な実施形態におけるテンプレート逆方向継承のデータベースを示す図である。
符号の説明
101 任意テキスト
102 テキストプリ処理部
103 数字・特殊符号列のテンプレートマッチング部
104 上下文単語境界処理部
1041 関連処理部
1042 逆方向継承部
105 数字・特殊符号列の文字符号化部
106 ポスト処理部
107 分析結果
201 テンプレート上下文単語境界考査データベース
202 上下文単語境界考査部
203 数字・特殊符号列の履歴データベース
204 精確テンプレート生成部
205 精確テンプレートタイプ
206 数字・特殊符号列の履歴記録部
207 他の標識データベース
208 他の標識部
209 テンプレート文字符号化規則データベース
210 文字符号化規則生成部
211 文字符号規則の分析結果
301 数字・特殊符号列の履歴記録をスキャンする
302 文字符号化されていない数字・特殊符号列の有無?
303 テンプレート逆方向継承データベース
304 逆方向継承検査部
305 文字符号化規則の継承結果

Claims (13)

  1. 自然言語テキストにおける数字と符号列の文字符号化処理方法であって、
    入力部が、ユーザから自然言語テキストを受けるステップと、
    抽出部が、前記自然言語テキストにおける複数の数字と符号列を区間ごとに抽出するステップと、
    テンプレートマッチング部が、前記複数の数字と符号列と、予め記憶されたテンプレートとのマッチングを行い、前記複数の数字と符号列の各々が属する複数のテンプレートタイプを特定するステップと、
    文字符号化部が、前記複数の数字と符号列のうちの第1の数字と符号列の属するテンプレートタイプと、前記第1の数字と符号列に隣接する第2の数字と符号列のテンプレートタイプとに基づき、前記第1の数字と符号列に対して文字符号化処理を行うステップと、
    逆方向承継部が、前記複数の数字と符号列のうち、前記第1の数字と符号列以外の他の全ての数字と符号列において、文字符号化処理されていない数字と符号列を発見した場合、当該数字と符号列に対して逆方向継承文字符号化を行うステップと、
    を含む、
    文字符号化処理方法。
  2. 上下文単語境界考査部が、前記第2の数字と符号列のテンプレートタイプから関連する上下文単語境界を発見した場合、前記第1の数字と符号列と、前記第2の数字と符号列とを併合し一つの語義ユニットを形成し、当該語義ユニットの対応するテンプレートを生成し、当該語義ユニットの対応する数字と符号列を記録する、
    請求項1に記載の文字符号処理方法。
  3. 語義ユニットマーク付け部が、前記語義ユニットに所定のマークを付する、
    請求項2に記載の文字符号処理方法。
  4. 前記上下文単語境界は、テンプレートタイプ、区間範囲または文字符号化規則を含む、
    請求項2に記載の文字符号処理方法。
  5. ポスト処理部が、文字符号化処理により新たに加えられた文字に対してポスト処理を行う、
    請求項1に記載の文字符号処理方法。
  6. 前記符号は、非自然言語符号である、
    請求項1に記載の文字符号処理方法。
  7. 自然言語テキストにおける数字と符号列の文字符号化処理システムであって、
    自然言語テキストを入力するための入力部と、
    前記自然言語テキストにおける複数の数字と符号列を区間ごとに抽出するための数字と符号列抽出部と、
    前記複数の数字と符号列と、予め記憶されたテンプレートとのマッチングを行い、前記複数の数字と符号列の各々が属する複数のテンプレートタイプを特定するためのテンプレートマッチング部と、
    前記複数の数字と符号列のうちの第1の数字と符号列の属するテンプレートタイプと、前記第1の数字と符号列に隣接する第2の数字と符号列のテンプレートタイプとに基づき、前記第1の数字と符号列に対して文字符号化処理を行い、前記第1の数字と符号列の文字符号化規則を生成するための文字符号化規則生成部と、
    前記複数の数字と符号列のうち、前記第1の数字と符号列以外の他の全ての数字と符号列において、文字符号化処理されていない数字と符号列を発見した場合、当該数字と符号列に対して逆方向継承文字符号化を行うための逆方向継承部と、
    を含む、
    文字符号化処理システム。
  8. 前記第2の数字と符号列のテンプレートタイプを考査するための上下文単語境界考査部と、
    前記第2の数字と符号列のテンプレートタイプから関連する上下文単語境界を発見した場合、前記第1の数字と符号列と、前記第2の数字と符号列とを併合し一つの語義ユニットを形成し、当該語義ユニットの対応するテンプレートを生成するための語義ユニット確定部と、
    を更に含み、
    前記語義ユニットの対応する数字と符号列が記録される、
    請求項に記載の文字符号処理方システム。
  9. 前記語義ユニットに所定のマークを付するための語義ユニットマーク付け部を更に含む、
    請求項に記載の文字符号処理方システム。
  10. 前記上下文単語境界は、テンプレートタイプ、区間範囲または文字符号化規則を含む、
    請求項に記載の文字符号処理方システム。
  11. 文字符号化処理により新たに加えられた文字に対してポスト処理を行うためのポスト処理部を更に含む、
    請求項に記載の文字符号処理方システム。
  12. 自然言語テキストにおける数字と符号列の文字符号化処理プログラムであって、コンピュータに
    自然言語テキストを入力するステップと、
    前記自然言語テキストにおける複数の数字と符号列を区間ごとに抽出するステップと、
    前記複数の数字と符号列と、予め記憶されたテンプレートとのマッチングを行い、前記複数の数字と符号列の各々が属する複数のテンプレートタイプを特定するステップと、
    前記複数の数字と符号列のうちの第1の数字と符号列の属するテンプレートタイプと、前記第1の数字と符号列に隣接する第2の数字と符号列のテンプレートタイプとに基づき、前記第1の数字と符号列に対して文字符号化処理を行うステップと、
    前記複数の数字と符号列のうち、前記第1の数字と符号列以外の他の全ての数字と符号列において、文字符号化処理されていない数字と符号列を発見した場合、当該数字と符号列に対して逆方向継承文字符号化を行うステップと、
    を実行させるための
    文字符号化処理プログラム。
  13. 自然言語テキストにおける数字と符号列の文字符号化処理プログラムを記憶したコンピュータ読み出し可能な記憶媒体であって、
    前記文字符号化処理プログラムはコンピュータに
    自然言語テキストを入力するステップと、
    前記自然言語テキストにおける複数の数字と符号列を区間ごとに抽出するステップと、
    前記複数の数字と符号列と、予め記憶されたテンプレートとのマッチングを行い、前記複数の数字と符号列の各々が属する複数のテンプレートタイプを特定するステップと、
    前記複数の数字と符号列のうちの第1の数字と符号列の属するテンプレートタイプと、前記第1の数字と符号列に隣接する第2の数字と符号列のテンプレートタイプとに基づき、前記第1の数字と符号列に対して文字符号化処理を行うステップと、
    前記複数の数字と符号列のうち、前記第1の数字と符号列以外の他の全ての数字と符号列において、文字符号化処理されていない数字と符号列を発見した場合、当該数字と符号列に対して逆方向継承文字符号化を行うステップと、
    を実行させる
    読み出し可能な記憶媒体。
JP2007318985A 2006-12-08 2007-12-10 文字符号化処理方法及びシステム Active JP5130892B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200610165633.3 2006-12-08
CNB2006101656333A CN100568225C (zh) 2006-12-08 2006-12-08 文本中数字和特殊符号串的文字符号化处理方法及系统

Publications (2)

Publication Number Publication Date
JP2008148322A JP2008148322A (ja) 2008-06-26
JP5130892B2 true JP5130892B2 (ja) 2013-01-30

Family

ID=39547308

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007318985A Active JP5130892B2 (ja) 2006-12-08 2007-12-10 文字符号化処理方法及びシステム

Country Status (2)

Country Link
JP (1) JP5130892B2 (ja)
CN (1) CN100568225C (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184167B (zh) * 2011-05-25 2013-01-02 安徽科大讯飞信息科技股份有限公司 一种文本数据处理方法和装置
CN103809766A (zh) * 2012-11-06 2014-05-21 夏普株式会社 将文字转换成表情符号的方法和电子装置
CN104035919A (zh) * 2014-06-25 2014-09-10 深圳市中兴移动通信有限公司 数字联想方法和装置
CN106708797B (zh) * 2015-07-15 2021-03-16 中兴通讯股份有限公司 一种文字处理方法和装置
CN105404670B (zh) * 2015-11-16 2018-09-25 北京奇虎科技有限公司 骚扰短信判别方法及装置
CN105589846B (zh) * 2015-12-22 2018-07-31 北京奇虎科技有限公司 一种识别数字语义的方法、检测短信类别的方法及装置
CN106293125A (zh) * 2016-08-09 2017-01-04 武汉开目信息技术股份有限公司 支持安卓系统的可进行特殊工艺符号输入的方法和系统
CN107633006B (zh) * 2017-08-09 2020-10-13 联动优势科技有限公司 一种词典格式生成方法及电子设备
CN107733924A (zh) * 2017-11-27 2018-02-23 北京小米移动软件有限公司 短信息云同步方法、装置、终端及存储介质
CN109299439B (zh) * 2018-08-22 2021-05-11 腾讯科技(深圳)有限公司 数字提取方法和装置、存储介质及电子装置
CN109558599B (zh) * 2018-11-07 2023-04-18 北京搜狗科技发展有限公司 一种转换方法、装置和电子设备
CN110136688B (zh) * 2019-04-15 2023-09-29 平安科技(深圳)有限公司 一种基于语音合成的文字转语音方法及相关设备
CN111026844B (zh) * 2019-12-04 2023-08-01 河北数云堂智能科技有限公司 一种识别数字串读法的方法及装置
CN114462399A (zh) * 2020-11-09 2022-05-10 中核核电运行管理有限公司 一种核电厂质量缺陷报告与状态报告的精确匹配方法
CN112800722B (zh) * 2021-02-09 2024-04-26 柳州智视科技有限公司 基于语义理解的文字组织编码方法
CN115346513A (zh) * 2021-04-27 2022-11-15 暗物智能科技(广州)有限公司 一种语音合成方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221418A (ja) * 1995-02-17 1996-08-30 Meidensha Corp 日本語処理システム
JP2005063030A (ja) * 2003-08-08 2005-03-10 Ricoh Co Ltd 概念表現方法、概念表現生成方法及び概念表現生成装置並びに該方法を実現するプログラム及び該プログラムが記録された記録媒体

Also Published As

Publication number Publication date
JP2008148322A (ja) 2008-06-26
CN100568225C (zh) 2009-12-09
CN101196881A (zh) 2008-06-11

Similar Documents

Publication Publication Date Title
JP5130892B2 (ja) 文字符号化処理方法及びシステム
CN112801010B (zh) 一种针对实际ocr场景下的视觉富文档信息抽取方法
US20210157975A1 (en) Device, system, and method for extracting named entities from sectioned documents
CN110489760A (zh) 基于深度神经网络文本自动校对方法及装置
CN109960728B (zh) 一种开放域会议信息命名实体识别方法及系统
Snoek et al. Modeling the noun morphology of Plains Cree
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
CN113591457A (zh) 文本纠错方法、装置、设备及存储介质
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
Uchimoto et al. Morphological analysis of the Corpus of Spontaneous Japanese
KR100629862B1 (ko) 외래어를 한국어로 표기하기 위한 한국어 표기장치 및 방법
Clérice et al. CATMuS Medieval: A multilingual large-scale cross-century dataset in Latin script for handwritten text recognition and beyond
TW420774B (en) Method and apparatus for automatically correcting documents in chinese language
CN113536776B (zh) 混淆语句的生成方法、终端设备及计算机可读存储介质
JP2019095603A (ja) 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
Romero et al. Information extraction in handwritten marriage licenses books
Szymanski Morphological inference from Bitext for resource-poor languages
KR100910275B1 (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치
Kaur et al. Improving the accuracy of tesseract OCR engine for machine printed Hindi documents
Namboodiri et al. On using classical poetry structure for Indian language post-processing
KR101080880B1 (ko) 외래어의 자동 음차 표기 방법 및 장치
Vidra Morphological segmentation of Czech words
Saychum et al. A great reduction of wer by syllable toneme prediction for thai grapheme to phoneme conversion
KR20090042201A (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120717

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121009

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121022

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5130892

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150