JP5130892B2

JP5130892B2 - 文字符号化処理方法及びシステム

Info

Publication number: JP5130892B2
Application number: JP2007318985A
Authority: JP
Inventors: チングオ; 伸之片江
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-12-08
Filing date: 2007-12-10
Publication date: 2013-01-30
Anticipated expiration: 2027-12-10
Also published as: JP2008148322A; CN100568225C; CN101196881A

Description

本発明は、文字の符号化を行う技術に関し、具体的に、テキストにおける数字と特殊符号列の文字符号化処理方法及びシステムに関する。

自然言語テキストでは、数字と特殊符号（外来語符号を含み、例えば、中国語における英文字母）が、自然言語の基本符号として幅広く且つ多数存在している。中国語を例とすれば、人民日報１９９８年分の資料の中で、約２５％の文には数字と特殊符号が存在している。

情報処理分野では、言語処理技術に関する多くの応用、例えば、言語の理解、マシン翻訳、言語音合成などは、何れもが自然言語のテキストに存在する数字、特殊符号列を正確に理解することを要求し、理解した上でその中の数字或いは特殊符号に対して文字符号化処理を行い、即ち、数字或いは特殊符号をそれに等価する文字に変換する。

言語音合成システムでは、数字或いは特殊符号に対して文字符号化処理を行った上で、文字を音声に変換する処理を行い、また、数字、特殊符号列の構造に基づいて適当な単語境界或いは一つ上のレベルの韻律単語境界を加えることにより、合成された言語音をより自然にさせる。よって、自然言語処理技術に関する多くの応用にとって、数字、特殊符号に対しての有効な文字符号化処理システムは必要である。

数字と特殊符号が自然言語テキストに幅広く存在しているので、多くの常用な固定型が形成されている。数字に即して言えば、上下文単語境界或いは習慣用法によって二種類の読み方があり、一つは数値的読み方であり、もう一つは電報的読み方である。中国語を例とすれば、“１３０”が数量を表す場合、例えば、“この高速プリンターは、一分間１３０ページを印刷することができる”ことを述べる時に“百三十”と読むが、“１３０医院”或いは“１３０掘削隊”のような上下文単語境界では“一三〇”と読む。また、例えば“７０年”が、独立の文法ユニットとして、それ自体も多義性を有し、１９７０年としても良く、七十年間としても良い。この場合、より広く、より深い分析、例えば、段落や上下文単語境界の解析或いは語義理解の上で、それに対して正確な文字符号化処理を行う必要がある。

特殊符号の言語の使用形式が更に多種多様であり、特殊符号の文字符号化については、二つの側面で問題が存在する。一つ目は、その用法の多様性であり、二つ目は、その用法の多様性による多義性である。中国語を例とすれば、“−”、“／”及び“：”が三つの常用な符号である。それらは、異なる言語の使用手段として多くの固定表記に現れているので、コンピュータにより正確に理解することが難しい。それらの特殊符号は、通常、数字とともに現れ、更に、時には、それらの特殊符号、数字の中に漢字も入り混じ、組み合わせて大きな文法ユニットを構成する。例えば、“２０００元／月”、“１６日―１９日”、“三ヶ月―六ヶ月”、“ボーイング−７４７”、“電話：６５９９２２３８６５９９３３８８―１８２６、１８２８”などである。特殊符号の多義性も解決しなければならない問題の一つである。例えば、“：”が次の三つの文に異なる役割をしている。例文１と例文３における“：”が“比”として文字符号化されるべきであるが、例文２において“時”として文字符号化されるべきである。

例文１：“６：２：２の構成である給与制を実行する”
例文２：“７月２１日夜１９：３０”
例文３：“６：２、５：７及び７：５のスコアで相手を破った”
自然言語テキストにおける複雑な形式の数字と特殊符号に対して行う文字符号化処理について、例えば、特許文献１−５に開示されている。

一般的に言えば、数字と特殊符号の文字符号化システムは、上下文単語境界に基づき、異なる形式の数字、特殊符号列に対して特別な規則を作ることにより実現される。例えば、“この高速プリンターが一分間１３０ページを印刷することができる”という文には、“１３０”である数字列とその直後の量詞である“ページ”を考査することにより、“１３０ページ”が“数詞＋量詞”である理解を得ることができ、そして、対応する文字符号規則（数値的読み方）を用い、“この高速プリンターが一分間百三十ページを印刷することができる”である文字符号化結果が得られる。

従来技術において、数字と特殊符号の文字符号化システムが、入力テキストを順にスキャンすることで、その中にある数字と特殊符号列を区間ごとに抽出し、そして、それに対してテンプレートマッチングを行うことにより実現される。このようなシステムには、主に次の二つの欠点が存在している。

一つは、考査の範囲が語義ユニットの実際の区間より小さいことが多い。よって、場合によって、完全な語義理解ができず、ひいては語義理解が誤ったこともあり、誤った文字符号化の結果になってしまう。従来のシステムは、大体、入力テキストを順にスキャンし、数字或いは特殊符号を見つけたら、それを符号化することが可能かを随時判断し、特殊符号が現れたら、該特殊符号の処理規則を呼び出す。この種のスキャニング方法の弱点が、その考査の範囲の局所性にある。前述した簡単な“数値＋量詞”の場合、一般的には問題がない。しかしながら、やや複雑な状況には、考査の範囲が比較的に狭く見える場合が有る。例えば、“１９７０年１月１日９：３０”が、四つの区域である“１９７０年”、“１月”、“１日”及び“９：３０”に分けられて処理される可能性がある。実際には、この四つの区域が一つの完全な語義ユニットを構成し、自然言語理解のポスト処理において一つの文ブロックとして処理されるべきであり、また、言語音合成の応用に関するポスト処理において一つの韻律フレーズとして見なされるべきである。更に、複雑な状況では、全体的に一つの語義ユニットを考査することができない場合があるので、一部の多義問題、特に、特殊符号の多義問題を解決することができない場合がある。以下は、三つの例文であり、これらを全体的に理解しないと正確な文字符号化処理を実現することができない。

例文１：“新たにエイズに感染した多くの人は年齢が１５歳−２４歳の若者である。”
例文２：“電話：６５９９２２３８６５９９３３８８−１８２６、１８２８。”
例文３：“遼中３６−１油田は渤海の遼東湾の北部に位置する。”
また、全体的に理解しないと正確な文字符号処理を実現することができない他の例もある。以下は、二つの例文である。例文４の中における“１９９６”の部分の意味（年）が、“１９９６、１９９７二年”を考査した後にのみ確定されることができるので、電報的読み方で数字列“１９９６”を文字符号化すべきである。言い換えると、“１９９６”の文字符号化規則が“１９９７”の文字符号化規則を継承したものである。従って、ここでは、この種の問題を逆方向継承問題に分類する。勿論、この種の逆方向継承の使用が厳しく制限される。例えば、次の二つの中国語例文には、句読点の読点“、”が逆方向継承の欠くことのできない条件の一つである。

例文４：“１９９６、１９９７二年間だけでも１０頭の繁殖に成功した。”
例文５：“アルカリ除去指導部により提供された資料によると：１９８５、１９８６、１９８７年の穀物の収穫量が連年増加する。”
ゆえに、従来技術のような、入力テキストを順次スキャンし、その中の数字と特殊符号列を区間ごとに抽出し、そして、それに対してテンプレートマッチングを行うことにより実現された数字と特殊符号列の処理は、一つの語義ユニットを全体的に考査することができないのみならず、逆方向継続的な方式で数字と特殊符号列を処理することも行わないので、テキストにおける多義問題、特に、特殊符号の多義問題を解決することができない。
米国特許第６，７２１，６９７号米国特許第６，２６６，６４２号米国特許第６，８２６，５６８号米国特許第５，９３０，７５６号米国特許第６，１８２，０２８号

本発明の目的は、テキストにおける数字と特殊符号の構成規則に基づき、テキストにおける数字、特殊符号列に対して区間ごとにテンプレート識別を行うと同時に、対象となる数字、特殊符号列の上下文単語境界、即ち、前後に隣接可能な数字、特殊符号列のテンプレートタイプを考査し、複雑な形式の数字、特殊符号列の対応する完全な語義ユニットを発見し、そして、該語義ユニットの対応する精確テンプレートを確定することにより、複雑な形式の数字、特殊符号列に対して精確な文字符号化処理を行うことができる、テキストにおける数字と特殊符号列の文字符号化処理方法及びシステムを提供することにある。

本発明は、自然言語テキストにおける数字と符号列の文字符号化処理方法を提供し、この方法は、自然言語テキストを入力するステップと、前記自然言語テキストにおける複数の数字と符号列を区間ごとに抽出するステップと、前記複数の数字と符号列と、予め記憶されたテンプレートとのマッチングを行い、前記複数の数字と符号列の各々が属する複数のテンプレートタイプを特定するステップと、前記複数の数字と符号列のうちの第1の数字と符号列の属するテンプレートタイプと、前記第1の数字と符号列に隣接する第２の数字と符号列のテンプレートタイプとに基づき、前記第1の数字と符号列に対して文字符号化処理を行うステップと、を含む。

前記第２の数字と符号列のテンプレートタイプから関連する上下文単語境界を発見した場合、前記第1の数字と符号列と、前記第2の数字と符号列とを併合し一つの語義ユニットを形成し、当該語義ユニットの対応するテンプレートを生成し、当該語義ユニットの対応する数字と符号列を記録する。

本発明により、テキストにおける数字と特殊符号の構成規則に基づいて、テキストにおける数字、特殊符号列に対して区間ごとにテンプレート識別を行うと同時に、処理対象となる数字、特殊符号の前後の数字、特殊符号列のテンプレートタイプも考査し、複雑な形式の数字、特殊符号列の対応する完全な語義ユニットを発見し、精確なテンプレートを確定し、複雑な形式の数字、特殊符号列に対して正確な文字符号化処理を行うことができることにある。

また、大きな語義ユニットに対してマークを付することもできる。例えば、自然言語理解のポスト処理において、大きな語義ユニットを一つの文ブロックとして標識され、或いは、言語音合成の応用に関するポスト処理において、韻律フレーズとして標識する。また、逆方向継承処理により、テキストにおける数字と特殊符号の識別精度と効率を向上することができる。

次に、添付した図面を参照しながら、本発明の好適な実施形態を詳細に説明する。

図１に示すように、本発明は、自然言語テキストにおける数字と符号列の文字符号化処理システムであり、このシステムは、自然言語テキストを入力するための入力部と、前記自然言語テキストにおける複数の数字と符号列を区間ごとに抽出するための数字と符号列抽出部と、前記複数の数字と符号列と、予め記憶されたテンプレートとのマッチングを行い、前記複数の数字と符号列の各々が属する複数のテンプレートタイプを特定するためのテンプレートマッチング部と、前記複数の数字と符号列のうちの第1の数字と符号列の属するテンプレートタイプと、前記第1の数字と符号列に隣接する第２の数字と符号列のテンプレートタイプとに基づいて、前記第1の数字と符号列に対して文字符号化処理を行い、前記第1の数字と符号列の文字符号化規則を生成するための文字符号化規則生成部と、履歴数字と符号列のテンプレートタイプ及びその相関情報を記録するための情報記録部と、を含む。

本発明のシステムは、コンピュータ、サーバ或いはサーバと端末からなるネットワークに実現され、その内、入力部は、キーボード、マウス、音声或いは通信インターフェースなどの方式或いはそれらの組合せであり、出力は、スクリーン、プリンター、通信インターフェース或いは音声などの方式或いはそれらの組合せである。

本願発明の原理が図２に示す。このシステムでは、モジュール１０１が、入力された任意のテキストである。

テキストプリ処理部１０２が入力テキストに対して処理を行い、例えば、句読点の処理、言語用符号の処理、他の言語文字の処理、コードフォーマットの統一（中国語の応用では、全角符号から半角符号への変換或いはその逆変換である）などがある。

数字・特殊符号列テンプレートマッチング部１０３が、入力テキストに存在することが可能な数字・特殊符号列を区間ごとにマッチングする。数字・特殊符号列テンプレートマッチング部１０３は、入力テキストを順にスキャンし、その中の数字・特殊符号を区間ごとに抽出し、そして、処理対象となる数字・特殊符号を、テンプレートデータベースに定義されたテンプレートとマッチングし、その属するテンプレートタイプを確定する。

上下文単語境界処理部１０４が処理対象となる数字・特殊符号列の上下文単語境界に対して分析を行い、全体的に理解した上で、対象となる数字・特殊符号列に対して正確な文字符号化処理を実現する。具体的に言えば、上下文単語境界処理部１０４が二つのサブモジュールから構成される。一つは、関連処理部１０４１であり、もう一つは、逆方向継承部１０４２である。前者は、まず、他の数字・特殊符号列の相関情報、例えば、区間範囲、マッチングテンプレートタイプ、文字符号化規則などを記録し、そして、対象となる数字・特殊符号列のテンプレートタイプに基づいて対応する上下文単語境界を考査し、全体的に対象となる数字と特殊符号列に対してより精確な文字符号化処理を行う。後者は、逆方向継承を行う。

数字・特殊符号列文字符号化部１０５が、数字・特殊符号列に対して文字符号化処理を行う。数字・特殊符号列文字符号化部１０５は、対象となる数字と特殊符号列の属するテンプレートタイプに基づいて、可能な単位境界を組合せて、対象となる数字・特殊符号列に対して文字符号化処理を行う。

１０６がポスト処理部であり、文字符号化プロセスにおいて新たに加えられた文字に対してポスト処理を行う。自然言語処理では、単語境界、文ブロック境界の追加などを行う。言語音合成では、新文字に対して音声付き及び境界韻律レベルの追加などを行う。

１０７が最終の分析結果である。

図３は、関連処理部１０４１である。

２０２が上下文単語境界考査部であり、対象となるテンプレートタイプ数字・特殊文字列テンプレートマッチング部１０３により得たものに基づいて、２０１であるテンプレート上下文単語境界考査データベースに記憶された上下文単語境界考査データを呼び出し、対象となる数字・特殊符号列の上下文単語境界に対して考査を行う。対象となる数字・特殊符号列の上下文単語境界が、２０３に記憶された他の数字・特殊符号列のデータベースから得られる。

２０４が精確テンプレート生成部であり、即ち、前述した語義ユニット確定部である。これは、上下文単語境界考査部による考査結果に基づき、関連する上下文単語境界を発見した場合、即ち、大きな語義ユニットを発見した場合、この大きな語義ユニットの対応する精確テンプレートの生成を行う。新しく得られた精確テンプレートのタイプが２０５に記憶される。

２０６が数字・特殊符号列の記録部であり、数字・特殊符号列の情報を記録するためのものである。前述した精確テンプレート生成部に大きな語義ユニットを発見した場合、２０６は、前の数字と特殊符号列の情報を更新し、即ち、大きな数字と特殊符号列の語義ユニットにより前の局所的な数字と特殊符号列情報をカバーする。言い換えると、完全な語義ユニットに対応する数字・特殊符号列の履歴情報を記録する。

２０８が他の標識部であり、他の標識データベース２０７に基づき、対象となる大きな語義ユニットに対して必要な標識をつける。例えば、自然言語理解のポスト処理において、対象となる大きな語義ユニットが一つの文ブロックとして標識され、或いは、言語音合成応用に関するポスト処理において、韻律フレーズとして標識する。この場合、韻律単語の区分などを行うことがある。

文字符号化規則生成部２１０は、テンプレート文字符号化規則データベース２０９に記憶された、関連する精確テンプレートの文字符号化規則を呼び出し、対象となる数字・特殊符号列の文字符号化規則を生成するためのものである。分析結果が文字符号化規則分析結果２１１の中に記憶される。

図４は、逆方向継承部１０４２の処理フローチャートを示す。

３０１が数字・特殊符号列の履歴記録をスキャンするためのものである。

３０２が数字・特殊符号列の履歴記録の中に文字符号化されていない数字と特殊符号列があるかをチェックするためのものである。全ての数字・特殊符号列が文字符号化されていると判断した場合、処理が終了する。文字符号化されていない数字・特殊符号列が発見されたら、逆方向継承検査部３０４に進んで後の処理を行う。

逆方向継承検査部３０４は、対象となるテンプレートタイプに基づいてテンプレート逆方向継承データベース３０３に記憶された、関連する逆方向経継承制限条件を呼び出し、対象となる数字と特殊符号列が文字符号化規則を逆方向に継承することができるかをチャックする。継承ができないなら、３０１に進む。継承ができるなら、対象となる数字・特殊符号列の文字符号化の継承結果３０５を記入し、そして、３０１に進む。

本発明は、複雑な形式の数字、符号（特殊符号）列について、その対応する完全な語義ユニットを発見し、そして、該語義ユニットの対応する精確テンプレートを確定することができ、これにより、複雑な形式の数字、特殊符号列に対して精確な文字符号化処理を行うことができる。これをベースに、大きな語義ユニットに対して所要な他の標識を応用することもできる。例えば、自然言語理解のポスト処理において、対象となる大きな語義ユニットが一つの文ブロックとして標識され、或いは、言語音合成応用に関するポスト処理において、一つの韻律フレーズとして標識される。また、逆方向継承方法も提供する。

自然言語は、中国語、日本語、英語などの多言語を含み、ここでは、中国語を例とし、言語音合成システムに実現された、中国語テキストにおける数字と特殊符号に対しての文字符号化処理方法と装置は、テキストに存在可能な数字、特殊符号列に対して精確的な文字符号化処理を行うことができ、特に、複雑な数字や特殊符号列、例えば、電話番号、特殊符号を有する数量区間などに対しての処理に適用される。

図５は、中国語テキストにある数字と特殊符号の文字符号化処理の具体的な例を示すものである。数字・特殊符号列テンプレートマッチング部（モジュール１０３）が入力テキストに存在可能な数字・特殊符号列を区間ごとにマッチングする。そのうち、このモジュールは、入力テキストを順にスキャンし、その中の数字・特殊符号列を区間ごとに抽出し、そして、対象となる数字・特殊符号列とテンプレートデータベースに定義されたテンプレートとのマッチングを行い、その属するテンプレートタイプを獲得する。このようにすると、この例文のテキストには、二つの数字・特殊符号列、即ち、“１５”と“−４４”がある。しかし、実際には、“１５歳―４４歳”が一つの完全な語義ユニットである。単純な順序スキャン、逐段マッチングのメカニズムの下で、数字・特殊符号列に対しての考査範囲が大抵語義ユニットの実際の区間より小さい。よって、本例文に類似する状況では、完全な語義理解をすることができず、ひいてはある時には誤った語義理解であるため、誤った文字符号化結果を得てしまい。

図５では、枠が太いボックス内のものが、モジュール１０３である数字・特殊符号列テンプレートマッチング部が順序スキャン、逐段マッチングを行った後に得られた数字・特殊符号列である。第一個の数字・特殊符号列“１５”のマッチングテンプレートが“一般的な正整数”であり、その直後の量詞“歳”と合わせ、その文字符号化方法が数値的読み方であると確定する。第二個の数字・特殊符号列“−４４”のマッチングテンプレートが“ハイフォン符号先頭の数”であり、このマッチングテンプレートが関連処理部１０４１に渡されて上下文単語境界考査が行われ、その直後の量詞“歳”、前の数字・特殊符号列のテンプレートタイプと合わせることにより、対象となる数字・特殊符号列が前の数字・特殊符号列と組合せて一つの大きな語義ユニット、即ち“１５歳−４４歳”が生成され、その精確テンプレートが数量区間であると確定し、また、これにより、その文字符号化方法が数量区間、数値的読み方であると確定する。最後に、入力テキストである“エイズが１５歳―４４歳の青壮年の第一の死亡原因となっている。”が“エイズが十五歳乃至四十四歳の青壮年の第一の死亡原因となっている。”に文字符号化される。また、自然言語理解の応用では、他の標識部が“十五歳乃至四十四歳”を一つの完全な文ブロックとして標識することができる。言語音合成の応用では、他の標識部２０８が“十五歳”と“四十四歳”を二つの韻律単語として標識することができるが、“十五歳乃至四十四歳”を一つの韻律フレーズとして標識しても良い。

図６は、テキストにおける数字と特殊符号の文字符号化処理の逆方向継承の具体的な例を示すものである。

一般的言えば、数字・特殊符号列テンプレートマッチング部１０３が入力テキストに存在する数字・特殊符号列を区間ごとにマッチングする。数字・特殊符号列テンプレートマッチング部１０３は、入力テキストを順にスキャンし、その中の数字・特殊符号列を区間ごとに抽出し、そして、対象となる数字・特殊符号列とテンプレートデータベース内に定義されたテンプレートとのマッチングを行い、その属するテンプレートタイプを得る。このようにすると、この例文のテキストには、三つの数字・特殊符号列、即ち、“１９８５”、“１９８６”及び“１９８７”がある。“１９８５”或いは“１９８６”に対し処理を行う時に、左から右への順に分析し、この時は、局所的な理解だけであるため、正確な文字符号化処理を行うことができない。言い換えると、全体的に理解した上で、即ち、“１９８７（年）”の部分まで考査し、本発明の逆方向継承部により処理された後にのみ、全ての三つの数字・特殊符号列に対しての正確な文字符号化処理を実現することができる。

図６では、枠が太いボックス内のものが、数字・特殊符号列テンプレートマッチング部１０３が順次スキャン、逐次マッチングを行った後に得られた数字・特殊符号列である。一番目の数字・特殊符号列“１９８５”のマッチングテンプレートが“一般的な正整数（四桁）”であり、その前後のキーワードを全然考査していないので、その文字符号化方法を確定することができず、一時にデフォルトとして確定される。二番目の数字・特殊符号列“１９８６”も同様である。三番目の数字・特殊符号列“１９８７”のマッチングテンプレートが“一般的な正整数（四桁）”であり、その直後の特殊単語“年”と合わせる。対象となる数字・特殊符号列のテンプレートが“年の日付”であり、且つ、“１９８７”の文字符号化方法が電報的読み方であると確定する。そして、モジュール１０４２である逆方向継承部が逆方向継承の可能性の有無をチェックする。このようにすると、数字・特殊符号列“１９８６”直後の“、”及び直前の“、”が、“１９８６”がその後の数字・特殊符号列を逆方向に継承するとの文字符号化方法、即ち、“年”テンプレートの文字符号化方法を決定した。同様に、数字・特殊符号列“１９８５”も逆方向継承である。最後に、入力テキストの“アルカリ除去指導部により提供された資料によると：１９８５、１９８６、１９８７年の穀物の産量が連年増加する。”が、“アルカリ除去指導部により提供された資料によると：一九八五、一九八六、一九八七年の穀物の収穫量が連年増加する。”に文字符号化された。

図７は、テンプレート上下文単語境界考査データベース２０１の具体的な例を示すものである。

図７は、テンプレート上下文単語境界考査データベース２０１の基本データ構造とその例を示す。テンプレート上下文単語境界考査データベースは、少なくとも、対象となる数字・特殊符号列の属するテンプレートタイプと、前の数字・特殊符号列のテンプレートタイプと、前の数字・特殊符号列の終了位置と、前の数字・特殊符号列の拡張終了位置と、前の数字・特殊符号列のキーワードタイプと、対象となる数字・特殊符号列のキーワードタイプと、精確テンプレートタイプと、を記憶する。

図８は、数字・特殊符号列の履歴データベース２０３の具体的な例を示すものである。

図８は、数字・特殊符号列の履歴データベースの基本データ構造とその例（図５の例文の中の“１５（歳）”）を示す。数字・特殊符号列の履歴データベースには、少なくとも、数字・特殊符号列の属するテンプレートタイプと、数字・特殊符号列の開始位置と、数字・特殊符号列の終了位置と、数字・特殊符号の拡張開始位置と、数字・特殊符号列の拡張終了位置と、数字・特殊符号列のキーワードタイプと、数字・特殊符号列のキーワード内容とが記憶される。

図９は、他の標識データベース２０７の具体的な例を示すものである。

図９は、他の標識データベース２０７の基本データ構造とその二つの例を示す。他の標識データベース２０７には、少なくとも、対象となる数字・特殊符号列の属するテンプレートタイプと、韻律単語標識規則と、韻律フレーズ標識規則とが記憶される。

図１０は、テンプレート文字符号化規則データベース２０９の具体的な例を示すものである。

図１０は、テンプレート文字符号化規則データベースの基本データ構造とその二つの例を示す。テンプレート文字符号化規則データベースには、少なくとも、テンプレートタイプと、上下文単語境界規則と、キーワード規則と、符号化規則とが記憶される。

図１１は、テンプレート逆方向継承データベース３０３の具体的な例を示すものである。

図１１では、テンプレート逆方向継承データベースの基本データ構造とその例を示す。テンプレート逆方向継承データベースには、少なくとも、対象となる数字・特殊符号列の属するテンプレートタイプと、次の数字・特殊符号列のテンプレートタイプと、次の数字・特殊符号列の開始位置と、対象となる数字・特殊符号列と次の数字・特殊符号列との間の分離符号と、対象となる数字・特殊符号列のキーワードタイプと、対象となる数字・特殊符号列と次の数字・特殊符号列との間の分離漢字と、逆方向継承規則とが記憶される。

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の範囲に属する。

本発明のシステムの構造のブロック図である。本発明のシステムの実施例のフローチャートである。本発明の関連処理のフローチャートである。本発明の逆方向継承のフローチャーである。本発明の具体的な実施形態における文字符号化処理のフローチャートである。本発明の具体的な実施形態における文字符号化処理の逆方向継承のフローチャートである。本発明の具体的な実施形態におけるテンプレート上下文単語境界考査データベースを示す図である。本発明の具体的な実施形態における数字・特殊符号列の履歴データベースを示す図である。本発明の具体的な実施形態における他の標識データベースを示す図である。本発明の具体的な実施形態におけるテンプレート文字符号化規則のデータベースを示す図である。本発明の具体的な実施形態におけるテンプレート逆方向継承のデータベースを示す図である。

符号の説明

１０１任意テキスト
１０２テキストプリ処理部
１０３数字・特殊符号列のテンプレートマッチング部
１０４上下文単語境界処理部
１０４１関連処理部
１０４２逆方向継承部
１０５数字・特殊符号列の文字符号化部
１０６ポスト処理部
１０７分析結果
２０１テンプレート上下文単語境界考査データベース
２０２上下文単語境界考査部
２０３数字・特殊符号列の履歴データベース
２０４精確テンプレート生成部
２０５精確テンプレートタイプ
２０６数字・特殊符号列の履歴記録部
２０７他の標識データベース
２０８他の標識部
２０９テンプレート文字符号化規則データベース
２１０文字符号化規則生成部
２１１文字符号規則の分析結果
３０１数字・特殊符号列の履歴記録をスキャンする
３０２文字符号化されていない数字・特殊符号列の有無？
３０３テンプレート逆方向継承データベース
３０４逆方向継承検査部
３０５文字符号化規則の継承結果

Claims

自然言語テキストにおける数字と符号列の文字符号化処理方法であって、
入力部が、ユーザから自然言語テキストを受けるステップと、
抽出部が、前記自然言語テキストにおける複数の数字と符号列を区間ごとに抽出するステップと、
テンプレートマッチング部が、前記複数の数字と符号列と、予め記憶されたテンプレートとのマッチングを行い、前記複数の数字と符号列の各々が属する複数のテンプレートタイプを特定するステップと、
文字符号化部が、前記複数の数字と符号列のうちの第1の数字と符号列の属するテンプレートタイプと、前記第1の数字と符号列に隣接する第２の数字と符号列のテンプレートタイプとに基づき、前記第1の数字と符号列に対して文字符号化処理を行うステップと、
逆方向承継部が、前記複数の数字と符号列のうち、前記第1の数字と符号列以外の他の全ての数字と符号列において、文字符号化処理されていない数字と符号列を発見した場合、当該数字と符号列に対して逆方向継承文字符号化を行うステップと、
を含む、
文字符号化処理方法。
上下文単語境界考査部が、前記第２の数字と符号列のテンプレートタイプから関連する上下文単語境界を発見した場合、前記第1の数字と符号列と、前記第2の数字と符号列とを併合し一つの語義ユニットを形成し、当該語義ユニットの対応するテンプレートを生成し、当該語義ユニットの対応する数字と符号列を記録する、
請求項１に記載の文字符号処理方法。
語義ユニットマーク付け部が、前記語義ユニットに所定のマークを付する、
請求項２に記載の文字符号処理方法。
前記上下文単語境界は、テンプレートタイプ、区間範囲または文字符号化規則を含む、
請求項２に記載の文字符号処理方法。
ポスト処理部が、文字符号化処理により新たに加えられた文字に対してポスト処理を行う、
請求項１に記載の文字符号処理方法。
前記符号は、非自然言語符号である、
請求項１に記載の文字符号処理方法。
自然言語テキストにおける数字と符号列の文字符号化処理システムであって、
自然言語テキストを入力するための入力部と、
前記自然言語テキストにおける複数の数字と符号列を区間ごとに抽出するための数字と符号列抽出部と、
前記複数の数字と符号列と、予め記憶されたテンプレートとのマッチングを行い、前記複数の数字と符号列の各々が属する複数のテンプレートタイプを特定するためのテンプレートマッチング部と、
前記複数の数字と符号列のうちの第1の数字と符号列の属するテンプレートタイプと、前記第1の数字と符号列に隣接する第２の数字と符号列のテンプレートタイプとに基づき、前記第1の数字と符号列に対して文字符号化処理を行い、前記第1の数字と符号列の文字符号化規則を生成するための文字符号化規則生成部と、
前記複数の数字と符号列のうち、前記第1の数字と符号列以外の他の全ての数字と符号列において、文字符号化処理されていない数字と符号列を発見した場合、当該数字と符号列に対して逆方向継承文字符号化を行うための逆方向継承部と、
を含む、
文字符号化処理システム。
前記第2の数字と符号列のテンプレートタイプを考査するための上下文単語境界考査部と、
前記第２の数字と符号列のテンプレートタイプから関連する上下文単語境界を発見した場合、前記第1の数字と符号列と、前記第2の数字と符号列とを併合し一つの語義ユニットを形成し、当該語義ユニットの対応するテンプレートを生成するための語義ユニット確定部と、
を更に含み、
前記語義ユニットの対応する数字と符号列が記録される、
請求項７に記載の文字符号処理方システム。
前記語義ユニットに所定のマークを付するための語義ユニットマーク付け部を更に含む、
請求項８に記載の文字符号処理方システム。
前記上下文単語境界は、テンプレートタイプ、区間範囲または文字符号化規則を含む、
請求項８に記載の文字符号処理方システム。
文字符号化処理により新たに加えられた文字に対してポスト処理を行うためのポスト処理部を更に含む、
請求項７に記載の文字符号処理方システム。
自然言語テキストにおける数字と符号列の文字符号化処理プログラムであって、コンピュータに
自然言語テキストを入力するステップと、
前記自然言語テキストにおける複数の数字と符号列を区間ごとに抽出するステップと、
前記複数の数字と符号列と、予め記憶されたテンプレートとのマッチングを行い、前記複数の数字と符号列の各々が属する複数のテンプレートタイプを特定するステップと、
前記複数の数字と符号列のうちの第1の数字と符号列の属するテンプレートタイプと、前記第1の数字と符号列に隣接する第２の数字と符号列のテンプレートタイプとに基づき、前記第1の数字と符号列に対して文字符号化処理を行うステップと、
前記複数の数字と符号列のうち、前記第1の数字と符号列以外の他の全ての数字と符号列において、文字符号化処理されていない数字と符号列を発見した場合、当該数字と符号列に対して逆方向継承文字符号化を行うステップと、
を実行させるための
文字符号化処理プログラム。
自然言語テキストにおける数字と符号列の文字符号化処理プログラムを記憶したコンピュータ読み出し可能な記憶媒体であって、
前記文字符号化処理プログラムはコンピュータに
自然言語テキストを入力するステップと、
前記自然言語テキストにおける複数の数字と符号列を区間ごとに抽出するステップと、
前記複数の数字と符号列と、予め記憶されたテンプレートとのマッチングを行い、前記複数の数字と符号列の各々が属する複数のテンプレートタイプを特定するステップと、
前記複数の数字と符号列のうちの第1の数字と符号列の属するテンプレートタイプと、前記第1の数字と符号列に隣接する第２の数字と符号列のテンプレートタイプとに基づき、前記第1の数字と符号列に対して文字符号化処理を行うステップと、
前記複数の数字と符号列のうち、前記第1の数字と符号列以外の他の全ての数字と符号列において、文字符号化処理されていない数字と符号列を発見した場合、当該数字と符号列に対して逆方向継承文字符号化を行うステップと、
を実行させる
読み出し可能な記憶媒体。