JP2009524852A - 表意文字内容を有するデータを探索およびマッチングするためのシステムおよび方法 - Google Patents

表意文字内容を有するデータを探索およびマッチングするためのシステムおよび方法 Download PDF

Info

Publication number
JP2009524852A
JP2009524852A JP2008542446A JP2008542446A JP2009524852A JP 2009524852 A JP2009524852 A JP 2009524852A JP 2008542446 A JP2008542446 A JP 2008542446A JP 2008542446 A JP2008542446 A JP 2008542446A JP 2009524852 A JP2009524852 A JP 2009524852A
Authority
JP
Japan
Prior art keywords
match
matching
data
elements
ideographic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008542446A
Other languages
English (en)
Other versions
JP5274259B2 (ja
JP2009524852A5 (ja
Inventor
スクリッフィニャーノ アンソニー
ネッド ケヴィン
シャオ ペイ
シム ペン ガン
ルウ サラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dun&bradstreet inc
Original Assignee
Dun&bradstreet inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dun&bradstreet inc filed Critical Dun&bradstreet inc
Publication of JP2009524852A publication Critical patent/JP2009524852A/ja
Publication of JP2009524852A5 publication Critical patent/JP2009524852A5/ja
Application granted granted Critical
Publication of JP5274259B2 publication Critical patent/JP5274259B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Hardware Redundancy (AREA)
  • Circuits Of Receivers In General (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

非音標文字または表意文字の入力データを探索し、記憶されたデータとマッチングする方法において、複数の要素を有する探索ストリングを含む入力データを受け取るステップと、該要素のサブセットを用語のセットに変換するステップと、該用語のセットから最適化された複数のキーを生成するステップと、該最適化されたキーに基づいて、最高確率で一致する候補に相応して、記憶されたデータを検索するステップと、該複数の候補から最良の一致物を選択するステップとを有する方法。前記表意文字要素のうち少なくとも幾つかが、表意文字表記システムの一部を構成する。本方法はまた、前記探索ストリングを複数のオーバーラップするセグメントに分割するステップと、前記表意文字表記システムにおいて推定されたセマンティックな意味を有するサブセグメントとセマンティックな意味を有さないサブセグメントとを識別するステップと、種々の該サブセグメントを使用して、最適化されたキーを生成するステップとを有する。

Description

関連出願との相互引用関係
本願は、2005年11月23日に提出された米国仮出願第60/739270号の優先権を主張する。この内容はすべて、引用によって本願に含まれるものとする。
背景
1. 分野
本願の開示内容は、データの探索およびマッチングに関連し、より詳細には、非音標的内容、意味論的内容または表意文字的な内容を含むデータの探索およびマッチングに関連する。
2. 関連分野の説明
データベース内のデータを効率的に利用するためには、効率的なデータベースアクセスおよび探索を行えることが重要である。この課題で重要なのは、参照領域に記憶された各データ要素すべてを探索する必要なく、一致物を見つけるために動作する手段によって探索される適正なデータの効率的な検索を可能にすることである。
探索マッチングシステムは公知であり、種々の用途に対して、データベースから重要な情報を検索するための有利な手段を提供する。たとえばクレジット産業では、クレジットのために考慮される所与のビジネス実体でのクレジット履歴情報が、典型的には、市販のデータベースによって処理される。ユーザはビジネス実体の名前を、データベースに接続されたプロセッサに入力することができ、その際にはデータベースは、該データベース内に含まれる所与のエンティティを位置検出し、このクレジット履歴情報を検索する。別の例に、共通しないソースからの情報を統合してカスタマまたはサプライヤの共通表示を得ることをユーザが望むアプリケーションが含まれる。
米国特許公開第2004/0220918A1号で公開されている米国特許出願第10/702114に、入力データを探索して記憶されたデータとマッチングするための方法およびシステムの例が開示されている。この公開内容はすべて、引用によって本願の内容に含まれるものとする。この基本的なアプローチは、順番に実施される3つのプロセスを含む。これらは図1に示されている:
1. クレンジング、構文解析および標準化
このプロセスは、
a)問い合わせデータの重要な構成要素の識別
b)名前、住所および都市のデータの規格化
c)住所データの標準化
を含む。
2. 候補検索
これは、
a)問い合わせで供給されたデータに基づくキーの選択
b)検索品質および検索速度を改善するためのキーの最適化
c)参照データベースから、可能な一致物候補のうちで最良の一致物候補を集めること
を含む。
3. 評価および判定
このステップは、主観的な判定をたとえば一致階級パターン等の客観的な基準に異なって翻訳し、他の利益の中でも同様の品質のグルーピングに結果を全体的に階層化するために個別の属性判定および信頼性コードを反映するための一貫した再現可能な一致品質フィードバックを使用する一貫した規格にしたがって一致物を評価することを含む。これらの処理によって、自動判定が可能になる。
従来のアジア系一致物フィードバック情報は、一致物問い合わせ結果がA,BまたはCとして分類される階層に制限されていた。このフィードバックのレベルは、AレベルまたはBレベルの一致物の中の結果を個別のレベルで区別することなく、理論レベルよりも低い。というのも、各カテゴリ内の一致物の数は、とりわけBカテゴリ内の一致物の数は有意であり、自然言語話者による手動の介入なしでは、これらを区別することができないからである。
A一致物とB一致物とC一致物とを分解することは可能であるが、一致物を検証するのに人間のインタラクションを必要とする、手動に大きく依存するプロセスであるという点で高コストである。
マッチングされるカテゴリは、以下で記載されている通りである。「A」一致は、一致の尤度が高いことを示唆するが、重複するものと一致するもの、または偽の一致物を含む可能性がある。「B」一致は、可能性のある一致物を示唆するが、解するために手動の調査を必要とする。「C」一致は不一致の可能性を示唆するが、これは、問い合わせデータの不足に起因する可能性がある。
上記の環境における自動判定に係る問題は、粒度の不足である。一致の品質にさらなるフィードバックが行われないと、ユーザは多数の「B」一致物の中から、最良の一致物を選択することができない。A一致物の中でさえ、各一致物を手動で閲覧することの信頼性の欠落を改善することができない。
図2に従来技術のマッチングシステムのダイヤグラムが示されている。
このシステムでは、異なるレベルのマッチングを有する問い合わせ結果をさらに区別するために、高レベルの一致フィードバックをより高粒度で行い、相応の信頼性コードにマッピングする。ターゲット信頼性コード("CC")は有利には、範囲の保守的端部で選択される。次のチューニングによって、このマッピングの分布が強化される。図3に、このマッピングの一例が示されている。
7以上の信頼性コードでは、このような一致物を人間の介入なしで受け入れられることにより、市場の多くのカスタマがシステムを自動判定に設定する。すべての信頼性コード7の一致物が完全な一致物であるとは限らないので、自動判定閾値を注意深く考慮するのが有利である。その逆に、7を下回る信頼性コードが使用される場合、多くの良好な一致物が無視される可能性がある。したがって、7が品質閾値の保守的端部であり、とりわけ、日本語等の複雑な言語の一致物の品質閾値の保守的端部である。
5〜7の間の信頼性は、とりわけ入力データが散在する状態で、「良好な」一致物がなお存在することを意味する。このような信頼性コード範囲を有する結果ではしばしば、確認のために注意深い検査を行わなければならないことが多い。このことは、日本語文字の例では、自然言語の内在的な複雑さと、使用される表記方式が多様であることとに起因して、しばしば必要とされる。重複による誤った一致物も幾つか存在することがある。
4の信頼性コードは通常、最も低い信頼性コードであるが、この信頼性コードは多くのプロセスにおいて、なお表示されることを考慮される。このような一致物は、適正な一致物であるとするのは「尤もでなく」、一般的には、問い合わせデータが非常に散在しているか、または別の情状酌量の余地がある周辺条件を引き合いに出せるのでない限り、使用すべきでない。
しかし、上記の例で理解できるように、一致業務の識別子またはコンタクト情報等のデータのセットが「7以上」の信頼性コードの一致物であると見なすのにほとんど十分であるのに、このことは、一致するデータが完全に正確であることを意味するわけではない。同様に、「5〜6」の信頼性コードの一致物のすべてが、同レベルの一致レベルを有するわけではない。精度は、固有のビジネスアプリケーションに関して最良に記述される用語である。
一致階級パターンは、異なるレベルの個別の属性マッチングを行う。一致階級結果における「A」シンボルは、カスタマ情報と一致するレコードとの間のこのデータ属性に高信頼性の一致物があることを示す。「B」は類似性を示唆するが、「A」によって示唆される類似性のレベルに類似するわけではない。「F」シンボルは、カスタマデータも一致するレコードも双方とも、所与の属性に関して異なるデータを有することを示唆する。「Z」は、カスタマ情報および/またはデータベースレコードのいずれかが、所与のフィールドにいかなる情報も有さないことを示唆する。評価は文字対文字の比較にのみ基づくだけでなく、意味論的な意味、語調、語彙論的な変形または別のファクタにも基づく。さらにこのような割り当ては、粒度を上昇して自動判定を可能にするためには、問い合わせレベル全体で行われるのではなく、個別の属性レベルで行われる。
その際には、信頼性コードを各異なる一致階級ストリングに割り当てることにより、結果の階層化を行うことができる。上記の各構成要素の処理はさらに、図4に示されているような機能領域に分解される。
強化されたフィードバックを使用すると、ユーザはたとえばビジネスルールを実現することができ、たとえば、完全な名前および都市を有する一致物を受け入れ、適正な県(直轄市または省)を有するが都市は不明である一致物の参照を順序づけ、名前の一致が低品質である一致物を無視して、「5〜6」の信頼性コードの一致物を下位分割するビジネスルール等のビジネスルールを実現することができる。その結果として、フィードバックにより自動的な判定が可能になる。
処理が音標文字を含む表記方式、たとえば英語、フランス語およびギリシャ語等を含む表記方式によって行われる区別に依存することができないデータベースでマッチングを行うことに関して、さらなる難題が提起されている。中国語や日本語等の言語では、表記方式は意味論的な意味を表し、表意文字から構築される。このことは、探索およびマッチングに関して独特の難題を提起する。さらに、このような表記方式を使用する国はしばしば、外来語または新語を書き表せるように、音標的な別の表記方式を自由に組み込むことが多い。表意文字的な表記方式における評価の難題は、書き方の意味論的な性質である。単に正書法に基づくだけの伝統的なスコアリング手法は、「similar(類似)」を「same(同一)」から区別するのに十分なレベルで意味を識別するのには不適切なだけである。このことは、本発明の一致階級処理の中心的要素である。
したがって、とりわけ非音標的な表記方式で一致結果の品質を評価するための付加的な基準を提供することにより、既存の探索マッチングシステムおよび探索マッチング方法を改善する必要がある。また、すべてまたは部分的に表意文字コンテキストで書き表されるデータに高コストな人間の介入を行うことなく、機械的な一致物を区別することにより、一貫性およびスケーラビリティを実現できるシステムおよび方法を提供する必要もある。さらに、非音標文字および表意文字の表記方式の難題に取り組む完全自動化された探索およびマッチングのためのシステムおよび方法を提供する必要もある。
要約
本発明の開示では、探索とマッチングとデータマッチングのための品質フィードバックすなわち強化されたアジア系言語(たとえば2倍バイト)一致フィードバックとを行うためのシステムおよび方法を提供する。
本発明の開示ではまた、探索と、入力されたデータと記憶されたデータとのマッチングとをコンピュータによって行う方法も提供する。本方法は、
複数の要素を有する探索ストリングを含む入力されたデータを受け取るステップと、
該複数の要素の部分セットを用語のセットに変換するステップと、
該用語のセットから、最適化された複数のキーを生成するステップと、
該入力されたデータに対する一致物の最大尤度の候補に相応する該最適化された複数のキーに基づく記憶されたデータを検索するステップと、
該複数の一致物候補から最良の一致物を選択するステップ
とを有する。前記要素のうち少なくとも幾つかが、表意文字表記システムの一部を構成する。前記要素の部分セットを用語のセットに変換するステップは、ポリロゴグラム意味論的一意化(polylogogrammatic semantic disambiguation)と、中国語漢字頭字語拡張と、日本語漢字頭字語拡張と、ビジネス用語認識とから成る群から選択された少なくとも1つの手法を使用する。
また、問い合わせレコードと記憶された参照レコードとの間の一致品質の尺度を含む強化されたアジア系言語一致フィードバックシステムも提供されている。このシステムは、アジア系表記システムの固有の側面にカスタマイズされた手法を使用する非表意文字表記システムの従来技術を反映するために構成された。一致階級パターンまたは一致階級ストリングは、データベースレコード内のデータサブセットの数多くの一致値に相応し、既存の構造に、すなわち、問い合わせデータレコードに含まれるデータにマッピングされ、名前の個別の品質と、特定のアドレス構成要素と、電話番号と、別の情報とを反映する。一致階級パターンに相応して信頼性コードが提供され、この信頼性コードはたとえば1〜10の間の整数によって指定され、一致階級パターンを複数の範囲に階層化することによって保守的な一致品質を反映し、ビジネスルールの適用を可能にする。本方法はさらに、非音標言語または表意文字言語の問い合わせレコードと非音標言語または表意文字言語で記憶された参照レコードとのマッチングも含む。
図面の簡単な説明
図1 従来技術のレコードマッチング手法のブロック図である。
図2 従来技術のレコードマッチングシステムのブロック図である。
図3 信頼性コードとマッチング結果との対応関係を示す表である。
図4 従来技術のデータマッチング手法の構成要素の処理を示すブロック図である。
図5 日本の業務の参照レコードにおける一致階級パターンのマッピングを示す表である。
図6 本発明の強化されたマッチングシステムのブロック図である。
図7 一致階級パターンマトリクスを表す表である。
図8 候補リストを検索するための方法を示すブロック図である。
図9 英語の会社名から導出されたシングル(shingle)の例を図解する図である。
図10 本発明の方法にしたがって導出された中国語漢字シングル(「shingles」)の例を図解する図である。
図11 本発明の方法にしたがって導出された「膠着ヒングル」の例を図解する図である。
図12 本発明の方法にしたがって導出された「無言ヒングル」の例を図解する図である。
図13 本発明の方法による構造指示子の除去または省略の例を図解する図である。
図14 業務名の一部として含まれる付加的な構造指示子の例を図解する図である。
図15 「ハクロニム(Hacronym)」の例を図解する図である。
図16 簡体字および繁体字の例である。
図17 本発明によるアルゴリズムの予測的スコアの計算を示す表である。
図18 本発明の方法による一致階級ストリングとレコードとの割り当て方法のブロック図である。
図19 一致階級パターンを図解する図である。
図20 本発明の方法による、参照名に割り当てられた一致階級コードを示す表である。
図21 本発明の方法による、参照レコード一致候補に割り当てられた信頼性コードを示す表である。
図22 一致物の結果をどのように呈示するかを示す、本発明の方法による一致階級フィードバックレポートの例である。
図23 本発明の方法による、フルテキストインデックス付与および名前キングリング(kingling)の例を示すフローチャートである。
図24 本発明の方法による独特さに関する一致階級アルゴリズムの例である。
図25 本発明の方法による相対的な独特さと絶対的な独特さとの対比を示す。
図26 本発明の方法によるポリロゴグラム意味論的一意化のためのアルゴリズム例を示す。
図27 本発明の方法による産業スコアリングの表現の仕方を示す。
有利な実施形態の詳細な説明
本発明のシステムおよび方法は、
1)クレンジング、構文解析および標準化
2)候補検索
3)評価および判定
を含む。評価および判定には、一貫した標準にしたがって一致物を評価するステップと、粗いフィードバックを確立するために一致階級パターンを作成するステップと、自動判定を行うための信頼性コードを割り当てるステップとを有する。これは、付加情報の一致データプロファイルを含む。すべてのプロセスは、表意文字表記システムによって提起された難題を扱うために強化されている。
この強化されたアジア系言語一致フィードバックシステムとアジア系言語一致フィードバック方法とは、3つの一致品質基準を有する:
1)一致階級スコアすなわち一致階級が既存のデータ構造にマッピングされ、名前、特定の住所構成要素、電話番号および別の情報の個別の品質を表す。
2)結果の階層化を行うための信頼性コード。たとえば3,5および7等の数によって表される。
3)結果に到達するために使用される特定のメタデータに関する付加的な情報を含み、かつさらに一致結果を区分化するように、とりわけ「5〜6」の信頼性コードの一致結果を区分化するように一致データプロファイルも設けられる。
さらに、世界の別の部分におけるその時点のフィードバックに類似するよりロバストな通信のためのソリューションで、使用可能(または導出可能)な情報をマッピングすることもできる。図5に、日本の一致ソリューションにおけるこのマッピングの一例が示されている。
本発明の強化されたマッチングシステムによって実施される方法を以下で説明する。図6に、本願発明のシステムの実施形態が図解されている。この新規のシステムは現在のデータマッチングシステムに取って代わるか、または現在の文字ベースのシステムの補強として機能することができる。このシステムは付加的なコンポーネントおよび作業フローステージのセットとして、現在の作業フローのプロセスに追加するのに十分なモジュール性を有する。
クレンジング、構文解析および標準化(CPS)
強化されたマッチングシステムは、強化されたマッチング方法に使用される。このマッチング方法は、入力された問い合わせデータをクレンジング、構文解析および標準化する(CPS)第1のステップで開始される。
1つの実施形態では、入力された探索データをクレンジング、構文解析および標準化(CPS)するために、外部のソフトウェアが使用される。このプロセスの出力は、導出された情報を評価し、略称を拡張し、別の公知の使用課題を考慮するためにさらに強化される。この拡張は、たとえば図13,14,15および16に記載されたようなアジア系の慣用法に適合された特定の手法を使用する。
このシステムは、データを探索するユーザによってデータを入力するかまたは該システムを管理するユーザによってデータを入力するための種々のフィールドを有する。第1セットのフィールドは、ユーザが種々のデータを入力して探索ジョブの処理を管理できるように設けられる多数の「ジョブ設定」を有する。このような種々の種類のデータは、「ジョブ選択」ユーザインタフェース(UI)において異なるフィールドとして呈示することができる。このジョブ選択インタフェースは、以下のもののためのフィールドを含むことができる:
(a)処理バッチ番号:これは自動生成され、ユーザによって確認されるだけと考えられる。ジョブ番号はジョブを一意に識別し、カスタマID(下記参照)を番号の一部として含むこともできる。このシステムはジョブバッチ番号も作成し、これを択一的手段として使用することができる。
(b)カスタマID:これは有利には、カスタマを識別するための番号である。カスタマIDはルックアップによって検索することができ、システムは、カスタマIDが存在しない場合に新規のカスタマIDを作成することができる。これは有利には、完全なカスタマリレーションシップマネージメント(CRM)ではないが、データがシステムを通過する際に該データを「タグ」付けするのにまさしく必要とされるものである。
(c)自動判定閾値:この値は、ジョブに対して事前選択された閾値信頼性コードに基づく。たとえば、(処理およびタイブレイクロジックによって重複物が得られないことを前提として)システムがDUNS識別子すなわち一意の法人識別子を自動マッチングできる1〜10の、信頼性コード閾値。この機能は有利には、ジョブ選択ウィンドウに含まれる。
(d)問い合わせ用/参照用SQL(structured query language)テーブル:このテーブルにおいてユーザは、問い合わせデータおよび/または参照データを含むサーバ、データベースおよびテーブルを指定することができる。1つの実施形態では、外部ソフトウェアが処理する各ジョブごとに該外部ソフトウェアがテーブルを作成し、このテーブルが問い合わせデータテーブルとなる。
(e)ジョブのレポート:ジョブ設定インタフェースは、所望のレポートと該レポートを書き込む位置とを予め指定する機能を有することもできる。
システムは、一致階級パターンマトリクスを有するデータにアクセスするための管理インタフェースも含むことができる。一致階級パターンマトリクスの一例が図7に示されており、これによって、一致階級パターンと、信頼性コードに対する該一致階級パターンのマッピングとがシステムデータベースに記憶される。システムは基本的なグラフィカルユーザインタフェース(GUI)を介してこれらを探索および編集することができる。管理インタフェースはさらに、記憶されたタイブレイク規則にアクセスすることもでき、このタイブレイク規則は、同様に階層化された可能な結果のグループから最終的な最良一致物を選択するための規則である。このようなタイブレイク規則を以下で詳細に説明する。タイブレイク規則は有利にはモジュール性であるから、システムプログラムのアーティファクト内で「ハードコード」されているだけでなく、持続的なチューニングが可能になる。1つの実施形態では、各カスタマのタイブレイク規則セットが個別のファイルに記憶され、ユーザのタイブレイク規則がデフォルトとして自動的に現れる。別の実施形態では、UIはジョブに対するタイブレイク規則を選択するか、または、規則の位置すなわちディレクトリを選択することができる。有利には、このタイブレイク規則はスクリプトで記憶されるか、または別の編集可能なフォーマットで記憶されることにより、システムの新規のリリースを必要とせずに、規則を強化、除去または追加することが可能であるようにされる。
ユーザは、探索すべき所望のエンティティを識別する種々のデータを入力することができる。ユーザの問い合わせを表すデータは問い合わせデータと称され、これは、問い合わせレコードと称されるレコードに記憶される。このような処理問い合わせデータは、ユーザが参照データベースから最良の一致物の位置検出を試みるエンティティに関する情報を表すデータを含む。このようなデータはユーザによって入力される。このデータは、業務名データ、住所データおよび電話番号データを含み、これらはすべて、上記のクレンジング、構文解析および標準化(CPS)のルーティンで処理される。入力は、アジア系文字およびローマ文字のスクリプト双方を含む混合的な文字セットで行うことができる。住所データは、住所法則(codification)を導出するためのCPSルーティンによって処理され、評価のためにさらに分割される。電話番号は、現地の国の慣用法に基づいてサブフィールドを分離するために、CPSルーティンによって標準化される。
付加的なデータをユーザ入力されたデータとともに記憶することもでき、これには、ジョブがシステムに存在する間は該ジョブを一意に識別するために入力データとともに記憶されるバッチ番号や、ジョブ内の各問い合わせデータレコードを一意に識別するレコード番号が含まれる。レコード番号は、単なる連続番号とすることができる。
ユーザ入力された問い合わせデータの処理により、多数のデータ要素およびコードが生成される。システムはアルゴリズムを使用して、範囲内のすべてのデータ要素を評価することにより、以下で規定されるような検索キーと評価属性とを得る。このようなアルゴリズムの多くは、音標表記および表意文字表記の双方を含む複数のスクリプトを同時に扱えるように構築される。データ要素、キーおよび属性は、各問い合わせレコードごとにデータベースに記憶される。このようなデータ要素は、音標的言語で形成されるか、または非音標的言語で形成されるか、または表意文字言語で形成されるか、またはこれらの組み合わせで形成される。レコードは以下のものを含む:
a)(CPS後の)クレンジングされた業務名これは、アルゴリズムが適用される標準化された名前である。1つの実施例では、アルゴリズムはリターンコード構文解析を含む。このリターンコード構文解析では、リターンコードの最初のバイトは業務名評価に使用される。付加的な変換には、頭字語の拡張および既知のエイリアスの処理と、観測されたアジア系表記慣用法の処理とが含まれる。これは図13,14,15および16に示されている。
b)たとえば日本の県名等の付加的な情報を推定および追加することができる。
c)住所法則をシステムに入力するか、計算するか、または外部のモジュールから検索することができる。システムはアルゴリズムを使用して法則を導出または構文解析することにより、番地番号、番地名、都市、省(県)および/または郵便番号を含むデータを検索する。たとえば日本では、居住地番号は実際の番地番号に匹敵する数値情報を含み、複数の表記システムにわたって日本語文字において異なる書き表し方のたとえば bldg,building,floor,FL,room,RM,suite 等のキーワードをピックアップすることにより、建物階数および部屋番号を識別して除去する。
たとえば経度/緯度等の別の法則も、このシステムによって実施することができる。この法則を構文解析することにより、付加的な属性を導出することができる。
d)電話加入区域番号をシステムへの直接入力によって供給し、CPS処理によって豊富にする。CPSを実施して、入力された電話番号の構文解析を行うために、カスタムのアルゴリズムを作成する。可能な場合には、この電話番号は部分構成要素に構文解析される。その後、これは問い合わせレコードに記憶される。
候補検索
問い合わせデータがクレンジング、構文解析および標準化された後、システムは評価のための候補リストを検索しなければならない。この目的は、参照データベースから存在する中で最良の一致物を含む可能性が最も高い候補リストを構築すると同時に、考慮すべき候補のプールと、この候補のプールを検索する計算複雑性とを最小化することである。候補は参照データの中で「最良の」候補でなければならない。すなわち、文字の類似性のみを考慮するだけでなく、語調、表意文字内容およびアジア系表記システムに固有の別の側面も考慮して問い合わせレコードと最高の類似性を有する参照レコードでなければならない。換言するとこの処理は、存在し推定されるすべての情報を考慮して、最高確率の候補のリストを戻さなければならない。
候補検索は通常、問い合わせレコードと同様のデータベース中のレコードを区別するための手法に依拠する。使用されるアルゴリズムは、予測性と、検索されるレコード数に関連するパフォーマンスと、検索キーを導出する計算複雑性ひいては候補リストを処理できる速度とのバランスを打ち出す。前記予測性はすなわち、期待される一致物を含むレコードのセットをアルゴリズムが検索する確率はどの程度か、である。
実施中の高精度化の関与を可能にするために、複数のアルゴリズムを使用することと、アルゴリズムの計算複雑性と予測性と、検索された候補の期待されるセットの一意性と、アジア系のデータセットに固有の候補分布の観測または推定された側面とに基づいて各問い合わせごとにアルゴリズムの最良のサブセットを選択することとを可能にする非決定性の候補検索方法が提供される。図8に、この方法の典型的なステップと一例とが示されている。この方法には、たとえばキーワード、中国語漢字の頭字語(ハクロニム(Hacronyms, Hanzee acronym))または日本語漢字の頭字語(カクロニム(Kacronym, Kanji acronym))等の有効なキーと電話番号とを、問い合わせデータ中に存在する情報から生成するステップが含まれる。すべての有効なキー交差の頻度カウント、すなわち問い合わせレコード中のキーと参照レコードとキーとのマッチングが、先行して計算された参照セットから検索される。オプションとして、事前設定された頻度限界より多くの候補が得られるキーを絞り出すかまたは抑圧する。また、提案された検索キューを選択するために別の技術を適用することもできる。たとえば検索時間、交差時間、予測性および計算オーバーヘッド等の1つまたは複数のファクタに基づいて、有効なキー交差に関して手間関数を生成する。キー交差は手間の上昇順に、計算複雑性と予測性と可能性のある検索された候補数とに基づいて再配列され、これにしたがって、キー交差積の順に候補リストをデータベースから検索する。このような方法により、問い合わせが処理される際にリアルタイムでアプローチを最適化することができる。
音標的言語では、正書法の変形を考慮するのに使用されるアルゴリズムのうち1つに「シングリング(shingling)」として知られる手法がある。この手法では、既知のサイズおよびオフセットの正書法のフラグメントが、問い合わせストリングの並べ替えによって選択され、データベース内の既知のレコードにおいてこれらの同じフラグメントがどの程度独特であるかを示すインデックスと比較される。適切なキーは、低頻度で観測されるフラグメントを表すフラグメントである。"Shell Oil Company"の名前のシングルの例が図9に示されている。(音標的言語での)シングリングの実施では、高予測性でありかつ計算スループットの観点から効率的でもある可能性が高い「独特の」シングル(すなわち比較的低頻度で現れるシングル)を識別できる場合、シングリングを使用する。
シングリングを非音標言語で使用する際の難題は、シンボルが変わることが格段に大きな意味を有することである。確かに、意味を保持しながら文字が省略され、かつ/または再編成される状況は確実に存在するが、このような言語で「誤植」が生じる可能性は低い。また、アジア系言語の入力手法のエディタの複雑さに起因して、同様の発音のシンボルが入力される可能性もある。また、別のシンボルと結合される場合に特定のシンボルが、文字の組み合わせによってのみ表される新たな意味を持つことから、別の難題が生じる。このような組み合わされた複雑なグループ化は、アルゴリズム操作注に分離しないように注意深く処理しなければならない。そうしないと、隠された意味が失われるか変化してしまう。
本発明は、アジア系言語に適切な手法でシンボル操作を管理することによって問い合わせデータのフラグメントをマッチングする方法を提供する。この方法は特定のシンボルを、非音標言語ではまとめられた場合により高度な意味を有する「膠着」シングルとしてまとめる。観測された膠着シングル(中国語漢字では"ヒングル"と称され、日本語漢字では"キングル"と称される)間で得られる移行部から、付加的な推定結果が導き出される。図10〜12に、中国語に適用されるこの方法の実施形態が示されているが、この方法は、すべての非音標言語または非音標文字の通信システムで使用できる。同じデータ属性で混合的な表記システム(たとえば日本語の漢字と片仮名との組み合わせ)を考慮するために外挿も適用される。
図9は「シングル」の一例である。中国語表記システムである中国語漢字でシングリングに取り組むためには、この方法は"ヒングリング(hingling)"を使用する。これは、Hanzee-shingling(中国語漢字シングリング)の略である。図10に、中国語漢字シングル(Hanzee shingle)またはヒングル(hingle)の例が示されている(これらのヒングルは2文字の長さであるから、"ハプル(Huple)"(2文字中国語漢字(Hanzee Duple))と称することができる。ヒングリングは探索ストリングの部分セグメントのオーバーラップのコンセプトを保持しながら、特定の中国語漢字シングルまたはヒングルを"膠着"として扱う。というのもこのような特定の中国語漢字シングルは、何らかの高度な意味を持つようにまとめられるからである。このような"膠着ヒングル"は表意文字表記の顕著な特徴であり、候補検索を劇的に改善するのに活用することができる。中国語漢字は英数字でもなければ単語でもなく、セマンティック要素である。このように、文字の意味は"膠着する"ことで急激に変化する。このことは図11に示されている。したがって、図11に示されているような「Shanghai」を表す文字のセット(上海)は特別なセットとしてマーキングされ、特定の操作中は一緒にまとめられたままにされる。各ヒングルからヒングル(または各ハプルからハプル)への移行部を観測することで、候補検索手法は入力ストリングの高予測性の部分構成要素を導き出すことができる。
多くの"膠着ヒングル"は"ノイズヒングル"でもある。このことは、ヒングルが高頻度で現れるので候補検索には使用できないことを意味する。技術的に言うと、このようなヒングルは「重要でない」。その逆に「重要な」ヒングルは、頻出しないので候補検索を行う際には高予測性であるヒングルである。
ヒングリングおよび膠着ヒングルの他に付加的に、本発明は、"ノイズヒングル"または一緒に頻出するので候補検索に使用できず「重要でない」ヒングルを区別する。この方法はまた、"無言ヒングル"を識別および使用する。これは、参照情報で隣接するのが観察される表意文字のグループであるが検査されないと、暗示された意味を有さないヒングルである。このような"無言ヒングル"の出現はセマンティックな意味を有さないが、候補検索手法では強い予測子と見なされる。図12に無言ヒングルの一例が示されている。
したがって本方法は、データベースを分析してすべての"ノイズヒングル"を特別なファイルにサイドライン化する。このようなノイズヒングルは参照テーブル形成には使用されず、問い合わせ入力では無視される。この方法は非常に高予測性である。
上記の名前の用法および方法は、日本語表記のための漢字にも拡張することができる。このことによって得られる"キングル(kingle)"、"膠着キングル"、"無言キングル"および重要な/重要でない削り取りは同様の機能を有するが、日本語の問い合わせデータには片仮名、ローマ字および平仮名が散在するので、高予測性の結果を得るためには表意文字アルゴリズムを従来の音標文字の手法によって強化しなければならない。
この方法は、非音標言語で現れる名前の付加的な側面の分析も行う。図13に示された1つの実施形態では、システムは通常現れる指示子を、たとえば構造指示子を省略するかまたは無視することができる。図13に示されているようにシステムは、D&B Corporation 社の台湾支社を意味する"D&B Taiwan"の中国語漢字名中の構造指示子を認識する。この例では、システムは"American business"を表すヒングルを除去するかまたはサイドライン化し、"Taiwanese corporate structure"を表すヒングルを省略および/またはサイドライン化する。したがって、D&B を表す文字の稀な組み合わせはまず、マッチングのために(何らかの高予測性の無言ヒングルと一緒に)使用される。s図14に示されているように、名前の中の別の構造指示子を探索に使用するか、またはサイドライン化することができ、たとえば会社名中の課または部の指示子を探索に使用するか、またはサイドライン化することができる。図15に例示されたような別の実施形態では、会社を記述するのに通常使用される頭字語を反映し、システムが所与のハクロニムを有する候補を探索および検索できるようにするため、"ハクロニム"(Hacronynm)すなわち中国語漢字頭字語(Hanzee acronym)が会社名から分離される。システムはまた、図16の例で示されているように、非音標言語の簡体字形および繁体字形の相違点を反映する。最後に、"カクロニム"(Kacronym)と称される日本語の日本語漢字頭字語(Kanji acronym)に対し、このアプローチの音標文字強化された同様の実施形態が存在する。これは上記のように、埋め込まれた音標表記によって観測することができる。
システムはまた、一致階級および信頼性コードによって候補をランク付けすることもできる。有利には、システムは最初に、候補を信頼性コードの順にランク付けし、その後、ビジネス上のタイブレイク規則に基づいて最高のランク層をさらに区分する。以下で、一致階級および信頼性コードの割り当てとタイブレイク規則の適用とを詳細に説明する。
ここではまた、ヒングリングと処理全体のための別のアルゴリズムとを含む候補検索アルゴリズムの予測性を評価するのに使用される処理も設けられる。非決定論的な候補検索が行われるマッチング環境では、システムは各問い合わせレコードごとに最も有用なアルゴリズムを選択する。アルゴリズム(A)の計算複雑性CC(A)は計算の繰り返しであり、基本入力、ステップまたは算術演算の数は計算問題の解決を必要とする。予測性P(A)は、期待される結論の数を観測された結論の数で割った数に等しい。期待される収量Y(A)は、この方法が使用された場合に戻されたレコードの数に等しい。この処理は第一に、以下の数式に基づいて各アルゴリズムのアルゴリズム定数(AC(A))を計算する:AC(An) = CC(An) x P(An).このアルゴリズム定数はその後、期待収量によって乗算されることにより、最終スコアX(A)が得られる:AC (An) x Y (An) = X (An).図17にこれらの計算の例が示されている。有利には、最低の最終スコアを出すアルゴリズムがマッチングシステムで使用される。
評価および判定
適切な候補検索手法が選択および使用されると、候補は一致階級("MG")ストリングの計算によってスコアリングされる。一致階級ストリングの各要素ごとに、入力データおよび候補データの相応の属性にA,B,FまたはZのコードが割り当てられる。図18にこの処理が示されている。MGコードを各コード構成要素に割り当てて得られるのが一致階級ストリングまたは一致階級パターンである。これは図19に示されている。1つの実施形態では、一致階級パターン中には最大11個のエントリ(バイト)が存在する。
一致階級コードには、問い合わせ主体データ要素を参照データと"同一"として扱うことができることを示唆する"A"一致と、問い合わせ主体データ要素が参照データに"類似する"が同一ではないことを示唆する"B"一致とが含まれる。このコードには、問い合わせ主体データ要素が参照データと異なることを示唆する"F"一致と、問い合わせ主体データ要素が問い合わせレコード中または参照データレコード中のいずれかに存在しないことを示唆する"Z"一致も含まれる。
図20の表に種々の一致階級コードの例が示されている。同図では、"Mitsubishi Trading Corp(三菱商事(株))vs. Mitsubishi Trading(三菱商事)"の例で問い合わせデータと比較された場合の参照結果に対する一致階級コードが示されている。アジア系言語においてA/B/Fの推定結果を確立するためには、スコアリング手法は文字対文字比較のみを考慮するのではなく、語調(中国語)、ピンインまたは仮名の文字変換、語彙的変形、字画の複雑さ、および表意文字表記システムに固有の別のパラメータも考慮する。
アジア系の表記システムのニュアンスと現地の慣用法とを考慮するために、特定のプロプライエタリのアルゴリズムが開発されている。たとえば独特さ(11個の一致階級要素の1つ)は、アジアで見られる非常に大きな都市と日本の県および中国の省の構造との間の相互関係を考慮しなければならない(図24および25)。アジア系の業務人口統計で観察されるこのような特色を適合するためには、相対的な独特さと絶対的な独特さとが使用されている。
アジア系言語において特に注意すべき別の一致階級要素に、産業区分がある。これは、ポリロゴグラム意味論的非一意化と称される新たな処理によって推定しなければならない(図26〜27)。この処理は、問い合わせストリングの再帰的集約手法を使用する。ここでは、(とりわけ日本における)アジア系の問い合わせは表意文字表記システムおよび音標的表記システムの双方の組み合わせを含むことが多いことを考慮する。この再帰的集約は、一致階級ストリング内で下位分類を行うために、最高確率で産業関連であるキーワードを強調するように行われる。
一致階級ストリングが導出された後、この導出された一致階級ストリングに基づいて信頼性コード("CC")が、参照データレコードまたは検索されたデータレコードに割り当てられる。このことは図21に示されている。1つの実施形態では、この信頼性コードは1〜10までの数であり、有利には整数である。この割り当ては、ビジネスルールを適用できるようにデータをグループに分類するためのものである。有利には、CCは図7に示されたようなパターンマトリクスから検索される。MGパターンマトリクスは有利にはSQLテーブルに記憶され、各要素は別個のフィールドに記憶される。
システムの評価ステップおよび判定ステップの実行で、所与の問い合わせエンティティに対して検索されたすべての一致候補のうちで最高の信頼性コードを有する1つより多くの候補が検索された場合、タイブレイク規則を使用しなければならない。自動判定においてジョブ設定とビジネスルールとによって自動判定を行うために、信頼性コードをこのタイブレイク規則とともに使用することができ、最良の候補を識別することができ、かつこの候補が少なくとも、ビジネス適用を保証するための閾値信頼性コードを有する場合、一致物は自動的に許容される。この閾値信頼性コードは、ユーザによって事前選択することができる。タイブレイク規則が使用される場合、いかなる問い合わせレコードでも最終タイを決着するのにどの規則を使用したかと、この最終比較でのデータ値はどんな値であったかをシステムは記録する。
タイブレイク規則の例を以下で説明する。この規則は、1つの候補が他のすべての候補より上位になるまで順番に処理される。ランクは整数で表され、高いランクは低い整数値に相応する。(存在する候補が1つより多い場合)最上位のランクの候補のみが次の規則に進む。
規則1‐"A"一致:業務名、番地番号、番地名、都市、省/県および郵便番号 MGパターンはすべて"A"であり、会社の種類は同一である。0‐はい、1‐いいえ
規則2‐業務名の一致階級:業務名の一致階級コードにしたがって候補をランク付けする。0‐A,1‐B,2‐F
規則3‐会社の種類:問い合わせデータと比較される(コードごとの)会社の種類にしたがって候補をランク付けする。0‐同一、1‐異なる
規則4‐省/県の一致階級:州のMGコードにしたがって候補をランク付けする。0‐A,1‐F,3‐Z
規則5‐都市の一致階級:都市の一致階級コードにしたがって候補をランク付けする。0‐A,1‐F,2‐Z
規則6‐番地名の一致階級:番地名の一致階級コードにしたがって候補をランク付けする。0‐A,1‐B,2‐F
規則7‐番地番号の一致階級:番地番号の一致階級コードにしたがって候補をランク付けする。0‐A,1‐B,2‐Z,3‐F
規則8‐OOB(Out of business)指示子:ステータスが営業中であるか否か(OOB)にしたがって候補をランク付けする:0=アクティブ状態、1=非アクティブ状態(OOB)
規則9‐HQ/BR(本社/支社)ステータス。エンティティの種類にしたがって候補をランク付けする:0=HQ、1=単独位置、2=支社、3=子会社。
規則10‐電話番号の"A"一致階級。電話番号の"A"一致階級コードにしたがって候補をランク付けする。0‐A,1‐その他すべて
規則11‐会社名の中の"会社形式"位置問い合わせデータと比較される(コードごとの)"会社形式"位置指示子にしたがって候補をランク付けする。
0‐同一、1‐異なる。
規則12‐電話番号の一致階級。電話番号の一致階級コードにしたがって候補をランク付けする。0‐A,1‐B,2‐Z,3‐F
規則13‐郵便番号の一致階級:郵便番号の一致階級コードにしたがって候補をランク付けする。0‐A,1‐B,2‐Z,3‐F
規則14‐TSR(取引形態レコード)コードTSRコードの有無にしたがって候補をランク付けする:0‐TSRコード有り、1‐TSRコード無し。
規則15‐現在日付フラグ。"COM"フラグの値にしたがって候補をランク付けする:0‐フラグ無し(データ更新済)、1‐フラグ有り(古いデータ)
規則16‐レコード更新日システムデータベース内の主要な更新の日付にしたがって、最新から最旧まで候補をランク付けする。
規則17‐DUNS番号。これは最終的なタイブレーカである。候補をDUNS番号によって、すなわち固有の法人識別子にしたがって昇順にランク付けする。
このようにして一致階級はユーザに呈示される。呈示される情報は、以下の情報のうち1つまたは複数を含むことができる:使用される一致階級パターン(要素あたり1つのフィールド)、信頼性コード、一致データプロファイル、処理データ、処理バッチ番号、カスタマID、マッチングされる参照レコードのDUNS番号、問い合わせレコード番号、および最後に使用されたタイブレイク規則。この結果は、異なる信頼性コードおよび別の観測または推定された属性に基づいてカテゴリ分類することができる。
マッチングできなかったデータをブラウズおよび閲覧するために、付加的な機能をユーザに対して提供することができる。またユーザが、自動マッチングされたデータを含むすべてのデータをユーザがブラウズできる機能を設けることもできる。別の機能が、出力を(信頼性コード、一致階級パターン、使用されるタイブレイク規則によって)フィルタリング、手動マッチングおよび再マッチングすることができる。システムはまた、選択されたレコードを再処理するために手動開始できるようにするための機能も含むことができる。これによってシステムは、選択されたレコードに対する完全な処理をユーザ要求に応答して再実行する。
有利には、結果はユーザに対してレコードとして呈示される。有利には結果は、図22に示されたような結果データから編集不可能なレポートとして形成される。別の実施形態では、システムを再コンパイルすることなく、レポートを追加、変更および/または削除することができる。レポートをXML/XSLにコーディングして、最初にHTMLとして生成した後、編集不可能なフォーマットに変換することができる。適用可能なレポートをジョブに対して予め選択することができる。このレポートは、このジョブに対するデフォルトセットとなる。レポートを英語の基盤テキストで生成するか、または自然言語の基盤テキストで生成することができる。
システムは現在の一致階級パターンと相応の信頼性コードとのマトリクスを"一致階級マスターテーブル"に記憶する。図7に示されているように、固有の一致階級パターンごとに1つのロウのみが設けられる。このテーブルは以下のものを含む:ストリングである一致階級パターン、該一致階級パターンに付属する信頼性コード、別個のカラムである有利には11個の一致階級パターンの各バイト、各エントリの最後の変更のバージョン、および/または、該エントリが変更された際に自動生成された更新日時。編集履歴を保存することにより、持続的な品質保証と連続的な処理改善とを実現することができる。
一致階級マスタテーブル内のエントリがどのような理由で変更されても常に、たとえば信頼性コードが変更または検査されると常に、システムは有利には、"一致階級履歴テーブル"に先行のエントリを記憶する。このテーブルは一致階級マスタテーブルと同じ構造を有するが、各一致階級パターンごとに複数のエントリが存在するという点で異なる。
一致階級マスタテーブルを変更するためには常に、最終版番号を増分する必要がある。これは"マイナー"な小さい変更(たとえば0.2≫0.3)であるか、または"メジャー"な大きい変更(0.3≫0.4)である。このような変更によって影響される、一致階級マスタテーブル内の各エントリは、最終版によってスタンプされる。しかし、一致階級データにいかなる変更も行うことなく、バージョンを増分してコメントを入力することができる。
このような変更に関する情報は"一致階級バージョンテーブル"に記憶することができる。この一致階級バージョンテーブルは、以下のものを含むことができる:新規のバージョンの番号であるバージョン番号、変更を行った人のユーザID、コメントおよび/または日付。コメントは、行われた変更の記述および理由である。どのような変更が処理された後でも常に、このフィールドは占有される。更新日は、変更が入力された際に自動生成される日付/時間フィールドのマーキングである。
1つの実施形態では本方法は、たとえば簡体字の中国語、繁体字の中国語、または日本語文字等の非音標文字のストリングを比較し、これらがどの程度類似するかを表す数値スコアを生成する。このような従属情報を使用して、属性‐レベル一致階級対応関係を確立し、無言シングル、膠着2文字および別の構築体を帰属させることができる。1つの実施形態では、本方法および下記に記載されたライブラリは中国語漢字に適用されるが、すべての非音標言語または非音標文字通信システムにも適用することができる。
類似性計算は、正書法形、音標文字形および語彙的形態を含む複数の軸で行われ、また、マルチユーザによるブラインドテストで、アルゴリズム推定に対するネイティブスピーカの反応を客観的に評価する。
上記のスコアリングの他に付加的に、評価プロセスおよび判定プロセスで、たとえば日本語および中国語双方における表意文字表記の付加的な側面を活用する。有利には、信頼性コードまたは一致品質を表す別のスコアを決定するために、上記で説明されたヒングリングプロセスも使用する。
本発明の強化されたマッチングシステムおよびマッチング方法は、中国語、日本語および別の非音標文字または表意文字の言語データマッチングシステムで、優れたデータマッチングとより詳細なフィードバックとを提供する。本システムは、データのクレンジングおよびマッチングにより多くのデータ要素を使用することができ、従来技術で可能であった手法より多くの手法でデータをマッチングし、よりインテリジェントおよびより粗いフィードバックをマッチングプロセスで供給することができる。このような粗いフィードバックにより、それ無しでは不可能であった、コンピュータシステムを介して行われるビジネス処理の自動化を行うことができる。
たとえば日本語強化マッチングシステム(JEMS)等である、ここで提案される本発明の強化されたマッチングシステムは、カスタマ入力されたファイル中のデータ要素を従来のシステムより数多く使用して、アジア系表記システムの表意文字の特色を活用する手法でデータをマッチングする。本システムおよび本方法はまた、従来技術のシステムに対して対照的に、既存のデータ要素および新規のデータ要素に対して付加的な比較スキームも利用する。
もちろん、当業者であれば、本願で開示された思想の種々の択一的構成、組み合わせおよび変更を行うことが可能であることが理解できる。本発明は、本願で記載された思想の範囲内に該当するこのようなすべての択一的構成、変更および変形を包括する。
従来技術のレコードマッチング手法のブロック図である。 従来技術のレコードマッチングシステムのブロック図である。 信頼性コードとマッチング結果との対応関係を示す表である。 従来技術のデータマッチング手法の構成要素の処理を示すブロック図である。 日本の業務の参照レコードにおける一致階級パターンのマッピングを示す表である。 本発明の強化されたマッチングシステムのブロック図である。 一致階級パターンマトリクスを表す表である。 候補リストを検索するための方法を示すブロック図である。 英語の会社名から導出されたシングル(shingle)の例を図解する図である。 本発明の方法にしたがって導出された中国語漢字シングル(「shingles」)の例を図解する図である。 本発明の方法にしたがって導出された「膠着ヒングル」の例を図解する図である。 本発明の方法にしたがって導出された「無言ヒングル」の例を図解する図である。 本発明の方法による構造指示子の除去または省略の例を図解する図である。 業務名の一部として含まれる付加的な構造指示子の例を図解する図である。 「ハクロニム(Hacronym)」の例を図解する図である。 簡体字および繁体字の例である。 本発明によるアルゴリズムの予測的スコアの計算を示す表である。 本発明の方法による一致階級ストリングとレコードとの割り当て方法のブロック図である。 一致階級パターンを図解する図である。 本発明の方法による、参照名に割り当てられた一致階級コードを示す表である。 本発明の方法による、参照レコード一致候補に割り当てられた信頼性コードを示す表である。 一致物の結果をどのように呈示するかを示す、本発明の方法による一致階級フィードバックレポートの例である。 本発明の方法による、フルテキストインデックス付与および名前キングリング(kingling)の例を示すフローチャートである。 本発明の方法による独特さに関する一致階級アルゴリズムの例である。 本発明の方法による相対的な独特さと絶対的な独特さとの対比を示す。 本発明の方法によるポリロゴグラム意味論的一意化のためのアルゴリズム例を示す。 本発明の方法による産業スコアリングの表現の仕方を示す。

Claims (20)

  1. コンピュータによって入力データを探索して、記憶されたデータとマッチングする方法において、
    ・少なくとも幾つかの要素は表意文字表記システムの一部を成す複数の要素を有する探索ストリングを含む入力データを受け取る取得ステップと、
    ・ポリロゴグラム意味論的非一意化手法と、中国語漢字頭字語拡張手法と、日本語漢字頭字語拡張手法と、ビジネス用語認識手法とから成る群から選択された少なくとも1つの手法を使用して、該複数の要素のサブセットを用語のセットに変換する変換ステップと、
    ・該用語のセットから、最適化された複数のキーを生成する生成ステップと、
    ・最適化された該キーに基づいて、該入力データに一致する可能性が最も高い候補に相応して、記憶されたデータを検索する検索ステップと、
    ・該一致候補から、最も一致する一致物を選択する選択ステップ
    とを有することを特徴とする方法。
  2. 前記検索ステップは、膠着中国語漢字シングリングと膠着日本語漢字シングリングと無言中国語漢字シングリングと無言日本語漢字シングリングと複数の表記システムにわたるテキストインデックス付与とから成る群から選択された少なくとも1つの手法を使用する、請求項1記載の方法。
  3. 前記変換ステップは、前記探索ストリングを、オーバーラップする複数のサブセグメントに分割する、請求項1記載の方法。
  4. 前記変換ステップはさらに、前記表意文字表記システムでセマンティックな意味を有するサブセグメントを含む膠着サブセグメントを識別する、請求項3記載の方法。
  5. 前記変換ステップはさらに、ノイズサブセグメントを除去する、請求項4記載の方法。
  6. 前記変換ステップはさらに、
    前記表意文字表記システムでセマンティックな意味を有さない隣接する要素を含む無言サブセグメントを識別し、
    該無言サブセグメントから予測性を導き出す、請求項5記載の方法。
  7. 前記生成ステップは、膠着サブセグメントおよび無言サブセグメントを使用して、前記最適化された複数のキーを生成する、請求項6記載の方法。
  8. 前記変換ステップは、前記表意文字表記システムの繁体字形および簡体字形を正規化する、請求項1記載の方法。
  9. 前記表意文字表記システムは、日本語漢字と繁体字と簡体字(Hanzee)とから成る群から選択された少なくとも1つの表記システムである、請求項1記載の方法。
  10. 前記要素は、アジア系文字およびローマ字を含む、請求項1記載の方法。
  11. 前記変換ステップは、
    複数の要素を構文解析して、名前要素と電話番号要素と住所要素とを含む前記用語のセットを識別し、
    ポリロゴグラム手法によってビジネス行を推定し、電話番号要素と住所要素とをクロスチェックし、
    前記表意文字表記システムのイディオムおよび表現を認識して、該イディオムおよび表現が一緒に意味を保持するように維持する、請求項1記載の方法。
  12. 前記変換ステップは、名前要素内の構造指示子および頭字語を識別する、請求項11記載の方法。
  13. 前記住所要素に基づいて、フレキシブルなアジア系の住所決定の慣用法の推定によって、緯度情報および経度情報を確立する、請求項11記載の方法。
  14. 前記検索ステップは、
    前記複数のキーにおいて、所定の閾値を超えるカウントを戻す特定のキーに対して一致候補を制限し、
    キー交差を選択するために手間関数を生成し、
    該手間関数にしたがって該キー交差の優先順位を決定し、
    該一致候補を該キー交差の順に検索する、請求項1記載の方法。
  15. 前記検索ステップは、一致の程度に基づいて、各一致候補に関して一致階級と信頼性コードと一致データプロファイルとを生成する、請求項1記載の方法。
  16. 前記信頼性コードを少なくとも部分的に、前記探索ストリングのセマンティックな意味と推定された内容とに基づいて決定する、請求項15記載の方法。
  17. 前記信頼性コードに基づいて、選択された一致候補の順序づけされたリストを供給する、請求項14記載の方法。
  18. 前記順序づけされたリストの各一致候補を、複数の一致レベルのうち1つの一致レベルに割り当てる、請求項15記載の方法。
  19. 前記一致候補を該一致候補の信頼性コードの順にランク付けし、ユーザ定義されたタイブレイク規則に基づいて最高位のランクのレベルをさらに区分化することにより、前記一致レベルの割り当てを決定する、請求項18記載の方法。
  20. コンピュータによって入力データを探索して、記憶されたデータとマッチングする方法を実施するための命令を有するコンピュータ読み出し可能媒体において、
    該方法は、
    ・少なくとも幾つかの要素は表意文字表記システムの一部を成す複数の要素を有する探索ストリングを含む入力データを受け取り、
    ・ポリロゴグラム意味論的非一意化手法と、中国語漢字頭字語拡張手法と、日本語漢字頭字語拡張手法と、業務用語認識手法とから成る群から選択された少なくとも1つの手法を使用して、該複数の要素のサブセットを用語のセットに変換し、
    ・該用語のセットから、最適化された複数のキーを生成し、
    ・最適化された該キーに基づいて、該入力データに一致する可能性が最も高い候補に相応して、記憶されたデータを検索し、
    ・該一致候補から、最も一致する一致物を選択する
    方法であることを特徴とする、コンピュータ読み出し可能媒体。
JP2008542446A 2005-11-23 2006-11-22 表意文字内容を有するデータを探索およびマッチングするためのシステムおよび方法 Active JP5274259B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US73927005P 2005-11-23 2005-11-23
US60/739,270 2005-11-23
PCT/US2006/045269 WO2007062156A2 (en) 2005-11-23 2006-11-22 System and method for searching and matching data having ideogrammatic content

Publications (3)

Publication Number Publication Date
JP2009524852A true JP2009524852A (ja) 2009-07-02
JP2009524852A5 JP2009524852A5 (ja) 2012-05-31
JP5274259B2 JP5274259B2 (ja) 2013-08-28

Family

ID=38067920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008542446A Active JP5274259B2 (ja) 2005-11-23 2006-11-22 表意文字内容を有するデータを探索およびマッチングするためのシステムおよび方法

Country Status (13)

Country Link
US (1) US7584188B2 (ja)
EP (1) EP1952285B1 (ja)
JP (1) JP5274259B2 (ja)
KR (1) KR101276602B1 (ja)
CN (1) CN101542475B (ja)
AT (1) ATE480827T1 (ja)
AU (1) AU2006318417B2 (ja)
CA (1) CA2630683C (ja)
DE (1) DE602006016846D1 (ja)
DK (1) DK1952285T3 (ja)
HK (1) HK1121266A1 (ja)
TW (1) TWI426399B (ja)
WO (1) WO2007062156A2 (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706747B2 (en) * 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US7502632B2 (en) * 2004-06-25 2009-03-10 Nokia Corporation Text messaging device
AU2006318417B2 (en) * 2005-11-23 2012-01-19 Dun And Bradstreet Corporation System and method for searching and matching data having ideogrammatic content
US7836046B2 (en) * 2008-01-21 2010-11-16 Oracle Financial Services Software Limited Method and system for facilitating verification of an entity based on business requirements
US8010465B2 (en) 2008-02-26 2011-08-30 Microsoft Corporation Predicting candidates using input scopes
US7958107B2 (en) * 2008-04-10 2011-06-07 Abo Enterprises, Llc Fuzzy keyword searching
EP2120130A1 (en) * 2008-05-11 2009-11-18 Research in Motion Limited Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input
US8296279B1 (en) * 2008-06-03 2012-10-23 Google Inc. Identifying results through substring searching
TW201028869A (en) * 2009-01-19 2010-08-01 Systems & Technology Corp Quick information and data searching system and method by using keywords
US8667026B1 (en) 2009-01-22 2014-03-04 American Express Travel Related Services Company, Inc. Method and system for ranking multiple data sources
US8171403B2 (en) * 2009-08-20 2012-05-01 International Business Machines Corporation System and method for managing acronym expansions
KR101689314B1 (ko) 2009-11-20 2016-12-23 구글 인코포레이티드 교차-언어 이미지 검색 옵션을 위한 방법들, 시스템들 및 컴퓨터 판독가능 기록 매체
TWI484356B (zh) * 2010-01-07 2015-05-11 Alibaba Group Holding Ltd Retrieval methods, devices and systems
US8515984B2 (en) 2010-11-16 2013-08-20 Microsoft Corporation Extensible search term suggestion engine
US10073927B2 (en) 2010-11-16 2018-09-11 Microsoft Technology Licensing, Llc Registration for system level search user interface
US10346479B2 (en) 2010-11-16 2019-07-09 Microsoft Technology Licensing, Llc Facilitating interaction with system level search user interface
US8635197B2 (en) * 2011-02-28 2014-01-21 International Business Machines Corporation Systems and methods for efficient development of a rule-based system using crowd-sourcing
US8381120B2 (en) * 2011-04-11 2013-02-19 Credibility Corp. Visualization tools for reviewing credibility and stateful hierarchical access to credibility
US10540646B2 (en) * 2011-06-22 2020-01-21 Jpmorgan Chase Bank, N.A. Itemized receipts and digital payments system and methods
US8732213B2 (en) * 2011-12-23 2014-05-20 Amiato, Inc. Scalable analysis platform for semi-structured data
EP2867800A4 (en) * 2012-06-29 2016-01-27 Nokia Technologies Oy METHOD AND APPARATUS FOR PROVIDING TASK BASED SERVICE RECOMMENDATIONS
US9141807B2 (en) * 2012-09-28 2015-09-22 Synopsys, Inc. Security remediation
US9449056B1 (en) 2012-11-01 2016-09-20 Intuit Inc. Method and system for creating and updating an entity name alias table
US9858268B2 (en) 2013-02-26 2018-01-02 International Business Machines Corporation Chinese name transliteration
US10089302B2 (en) * 2013-02-26 2018-10-02 International Business Machines Corporation Native-script and cross-script chinese name matching
US8996391B2 (en) 2013-03-14 2015-03-31 Credibility Corp. Custom score generation system and methods
US8712907B1 (en) 2013-03-14 2014-04-29 Credibility Corp. Multi-dimensional credibility scoring
KR102052604B1 (ko) * 2014-02-28 2019-12-05 현대엠엔소프트 주식회사 내비게이션의 검색 방법 및 그 장치
US9535945B2 (en) * 2014-04-30 2017-01-03 Excalibur Ip, Llc Intent based search results associated with a modular search object framework
JP5839642B1 (ja) * 2014-06-17 2016-01-06 楽天株式会社 情報処理システム及び情報処理方法
US9171173B1 (en) * 2014-10-02 2015-10-27 Terbium Labs LLC Protected indexing and querying of large sets of textual data
CN107924386A (zh) * 2015-08-14 2018-04-17 约翰·钟·李 用于解决键违反以及设置优先级和序列号的技术问题的方法
US9886433B2 (en) * 2015-10-13 2018-02-06 Lenovo (Singapore) Pte. Ltd. Detecting logograms using multiple inputs
CN105677718B (zh) * 2015-12-29 2019-04-09 北京汉王数字科技有限公司 文字检索方法及装置
US11169975B2 (en) * 2016-07-25 2021-11-09 Acxiom Llc Recognition quality management
CN106649764B (zh) * 2016-12-27 2020-04-17 北京汉王数字科技有限公司 文字检索方法及文字检索装置
US11093462B1 (en) 2018-08-29 2021-08-17 Intuit Inc. Method and system for identifying account duplication in data management systems
CN112380401B (zh) * 2021-01-14 2021-04-27 蚂蚁智信(杭州)信息技术有限公司 业务数据的核对方法和装置
CN113535883B (zh) * 2021-07-16 2023-10-31 携程旅游信息技术(上海)有限公司 商业场所实体链接方法、系统、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07105223A (ja) * 1993-10-06 1995-04-21 Oki Electric Ind Co Ltd データベース検索装置
JPH1125117A (ja) * 1997-07-08 1999-01-29 Oki Electric Ind Co Ltd 語検索装置

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5175803A (en) * 1985-06-14 1992-12-29 Yeh Victor C Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language
US5337233A (en) * 1992-04-13 1994-08-09 Sun Microsystems, Inc. Method and apparatus for mapping multiple-byte characters to unique strings of ASCII characters for use in text retrieval
CA2116600C (en) * 1993-04-10 1996-11-05 David Jack Ittner Methods and apparatus for inferring orientation of lines of text
WO1995010805A1 (en) * 1993-10-08 1995-04-20 International Business Machines Corporation Message transmission across a network
WO1995017729A1 (en) * 1993-12-22 1995-06-29 Taligent, Inc. Input methods framework
US5659731A (en) * 1995-06-19 1997-08-19 Dun & Bradstreet, Inc. Method for rating a match for a given entity found in a list of entities
US5819291A (en) * 1996-08-23 1998-10-06 General Electric Company Matching new customer records to existing customer records in a large business database using hash key
US5818291A (en) * 1997-04-04 1998-10-06 United Memories, Inc. Fast voltage regulation without overshoot
AU4449797A (en) * 1997-09-29 1999-04-23 Fujun Bi A multi-element confidence matching system and the method therefor
US6026398A (en) * 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
US6963871B1 (en) * 1998-03-25 2005-11-08 Language Analysis Systems, Inc. System and method for adaptive multi-cultural searching and matching of personal names
US7720682B2 (en) * 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
WO2000057258A2 (en) 1999-03-19 2000-09-28 Cybersource Corporation Method and apparatus for verifying address information
US6393415B1 (en) * 1999-03-31 2002-05-21 Verizon Laboratories Inc. Adaptive partitioning techniques in performing query requests and request routing
CN1159661C (zh) * 1999-04-08 2004-07-28 肯特里奇数字实验公司 用于中文的标记和命名实体识别的系统
AU780926B2 (en) 1999-08-03 2005-04-28 Bally Technologies, Inc. Method and system for matching data sets
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
AU777445B2 (en) 1999-11-09 2004-10-14 Fraud-Check.Com, Inc. Method and system for detecting fraud in non-personal transactions
JP2001167087A (ja) * 1999-12-14 2001-06-22 Fujitsu Ltd 構造化文書検索装置,構造化文書検索方法,構造化文書検索用プログラム記録媒体および構造化文書検索用インデックス作成方法
US7287002B1 (en) 2000-02-18 2007-10-23 National Systems Corporation System for placing product delivery orders through the internet
US20030014610A1 (en) 2000-03-29 2003-01-16 Simon Mills Experience sharing
EP1139264A3 (en) 2000-03-29 2002-08-21 Ford Motor Company Order status inquiry and tracking
US20020133554A1 (en) 2000-05-25 2002-09-19 Daniel Checkoway E-mail answering agent
EP1356395A2 (en) 2000-06-30 2003-10-29 Troy Schultz Method and apparatus for a gis based search engine utilizing real time advertising
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
TW548600B (en) * 2000-10-04 2003-08-21 Microsoft Corp Method and system for identifying attributes of new words in non-segmented text
JP2002189747A (ja) * 2000-12-19 2002-07-05 Hitachi Ltd 文書情報の検索方法
AU2002312183B2 (en) * 2001-05-31 2008-09-18 Mapinfo Corporation System and method for geocoding diverse address formats
WO2003012685A2 (en) * 2001-08-03 2003-02-13 Tristlam Limited A data quality system
US7152060B2 (en) 2002-04-11 2006-12-19 Choicemaker Technologies, Inc. Automated database blocking and record matching
US7174288B2 (en) * 2002-05-08 2007-02-06 Microsoft Corporation Multi-modal entry of ideogrammatic languages
WO2003107321A1 (en) * 2002-06-12 2003-12-24 Jena Jordahl Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view
US7228501B2 (en) * 2002-11-01 2007-06-05 Microsoft Corporation Method for selecting a font
JP2006514620A (ja) 2002-11-06 2006-05-11 マウント シナイ スクール オブ メディシン ニメスリドを用いた筋萎縮性側索硬化症の治療
AU2003294245A1 (en) 2002-11-08 2004-06-03 Dun And Bradstreet, Inc. System and method for searching and matching databases
US7822757B2 (en) * 2003-02-18 2010-10-26 Dun & Bradstreet, Inc. System and method for providing enhanced information
US7256769B2 (en) * 2003-02-24 2007-08-14 Zi Corporation Of Canada, Inc. System and method for text entry on a reduced keyboard
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
TW200512599A (en) * 2003-09-26 2005-04-01 Avectec Com Inc Method for keyword correlation analysis
US20060106769A1 (en) * 2004-11-12 2006-05-18 Gibbs Kevin A Method and system for autocompletion for languages having ideographs and phonetic characters
GB0507036D0 (en) * 2005-04-07 2005-05-11 Ibm Method and system for language identification
AU2006318417B2 (en) * 2005-11-23 2012-01-19 Dun And Bradstreet Corporation System and method for searching and matching data having ideogrammatic content

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07105223A (ja) * 1993-10-06 1995-04-21 Oki Electric Ind Co Ltd データベース検索装置
JPH1125117A (ja) * 1997-07-08 1999-01-29 Oki Electric Ind Co Ltd 語検索装置

Also Published As

Publication number Publication date
EP1952285B1 (en) 2010-09-08
JP5274259B2 (ja) 2013-08-28
AU2006318417B2 (en) 2012-01-19
AU2006318417A1 (en) 2007-05-31
CA2630683C (en) 2014-10-28
US20070162445A1 (en) 2007-07-12
DE602006016846D1 (de) 2010-10-21
KR101276602B1 (ko) 2013-06-19
CN101542475B (zh) 2013-05-29
WO2007062156A2 (en) 2007-05-31
DK1952285T3 (da) 2011-01-10
CN101542475A (zh) 2009-09-23
HK1121266A1 (en) 2009-05-29
EP1952285A4 (en) 2009-04-22
TWI426399B (zh) 2014-02-11
KR20090014136A (ko) 2009-02-06
TW200809549A (en) 2008-02-16
ATE480827T1 (de) 2010-09-15
CA2630683A1 (en) 2007-05-31
EP1952285A2 (en) 2008-08-06
US7584188B2 (en) 2009-09-01
WO2007062156A3 (en) 2007-11-08
AU2006318417A2 (en) 2008-10-23

Similar Documents

Publication Publication Date Title
JP5274259B2 (ja) 表意文字内容を有するデータを探索およびマッチングするためのシステムおよび方法
US6041323A (en) Information search method, information search device, and storage medium for storing an information search program
US6546401B1 (en) Method of retrieving no word separation text data and a data retrieving apparatus therefor
US8447775B2 (en) Database query user interface to assist in efficient and accurate query construction
EP0637805B1 (en) Context-sensitive method of finding information about a word in an electronic dictionary
US20090024384A1 (en) Data processing method and system, program for realizing the method, and computer readable storage medium storing the program
RU2547213C2 (ru) Присвоение применимых на практике атрибутов данных, которые описывают идентичность личности
US20040181512A1 (en) System for dynamically building extended dictionaries for a data cleansing application
CN111274267A (zh) 一种数据库查询方法、装置及计算机可读取存储介质
JP4185399B2 (ja) 顧客データ管理装置、顧客データ管理方法および顧客データ管理用プログラムならびに顧客データ管理用プログラムを格納した記録媒体
CN114327607A (zh) 一种bs代码自动生成方法
KR100397639B1 (ko) 어휘의 중의성 해소를 위한 의미 태깅 장치 및 그 방법
CN111325235A (zh) 面向多语种的通用地名语义相似度计算方法及其应用
JPH06195371A (ja) 未登録語獲得方式
CN112463969B (zh) 卷烟品牌和品规行话新词的检测方法、系统、设备及介质
JP5348699B2 (ja) データ分類システム、データ分類方法およびプログラム
CN117093701A (zh) 语句检索装置、方法及存储介质
JP2008084078A (ja) 和英規格変換方法及びシステム並びに和英規格変換プログラム
JPH09114850A (ja) 文書処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091124

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101228

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120113

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20120409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130415

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130514

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5274259

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250