JP5505234B2 - 文字列比較プログラム、文字列比較装置及び文字列比較方法 - Google Patents
文字列比較プログラム、文字列比較装置及び文字列比較方法 Download PDFInfo
- Publication number
- JP5505234B2 JP5505234B2 JP2010219878A JP2010219878A JP5505234B2 JP 5505234 B2 JP5505234 B2 JP 5505234B2 JP 2010219878 A JP2010219878 A JP 2010219878A JP 2010219878 A JP2010219878 A JP 2010219878A JP 5505234 B2 JP5505234 B2 JP 5505234B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- comparison
- concept
- conceptual
- conceptual structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
第1実施例では、上述の文字列比較処理につき、複数項目を含むレコード同士が一致しているか否かを判定する名寄せ処理において適用する例を用いて説明する。なお、本明細書において「一致する」とは、完全一致のみならず、比較対象同士が一定基準以上類似していることも含むものとする。かかる名寄せ処理は、名寄せ元データと関連性のあるデータを名寄せ先データから検出するのに用いられる。具体的には、名寄せ処理は、一例として、1つのデータベース内において、1のレコードと当該レコード以外の他のレコードとを名寄せし、両者が一致している場合に、重複レコードを除去すべく一方を削除する処理に用いられる。また、他の例として、名寄せ処理は、複数のデータベース間において、一方のデータベースに含まれるレコードと他方のデータベースに含まれるレコードとを名寄せし、両者に関連性がある場合(例えばキー項目の値が同一である等)に、両レコードを関連付ける処理に用いられることもある。
名寄せ処理定義9は、例えば図2に示すように、名寄せ元データ2A及び名寄せ先データ2Bを特定する情報や、名寄せを行う対象項目、対象項目に適用する評価関数とその評価結果に対する重み、判定部6においてレコードが一致しているか否かの判定基準とする判定閾値等の情報を含む。ここで、概念構造を用いた評価関数(概念評価関数)として「概念評価_XX」を指定することができる。なお、本明細書では評価関数として概念評価関数が指定されている場合について説明している。
図3は、概念構造生成部4の詳細構成を示す。概念構造生成部4は、形態素解析部12と、構文解析部13と、正規化部14と、を含む。概念構造生成部4は、名寄せ装置1が備える記憶装置に格納された、用語辞書15、解析文法16、標準概念構造17及び正規化ルール18を参照して処理を行う。
<2>は、[会社名]と[法人格]が連続する場合、[会社名]の単語の意味属性にさらに[前株]がなければ、[会社名]と[法人格]を連結したものを、[会社名]とみなすことを示す。
<3>は、[会社名]と[ビル名]が連続する場合、両者を<事業所>という概念で関連付けられる(すなわち、[ビル名]を[会社名]の事業所とする)ことを示す。
<4>は、[会社名]と[組織名]が連続する場合、両者を<下位組織>という概念で関連付けられる(すなわち、[組織名]を[会社名]の下位組織とする)ことを示す。
<5>は、[組織名]と[区切り記号]が連続する場合、[区切り記号]は[組織名]に吸収することを示す。
<6>は、[数字]と[組織名]が連続する場合、[数字]は[組織名]に吸収され、概念記号も[数字]の概念記号と[組織名]の概念記号を結合することを示す。
<2>は、[FUJITSU $会社名]に対し、[SY_Buil $ビル名]が<事業所>の概念で関連付けられている。
<3>は、[FUJITSU $会社名]に対し、[DMM $事業部]が<下位組織>の概念で関連付けられている。
<4>は、[FUJITSU $会社名]に対し、[3Develop $部門]が<下位組織>の概念で関連付けられている。
<2>は、[$会社名]に対して[$事業所名]が<事業所>の概念で関連付けられている(すなわち、[$事業所名]は[$会社名]の事業所である)ことを示す。
<3>は、[$会社名]に対して[$事業部]が<下位組織>の概念で関連付けられている(すなわち、[$事業部]は[$会社名]の下位組織である)ことを示す。
<4>は、[$事業部]に対して[$部門]が<下位組織>の概念で関連付けられている(すなわち、[$部門]は[$事業部]の下位組織である)ことを示す。
<2>は、ある要素に対して[事業部]が<下位組織>の概念で関連付けられており、且つ、当該要素に対して[部門]もまた<下位組織>の概念で関連付けられているとき、当該要素の単語と[部門]との関連を解除し、[部門]を[事業部]に対して<下位組織>の概念で関連付けることを示す。
図11は、照合部5の詳細構成を示す。照合部5は、要素比較部21と、評価値算出部22と、総合評価値算出部23と、を含む。また、照合部5は、名寄せ装置1が備える記憶装置に格納された、標準概念構造24、要素重み付け25、項目重み付け26を参照する。ここで、要素重み付け25は、各要素の値の比較結果が文字列全体の比較結果に対して及ぼす影響度合(重要度)を示す値である。また、項目重み付け26は、各項目の値の比較結果がレコード全体の比較結果に対して及ぼす影響度合を示す値である。なお、図12(A)は、要素重み付け25の一例を示し、図12(B)は、項目重み付け26の一例を示している。なお、標準概念構造24は、概念構造生成部4において参照する標準概念構造17と同じである。
図13は、名寄せ装置1で実行される全体処理の一例を示すフローチャートである。なお、当該処理は、名寄せ装置1において、図2に示す名寄せ処理定義9に基づき、名寄せ元データ2Aおよび名寄せ先データ2B、比較対象となる項目および評価関数(ここでは概念構造を用いて比較する概念評価関数と概念評価関数に対応する解析文法16、標準概念構造17、正規化ルール18)の特定、並びに判定閾値等の特定を含む環境設定が完了したことを前提として実行される。なお、ここでは、名寄せ元データ2Aが複数の名寄せ元レコードを含む一方、名寄せ先データ2Bが複数の名寄せ先レコードを含み、名寄せ元レコードの夫々について、複数の名寄せ先レコードとの比較照合を行う場合の処理の一例を用いて説明する。
ステップ3では、概念構造生成部4が、名寄せ元データ2Aに含まれる名寄せ元レコードを1件ずつ順に読み出す。
図14は、概念構造生成処理を示すフローチャートである。
ステップ12では、概念構造生成部4が、名寄せ処理定義9を参照し、選択した項目が、概念評価関数を適用する項目であるか否かを判定する。この判定は、換言すれば、選択した項目の文字列の照合処理において、概念構造を用いた比較を行うか否かの判定である。さらに換言すれば、この判定は、選択した項目が、意味内容に基づいて文字列の比較処理を行う項目であるか否かの判定である。当該項目が概念評価関数を適用する項目である場合には、ステップ13の処理を実行する(Yes)、一方当該項目が概念評価関数を適用する項目でない場合には、ステップ17の処理を実行する(No)。
ステップ14では、形態素解析部12が、対象項目の文字列につき、文字列を先頭から順に用語辞書15と照合して単語単位に分解し、形態素解析結果19を生成する。
ステップ17は、概念構造生成部4が、未処理の項目が残っているか否かを判定する。未処理の項目が残っているときには、ステップ11に戻る(Yes)、一方全ての項目について処理をしたときには、概念構造生成処理を終了する(No)。
図15は、概念構造正規化処理を示すフローチャートである。
ステップ22では、正規化部14が、記憶装置に格納された標準概念構造17の中から、処理対象の項目の意味的な領域に対応する標準概念構造17を取得する。
ステップ23では、正規化部14が、正規化処理が完了しているか否かを判定する。この判定では、具体的には、処理中の概念構造と標準概念構造17とが同一構造となっている場合に正規化処理が完了していると判定し、両者が同一構造となっていない場合に、正規化処理が完了していないと判定する。正規化部14は、正規化処理が完了しているときには、概念構造正規化処理を終了する(Yes)、一方正規化処理が完了していないときには、ステップ24に進む(No)。
図16は、照合処理を示すフローチャートである。
ステップ32では、照合部5が、選択された各項目の文字列について生成された名寄せ元概念構造10A及び名寄せ先概念構造10Bを取得する。
図17は、概念評価関数の処理を示すフローチャートである。
ステップ41では、評価値算出部22が、評価値28を0に初期化する。
ステップ42では、要素比較部21が、記憶装置に格納された標準概念構造17から、処理対象の項目に対応する標準概念構造17を取得する。また、評価値算出部22が、当該標準概念構造17に対応する要素重み付け25を取得する。
ステップ44では、要素比較部21が、選択した要素に対応する名寄せ元概念構造10Aの要素の概念記号と、選択した要素に対応する名寄せ先概念構造10Bの要素の概念記号と、を特定して、両要素の概念記号同士を比較し、比較結果を示す比較値27を決定する。この比較値27としては、例えば、概念記号同士が一致していれば1、一致していなければ0とする。
ステップ46では、要素比較部21が、未処理の要素があるか否かを判定する。照合処理部は、未処理の要素があるときには、ステップ43に戻り(Yes)、未処理の要素がないときには、ステップ47に進む(No)。
ここで、名寄せ装置1で実行される処理について、具体例を示して説明する。
名寄せ先:「富士通SY DMM)3開発」
さらに、本具体例では、用語辞書15は図4、解析文法16は図6、「勤務先」項目に対応する標準概念構造17は図8、正規化ルール18は図10に示す内容とする。
(1)解析文法<1>により、意味属性に[会社名]を持つ単語「富士通」が主軸ノード<COMMON>に選定される。
(2)解析文法<3>により、意味属性に[会社名]を持つ単語「富士通」と、意味属性に[ビル名]を持つ単語「SY」と、は<事業所>の概念で関連付けられる。
(3)解析文法<5>により、意味属性に[区切り記号]を持つ単語「)」は、意味属性に[組織名]を持つ単語「DMM」に吸収される。
(4)解析文法<4>により、意味属性に[会社名]を持つ単語「富士通」と、意味属性に[組織名]を持つ単語「DMM」と、は<下位組織>の概念で関連付けられる。
(5)解析文法<6>により、意味属性に[数字]を持つ単語「3」は、意味属性に[組織名]を持つ単語「開発」に吸収されて1つの要素となる。且つ、当該要素は概念記号「3Develop」に変換される。
(6)解析文法<4>により、意味属性に[会社名]を持つ単語「富士通」と、意味属性が[組織名]である単語「開発」と、は<下位組織>の概念で関連付けられる。
(7)全ての単語について概念構造への変換が完了し、これ以上適用できるルールが無いので終了する。
ステップ51では、評価値算出部22が、評価値を0に初期化する。さらに、評価値算出部22は、当該項目において評価値が取り得る最高値(例えば1)を残最高値として設定する。
ステップ56では、評価値算出部22が、残最高値から、当該要素が一致した場合における判定値(即ち、当該要素における最高の判定値)に対して重み付けを行った値を減算する。
かかる変形例における概念評価関数の処理によれば、評価値を算出する途中段階において、評価値が足切値に到達しないことが明らかとなったときには、概念評価関数の処理を中断し、現段階までの各要素の比較値を加算して算出した評価値を出力する。かかる処理は、例えば、上記名寄せ処理においては、文字列の比較を行う対象が1項目のみである場合等に有効である。すなわち、文字列の比較を行う対象が1項目のみである場合には、当該項目について算出された評価値がそのまま総合評価値になる。このため、例えば、足切値を判定閾値の下限値としておけば、評価値の算出(要素ごとの比較値の加算)を中断したとしても、当該総合評価値と判定閾値との比較においては、評価値が判定閾値の下限値を下回ることに変わりはない。したがって、概念評価関数の処理を中断しない場合と比べ、比較結果に影響を及ぼすことなく、不要な処理を削減し、CPUの処理負荷を軽減させることができる。
ここで、上記のように各項目の文字列の意味内容に基づいて文字列を比較する処理は、名寄せ処理に適用されるのみならず、あらゆる処理に適用可能である。第2実施例では、かかる処理を、データベースの検索において、検索条件となる文字列(検索文字列)と、データベースに格納されたレコードの検索対象項目の値文字列と、の比較に用いる例について説明する。
が実行されたとする。なお、ここでは、SAME関数は、文字列をその意味内容の比較により既定の閾値で類似検索する関数であるとする。すなわち、この検索式は、データベースの「会員表」32Bから、「勤務先」項目の文字列の意味内容が、検索文字列「富士通SY DMM)3開発」の意味内容と類似するレコードを抽出するという検索条件が指定されていることを表わしている。即ち、検索式32Aは、検索対象項目は「勤務先」であり、検索文字列は「富士通SY DMM)3開発」、検索条件はSAME( )であると解釈される。ここで、データベース32Bには、「勤務先」項目の値に対応する各項目の検索対象概念構造40Bが予め格納されているとする。具体的には、ID「103」のレコードの「勤務先」項目には、値の文字列「富士通株式会社 ミドルウエア事業本部 データマネジメント・ミドルウエア事業部 第二開発部 新横浜ビル」を「会社名」領域の標準概念構造に基づいて概念構造にした検索対象概念構造40Bが格納されているとする。そして、概念構造生成情報37及び照合情報38は、夫々上記第1実施例の具体例における概念構造生成情報7及び照合情報8と同じ内容であるとする。
次に、上記のように文字列の意味内容に基づいて文字列同士を比較する処理を、XMLの検索に用いる実施例について説明する。
「for $p in document(“全会員”)//会員 let $pn := $p/勤務先/text()
where same($pn ,”富士通SY DMM)3開発”) return <特定会員> { $p } </特定会員>」
が実行されたとする。なお、ここでは、第2実施例と同様、same関数は、文字列をその意味内容の比較により既定の閾値で類似検索する関数であるとする。すなわち、この検索式は、XMLデータベース52Bに含まれるXML「全会員」から、「会員」elementの子要素である「勤務先」elementの値文字列(テキスト)が、「富士通SY DMM)3開発」と意味内容において一致する「会員」elementを「特定会員」elementとして抽出するという検索条件を表わしている。即ち、検索式52Aは、検索対象elementは「会員」elementの子要素である「勤務先」elementであり、検索文字列は「富士通SY DMM)3開発」、検索条件はsame( )であると解釈される。具体的には、XMLデータベース52Bには、ID「005」を子要素に持つ「会員」elementの子要素である「勤務先」elementの値である文字列「富士通株式会社 ミドルウエア事業本部 データマネジメント・ミドルウエア事業部 第二開発部 新横浜ビル」を「勤務先」elementに対応する「会社名」領域の標準概念構造に基づいて概念構造にした検索対象概念構造60Bが格納されているとする。そして、概念構造生成情報57及び照合情報58は、夫々第1実施例における具体例と同じ内容であるとする。
ところで、上述した第1実施例の名寄せ装置1の機能的構成及び物理的構成は、図1に記載の態様に限るものではなく、例えば、各機能や物理資源を統合して実装したり、逆に、さらに分散して実装したりすることも可能である。第2実施例のデータベース検索装置31及び第3実施例のXML検索装置51も同様である。また、この名寄せ装置1、データベース検索装置31及びXML検索装置51の諸機能は、プログラムをコンピュータのCPU(Central Processing Unit)で実行したり、論理回路若しくはFPGA(Field Programmable Gate Array)等で実装したりすることによって実現することが可能である。以下、第1実施例の名寄せ装置1の例を用いて、コンピュータのハードウェア構成について説明する。
なお、名寄せ処理プログラム76は、必ずしもHDD74に格納されている必要はなく、例えば、コンピュータが読み取り可能な各種記憶媒体(CDやDVD、フラッシュメモリ等)に格納されていてもよい。また、名寄せ処理プログラム76は、例えば、上記コンピュータとネットワークを介して接続された他のコンピュータが備える各種記憶手段に記憶されていてもよい。同様に、入力データ79や各種データ80についても、各種記憶媒体や、上記コンピュータとネットワークを介して接続された他のコンピュータが備える各種記憶手段に記憶されていてもよい。
(付記1)比較対象とする第1文字列及び第2文字列の夫々を単語単位に分割するとともに、各単語の有する意味的な性質を表す意味属性、及び各単語を意味的に識別する概念記号を含む情報を記憶手段から取得し、前記情報に基づいて、前記第1文字列及び前記第2文字列間において意味属性が共通する各単語を特定し、当該特定した各単語に対応する概念記号同士を前記第1文字列及び前記第2文字列間において比較し、各概念記号同士の比較結果に基づいて、前記第1文字列及び前記第2文字列同士の比較結果を生成する処理をコンピュータに実現させることを特徴とする文字列比較プログラム。
2 名寄せ対象データ
2A 名寄せ元データ
2B 名寄せ先データ
3 名寄せ結果
4 概念構造生成部
5 照合部
6 判定部
7 概念構造生成情報
8 照合情報
9 名寄せ処理定義
10A 名寄せ元概念構造
10B 名寄せ先概念構造
11 総合評価値
12 形態素解析部
13 構文解析部
14 正規化部
15 用語辞書
16 解析文法
17 標準概念構造
18 正規化ルール
19 形態素解析結果
20 概念構造(正規化前)
21 要素比較部
22 評価値算出部
23 総合評価値算出部
24 標準概念構造
25 要素重み付け
26 項目重み付け
27 比較値
28 評価値
31 データベース検索装置
32A 検索式
32B データベース
33 検索結果
34 概念構造生成部
35 照合部
36 判定部
37 概念構造生成情報
38 照合情報
39 判定閾値
40A 検索文字列概念構造
40B 検索対象概念構造
51 XML検索装置
52A 検索式
52B XMLデータベース
53 検索結果
54 概念構造生成部
55 照合部
56 判定部
57 概念構造生成情報
58 照合情報
59 判定閾値
60A 検索文字列概念構造
60B 検索対象概念構造
71 入力装置
72 CPU
73 RAM
74 HDD
75 表示装置
76 名寄せ処理プログラム
77 名寄せ処理プログラム
78 名寄せ処理プロセス
79 入力データ
80 各種データ
Claims (7)
- 比較対象とする第1文字列及び第2文字列の夫々を単語単位に分割するとともに、各単語の有する意味的な性質を表す意味属性、及び各単語を意味的に識別する概念記号を含む情報を記憶手段から取得し、
前記情報に基づいて、前記第1文字列及び前記第2文字列間において意味属性が共通する各単語を特定し、当該特定した各単語に対応する概念記号同士を前記第1文字列及び前記第2文字列間において比較し、
各概念記号同士の比較結果に基づいて、前記第1文字列及び前記第2文字列同士の比較結果を生成する
処理をコンピュータに実現させることを特徴とする文字列比較プログラム。 - 前記比較する処理は、前記第1文字列全体及び前記第2文字列全体が共通して有する意味的な領域に応じて共通的に定めた構造であって、前記第1文字列に含まれる各単語に対応する概念記号を要素とし当該各要素が単語の有する意味属性または配置に基づいて関連付けられた第1概念構造、及び前記第2文字列に含まれる各単語に対応する概念記号を要素とし当該各要素が単語の有する意味属性または配置に基づいて関連付けられた第2概念構造を取得し、前記第1概念構造及び前記第2概念構造間において、対応する要素の概念記号同士を比較することを特徴とする請求項1記載の文字列比較プログラム。
- 前記比較する処理は、前記第1文字列及び前記第2文字列間における概念記号同士の比較結果を示す比較値を各概念記号につき夫々決定して、各概念記号の比較値を合算した評価値を算出し、
前記比較結果を生成する処理は、所定の判定閾値と前記評価値との比較結果に基づいて、前記第1文字列及び前記第2文字列の比較結果を生成することを特徴とする請求項1又は2に記載の文字列比較プログラム。 - 前記比較する処理は、各概念記号の比較値に、概念記号に対応する単語の意味属性または配置応じた重み付けを反映させ、当該重み付けを反映させた比較値を合算して前記評価値を算出することを特徴とする請求項3記載の文字列比較プログラム。
- 前記比較する処理は、各概念記号について比較値を決定するごとに、決定済みの比較値の合算値と、未だ比較値が決定されていない概念記号について決定され得る比較値の最大値と、を合算し、当該合算した値が所定の足切値よりも少ないときには、概念記号同士を比較する処理を中断することを特徴とする請求項3又は4に記載の文字列比較プログラム。
- 比較対象とする第1文字列及び第2文字列の夫々を単語単位に分割するとともに、各単語の有する意味的な性質を表す意味属性、及び各単語を意味的に識別する概念記号を含む情報を記憶手段から取得する手段と、
前記情報に基づいて、前記第1文字列及び前記第2文字列間において意味属性が共通する各単語を特定し、当該特定した各単語に対応する概念記号同士を前記第1文字列及び前記第2文字列間において比較する手段と、
各概念記号同士の比較結果に基づいて、前記第1文字列及び前記第2文字列同士の比較結果を生成する手段と、
を備えたことを特徴とする文字列比較装置。 - 比較対象とする第1文字列及び第2文字列の夫々を単語単位に分割するとともに、各単語の有する意味的な性質を表す意味属性、及び各単語を意味的に識別する概念記号を含む情報を記憶手段から取得し、
前記情報に基づいて、前記第1文字列及び前記第2文字列間において意味属性が共通する各単語を特定し、当該特定した各単語に対応する概念記号同士を前記第1文字列及び前記第2文字列間において比較し、
各概念記号同士の比較結果に基づいて、前記第1文字列及び前記第2文字列同士の比較結果を生成する
処理をコンピュータが実行することを特徴とする文字列比較方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010219878A JP5505234B2 (ja) | 2010-09-29 | 2010-09-29 | 文字列比較プログラム、文字列比較装置及び文字列比較方法 |
US13/219,817 US9037593B2 (en) | 2010-09-29 | 2011-08-29 | Comparison of character strings |
US14/690,578 US9460084B2 (en) | 2010-09-29 | 2015-04-20 | Comparison of character strings |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010219878A JP5505234B2 (ja) | 2010-09-29 | 2010-09-29 | 文字列比較プログラム、文字列比較装置及び文字列比較方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012073951A JP2012073951A (ja) | 2012-04-12 |
JP5505234B2 true JP5505234B2 (ja) | 2014-05-28 |
Family
ID=45871705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010219878A Expired - Fee Related JP5505234B2 (ja) | 2010-09-29 | 2010-09-29 | 文字列比較プログラム、文字列比較装置及び文字列比較方法 |
Country Status (2)
Country | Link |
---|---|
US (2) | US9037593B2 (ja) |
JP (1) | JP5505234B2 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9047283B1 (en) * | 2010-01-29 | 2015-06-02 | Guangsheng Zhang | Automated topic discovery in documents and content categorization |
JP5505234B2 (ja) * | 2010-09-29 | 2014-05-28 | 富士通株式会社 | 文字列比較プログラム、文字列比較装置及び文字列比較方法 |
US8688453B1 (en) * | 2011-02-28 | 2014-04-01 | Nuance Communications, Inc. | Intent mining via analysis of utterances |
US9251289B2 (en) * | 2011-09-09 | 2016-02-02 | Microsoft Technology Licensing, Llc | Matching target strings to known strings |
US9128915B2 (en) * | 2012-08-03 | 2015-09-08 | Oracle International Corporation | System and method for utilizing multiple encodings to identify similar language characters |
US9070090B2 (en) * | 2012-08-28 | 2015-06-30 | Oracle International Corporation | Scalable string matching as a component for unsupervised learning in semantic meta-model development |
JP5733285B2 (ja) * | 2012-09-20 | 2015-06-10 | カシオ計算機株式会社 | 検索装置、検索方法及びプログラム |
US9342592B2 (en) * | 2013-07-29 | 2016-05-17 | Workday, Inc. | Method for systematic mass normalization of titles |
JP6578685B2 (ja) * | 2015-03-16 | 2019-09-25 | 富士通株式会社 | 関係推定方法、関係推定プログラムおよび情報処理装置 |
WO2017017738A1 (ja) * | 2015-07-24 | 2017-02-02 | 富士通株式会社 | 符号化プログラム、符号化装置、及び符号化方法 |
US10430478B1 (en) * | 2015-10-28 | 2019-10-01 | Reputation.Com, Inc. | Automatic finding of online profiles of an entity location |
KR102637338B1 (ko) * | 2017-01-26 | 2024-02-16 | 삼성전자주식회사 | 번역 보정 방법 및 장치와 번역 시스템 |
JP6870421B2 (ja) | 2017-03-28 | 2021-05-12 | 富士通株式会社 | 判定プログラム、判定装置および判定方法 |
US10635699B2 (en) * | 2017-05-03 | 2020-04-28 | Servicenow, Inc. | Fuzzy matching for computing resources |
US10482128B2 (en) * | 2017-05-15 | 2019-11-19 | Oracle International Corporation | Scalable approach to information-theoretic string similarity using a guaranteed rank threshold |
US10223639B2 (en) | 2017-06-22 | 2019-03-05 | International Business Machines Corporation | Relation extraction using co-training with distant supervision |
US10229195B2 (en) * | 2017-06-22 | 2019-03-12 | International Business Machines Corporation | Relation extraction using co-training with distant supervision |
US10885056B2 (en) | 2017-09-29 | 2021-01-05 | Oracle International Corporation | Data standardization techniques |
US10783138B2 (en) * | 2017-10-23 | 2020-09-22 | Google Llc | Verifying structured data |
JP7063341B2 (ja) * | 2018-01-26 | 2022-05-09 | 富士通株式会社 | 評価プログラム、情報処理装置および評価方法 |
CN108762812B (zh) * | 2018-05-21 | 2021-12-03 | 北京中科睿芯科技集团有限公司 | 面向通用字符串处理的硬件加速结构装置及控制方法 |
WO2020065777A1 (ja) * | 2018-09-26 | 2020-04-02 | 日本電気株式会社 | 情報処理装置、制御方法、及びプログラム |
JP7173315B2 (ja) * | 2019-05-21 | 2022-11-16 | 日本電信電話株式会社 | 分析装置、分析システム、分析方法及びプログラム |
CN111831869B (zh) * | 2020-06-30 | 2023-11-03 | 深圳价值在线信息科技股份有限公司 | 一种字符串的查重方法、装置、终端设备及存储介质 |
JP2022050011A (ja) * | 2020-09-17 | 2022-03-30 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
CN116303898B (zh) * | 2023-03-07 | 2024-06-25 | 常州机电职业技术学院 | 一种基于自定义语义规则的索书号的比较方法及系统 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4887212A (en) * | 1986-10-29 | 1989-12-12 | International Business Machines Corporation | Parser for natural language text |
JPS63261457A (ja) | 1987-04-17 | 1988-10-28 | Matsushita Electric Ind Co Ltd | 文章表題候補生成装置 |
JP2866944B2 (ja) | 1989-06-06 | 1999-03-08 | 富士通株式会社 | 機械翻訳処理装置 |
JPH0782500B2 (ja) * | 1992-09-25 | 1995-09-06 | 日本電気株式会社 | 未登録語獲得方式 |
US6470306B1 (en) * | 1996-04-23 | 2002-10-22 | Logovista Corporation | Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens |
US7072826B1 (en) | 1998-06-04 | 2006-07-04 | Matsushita Electric Industrial Co., Ltd. | Language conversion rule preparing device, language conversion device and program recording medium |
JP3441400B2 (ja) | 1998-06-04 | 2003-09-02 | 松下電器産業株式会社 | 言語変換規則作成装置、及びプログラム記録媒体 |
JP2003058537A (ja) | 2001-08-10 | 2003-02-28 | Shiseido Co Ltd | テキストデータ解析方法,テキストデータ解析サーバ,テキストデータ解析プログラム及びテキストデータ解析プログラムを記録した記録媒体 |
JP4005343B2 (ja) | 2001-12-04 | 2007-11-07 | 東京ソフト株式会社 | 情報検索システム |
JP3812818B2 (ja) * | 2001-12-05 | 2006-08-23 | 日本電信電話株式会社 | データベース生成装置、データベース生成方法及びデータベース生成処理プログラム |
JP4185399B2 (ja) * | 2003-05-22 | 2008-11-26 | 日本電信電話株式会社 | 顧客データ管理装置、顧客データ管理方法および顧客データ管理用プログラムならびに顧客データ管理用プログラムを格納した記録媒体 |
US7454745B2 (en) * | 2003-07-31 | 2008-11-18 | International Business Machines Corporation | Automated semantic-based updates to modified code base |
US7865353B2 (en) * | 2005-03-22 | 2011-01-04 | Fuji Xerox Co., Ltd. | Translation device, image processing device, translation method, and recording medium |
JP2007140781A (ja) * | 2005-11-16 | 2007-06-07 | Nippon Telegr & Teleph Corp <Ntt> | 名義解析装置、名義解析方法及び名義解析プログラム |
JP2008152641A (ja) * | 2006-12-19 | 2008-07-03 | Toyota Central R&D Labs Inc | 類似例文検索装置 |
US7991987B2 (en) * | 2007-05-10 | 2011-08-02 | Intel Corporation | Comparing text strings |
US8548791B2 (en) * | 2007-08-29 | 2013-10-01 | Microsoft Corporation | Validation of the consistency of automatic terminology translation |
US8468160B2 (en) * | 2009-10-30 | 2013-06-18 | International Business Machines Corporation | Semantic-aware record matching |
JP5505234B2 (ja) * | 2010-09-29 | 2014-05-28 | 富士通株式会社 | 文字列比較プログラム、文字列比較装置及び文字列比較方法 |
-
2010
- 2010-09-29 JP JP2010219878A patent/JP5505234B2/ja not_active Expired - Fee Related
-
2011
- 2011-08-29 US US13/219,817 patent/US9037593B2/en not_active Expired - Fee Related
-
2015
- 2015-04-20 US US14/690,578 patent/US9460084B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20120078919A1 (en) | 2012-03-29 |
US20150227506A1 (en) | 2015-08-13 |
US9460084B2 (en) | 2016-10-04 |
US9037593B2 (en) | 2015-05-19 |
JP2012073951A (ja) | 2012-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5505234B2 (ja) | 文字列比較プログラム、文字列比較装置及び文字列比較方法 | |
US10140333B2 (en) | Trusted query system and method | |
JP5376163B2 (ja) | 文書管理・検索システムおよび文書の管理・検索方法 | |
US9280535B2 (en) | Natural language querying with cascaded conditional random fields | |
US7548933B2 (en) | System and method for exploiting semantic annotations in executing keyword queries over a collection of text documents | |
US6618727B1 (en) | System and method for performing similarity searching | |
US9164962B2 (en) | Document assembly systems and methods | |
JP6176017B2 (ja) | 検索装置、検索方法、およびプログラム | |
JP5501967B2 (ja) | 間接話法内の意味論的関係の識別 | |
US20110270815A1 (en) | Extracting structured data from web queries | |
JP2002297605A (ja) | 構造化文書検索方法および構造化文書検索装置およびプログラム | |
KR20160124079A (ko) | 인-메모리 데이터베이스 탐색을 위한 시스템 및 방법 | |
CN112231321B (zh) | 一种Oracle二级索引及索引实时同步方法 | |
JP2012178078A (ja) | 文書処理装置 | |
JP2016192202A (ja) | 照合処理システム、方法、及びプログラム | |
JP5836893B2 (ja) | ファイル管理装置、ファイル管理方法、及びプログラム | |
JP2012128858A (ja) | クエリシステム及びコンピュータプログラム | |
JP4439496B2 (ja) | 検索処理装置及びプログラム | |
JP2000293537A (ja) | データ分析支援方法および装置 | |
WO2015049769A1 (ja) | データ分析システム及びその方法 | |
JP2013125429A (ja) | 分析対象決定装置 | |
JP2009251845A (ja) | 検索結果評価装置及び検索結果評価方法 | |
CN118643050A (zh) | 一种基于大型语言模型的自然语言到sql转换方法 | |
JP2020181529A (ja) | 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム | |
JP2010067213A (ja) | 検索対象列決定装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130702 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140303 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5505234 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |