JP7254925B2 - 改良されたデータマッチングのためのデータレコードの字訳 - Google Patents
改良されたデータマッチングのためのデータレコードの字訳 Download PDFInfo
- Publication number
- JP7254925B2 JP7254925B2 JP2021527995A JP2021527995A JP7254925B2 JP 7254925 B2 JP7254925 B2 JP 7254925B2 JP 2021527995 A JP2021527995 A JP 2021527995A JP 2021527995 A JP2021527995 A JP 2021527995A JP 7254925 B2 JP7254925 B2 JP 7254925B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- record
- original data
- data
- data record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3337—Translation of the query language, e.g. Chinese to English
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
条項1.データクエリに対してデータを処理するためのシステムであって、
レコード処理サービスに関連付けられた1つ以上のコンピューティングデバイスであって、前記レコード処理サービスが、
元データレコードを受信することであって、少なくとも1つの元データレコードが、少なくとも1つの音声ベース言語と少なくとも1つの非音声ベース言語とに関連付けられた1つ以上のデータフィールドを含む、前記受信することと、
前記元データレコードの前記1つ以上のデータフィールドのうちの個々のデータフィールドに対して、
前記元データレコードの前記個々のデータフィールドを処理して、前記元データレコードの前記個々のデータフィールドに対する一次言語を識別することと、
前記一次言語に基づいて、前記元データレコードの前記個々のデータフィールドに含まれる用語またはキャラクタに対して言語ベーストークンを生成することであって、前記言語ベーストークン内の少なくとも1つの言語ベーストークンが、前記少なくとも1つの音声ベース言語に対応し、前記言語ベーストークン内の少なくとも1つの言語ベーストークンが、少なくとも1つの非音声ベース言語に対応する、前記生成することと、
前記元データレコードを選別して、前記元データレコードの前記個々のデータフィールドにあるデータの少なくとも一部を削除することと、
前記生成された言語ベーストークンを基準音声ベース言語に字訳して、前記元データレコードの字訳バージョンを形成することと、
前記元データレコードと、前記元データレコードの前記字訳バージョンとに対して、マッチングモデルを実行することと、
前記元データレコードと、前記元データレコードの前記字訳バージョンとに対する前記マッチングモデルの前記実行の結果に基づいて、前記元データレコードの一致するデータフィールドを識別することと、
を行うように構成されている、前記1つ以上のコンピューティングデバイス
を備える、前記システム。
元データレコードを受信することであって、少なくとも1つの元データレコードが複数の部分を含み、少なくとも1つの部分が、少なくとも1つの音声ベース言語と、少なくとも1つの非音声ベース言語とに関連付けられたテキストまたはキャラクタを含む、前記受信することと、
前記元データレコードの個々の部分に対して、
前記元データレコードの前記個々の部分に対して言語ベーストークンを生成することであって、前記言語ベーストークン内の少なくとも1つの言語ベーストークンが第1の言語に対応し、前記言語ベーストークン内の少なくとも1つの言語ベーストークンが第2の言語に対応し、前記第1の言語が基準音声ベース言語に対応する、前記生成することと、
前記生成された言語ベーストークンを前記第1の言語に字訳して、前記元データレコードの字訳バージョンを形成することと、
前記元データレコードと、前記元データレコードの前記字訳バージョンとに対して、マッチングモデルを実行することと、
前記元データレコードと、前記元データレコードの前記字訳バージョンとに対する前記マッチングモデルの前記実行の結果に基づいて、一致する元データレコードを識別することと、
を含む、前記コンピュータ実施方法。
元データレコードの個々の部分に対して言語ベーストークンを生成することであって、前記言語ベーストークン内の少なくとも1つの言語ベーストークンが、少なくとも1つの音声ベース言語に対応し、前記言語ベーストークン内の少なくとも1つの言語ベーストークンが、少なくとも1つの非音声ベース言語に対応する、前記生成することと、
前記生成された言語ベーストークンを基準音声ベース言語に字訳して、前記元データレコードの字訳バージョンを形成することと、
前記元データレコードと、前記元データレコードの前記字訳バージョンとに対して、マッチングモデルを実行することと、
を含む、前記コンピュータ実施方法。
Claims (15)
- データクエリに対してデータを処理するためのシステムであって、
前記システムは、レコード処理サービスに関連付けられた1つ以上のコンピューティングデバイスを備え、
前記レコード処理サービスは、元データレコードを受信するように構成され、少なくとも1つの元データレコードは、少なくとも1つの音声ベース言語と少なくとも1つの非音声ベース言語とに関連付けられた1つ以上のデータフィールドを含み、
前記レコード処理サービスは、前記元データレコードの前記1つ以上のデータフィールドのうちの個々のデータフィールドに対して、
前記元データレコードの前記個々のデータフィールドを処理して、前記元データレコードの前記個々のデータフィールドに対する一次言語を識別することと、
前記一次言語に基づいて、前記元データレコードの前記個々のデータフィールドに含まれる用語またはキャラクタに対して言語ベーストークンを生成することであって、前記言語ベーストークン内の少なくとも1つの言語ベーストークンは、前記少なくとも1つの音声ベース言語に対応し、前記言語ベーストークン内の少なくとも1つの言語ベーストークンは、少なくとも1つの非音声ベース言語に対応することと、
前記元データレコードを選別して、前記元データレコードの前記個々のデータフィールドにあるデータの少なくとも一部を削除することと、
前記生成された言語ベーストークンを基準音声ベース言語に字訳して、前記元データレコードの字訳バージョンを形成することと、
前記元データレコードと前記元データレコードの前記字訳バージョンとに対して、マッチングモデルを実行することと、
を行うように構成され、
前記レコード処理サービスは、前記元データレコードと前記元データレコードの前記字訳バージョンとに対する前記マッチングモデルの前記実行の結果に基づいて、前記元データレコードの一致するデータフィールドを識別するように構成される、
システム。 - 前記元データレコードの前記個々の部分の前記言語ベーストークンは、少なくとも2つの非音声ベース言語に対応する複数の言語ベーストークンを含む、
請求項1に記載のシステム。 - 前記レコード処理サービスは、前記少なくとも2つの非音声言語に基づいて、異なる字訳プロセスを実施する、
請求項2に記載のシステム。 - 前記レコード処理サービスは、前記基準音声ベース言語に対応する言語ベーストークンの字訳を除外する、
請求項1に記載のシステム。 - 前記レコード処理サービスは、さらに、前記元データレコードと、前記元データレコードの前記字訳バージョンと、の組み合わせに対して、マッチングモデルを実行するように構成されている、
請求項1に記載のシステム。 - データレコードを処理するためのコンピュータ実施方法であって、
前記コンピュータ実施方法は、元データレコードを受信するステップを含み、少なくとも1つの元データレコードは、複数の部分を含み、少なくとも1つの部分は、少なくとも1つの音声ベース言語と少なくとも1つの非音声ベース言語とに関連付けられたテキストまたはキャラクタを含み、
前記コンピュータ実施方法は、前記元データレコードの個々の部分に対して、
前記元データレコードの前記個々の部分に対して言語ベーストークンを生成するステップであって、前記言語ベーストークン内の少なくとも1つの言語ベーストークンは、第1の言語に対応し、前記言語ベーストークン内の少なくとも1つの言語ベーストークンは、第2の言語に対応し、前記第1の言語は、基準音声ベース言語に対応するステップと、
前記生成された言語ベーストークンを前記第1の言語に字訳して、前記元データレコードの字訳バージョンを形成するステップと、
前記元データレコードと前記元データレコードの前記字訳バージョンとに対して、マッチングモデルを実行するステップと、
を含み、
前記コンピュータ実施方法は、
前記元データレコードと前記元データレコードの前記字訳バージョンとに対する前記マッチングモデルの前記実行の結果に基づいて、一致する元データレコードを識別するステップを含む、
コンピュータ実施方法。 - 前記コンピュータ実施方法は、前記元データレコードを選別して、前記元データレコードの前記個々の部分の1つ以上のキャラクタまたは用語を削除するステップをさらに含む、
請求項6に記載のコンピュータ実施方法。 - 前記コンピュータ実施方法は、前記元データレコードの前記個々の部分を処理して、前記元データレコードの前記個々の部分に対する一次言語を識別するステップをさらに含む、
請求項6に記載のコンピュータ実施方法。 - 前記元データレコードの前記個々の部分に対して言語ベーストークンを生成するステップは、前記識別された一次言語に基づいて言語ベーストークンを生成するステップを含む、
請求項8に記載のコンピュータ実施方法。 - 前記識別された一次言語に基づいて言語ベーストークンを生成するステップは、前記識別された一次言語に関連付けられたユニコード値の範囲に基づいて、前記個々の部分を比較するステップを含む、
請求項9に記載のコンピュータ実施方法。 - 前記元データレコードの前記個々の部分に対する前記言語ベーストークンは、少なくとも前記第2の言語と第3の言語とに対応する複数の言語ベーストークンを含む、
請求項6に記載のコンピュータ実施方法。 - 前記生成された言語ベーストークンを前記第1の言語に字訳して、前記元データレコードの字訳バージョンを形成するステップは、前記第2の言語および前記第3の言語に基づく異なる字訳プロセスを実施するステップを含む、
請求項11に記載のコンピュータ実施方法。 - 前記一致する元データレコードは、前記元データレコードの第1のデータレコードおよび前記元データレコードの第2のデータレコードを備え、
前記コンピュータ実施方法は、前記第1のデータレコードおよび前記第2のデータレコードをマージし、更新されたデータレコードを生成するステップをさらに含む、
請求項6に記載のコンピュータ実施方法。 - 前記コンピュータ実施方法は、前記元データレコードと前記元データレコードの前記字訳バージョンとに対して、前記マッチングモデルを実行することに基づいて、1つ以上の信頼値を関連付けるステップをさらに含む、
請求項6に記載のコンピュータ実施方法。 - 前記第2の言語は、英語に対応し、
前記生成された言語ベーストークンを前記第1の言語に字訳して、前記元データレコードの字訳バージョンを形成するステップは、重み付き有限状態トランスデューサを実施するステップを含む、
請求項6に記載のコンピュータ実施方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/197,222 | 2018-11-20 | ||
US16/197,222 US11120064B2 (en) | 2018-11-20 | 2018-11-20 | Transliteration of data records for improved data matching |
PCT/US2019/062056 WO2020106644A1 (en) | 2018-11-20 | 2019-11-18 | Transliteration of data records for improved data matching |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022510818A JP2022510818A (ja) | 2022-01-28 |
JP7254925B2 true JP7254925B2 (ja) | 2023-04-10 |
Family
ID=68835370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021527995A Active JP7254925B2 (ja) | 2018-11-20 | 2019-11-18 | 改良されたデータマッチングのためのデータレコードの字訳 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11120064B2 (ja) |
JP (1) | JP7254925B2 (ja) |
WO (1) | WO2020106644A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11120064B2 (en) | 2018-11-20 | 2021-09-14 | Amazon Technologies, Inc. | Transliteration of data records for improved data matching |
WO2022245612A1 (en) * | 2021-05-19 | 2022-11-24 | Snap Inc. | Eyewear experience hub for network resource optimization |
US20230127193A1 (en) | 2021-10-27 | 2023-04-27 | Bank Of America Corporation | System and Method for Recursive Transliteration of Machine Interpretable Languages |
WO2023162206A1 (ja) * | 2022-02-28 | 2023-08-31 | 日本電気株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007073054A (ja) | 2005-09-08 | 2007-03-22 | Fujitsu Ltd | 対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置 |
JP2007156545A (ja) | 2005-11-30 | 2007-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体 |
JP2009157888A (ja) | 2007-12-28 | 2009-07-16 | National Institute Of Information & Communication Technology | 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム |
US20120035905A1 (en) | 2010-08-09 | 2012-02-09 | Xerox Corporation | System and method for handling multiple languages in text |
US20120253785A1 (en) | 2011-04-03 | 2012-10-04 | Microsoft Corporation | Translation of multilingual embedded phrases |
US20160364384A1 (en) | 2015-06-15 | 2016-12-15 | Microsoft Technology Licensing, Llc | Machine map label translation |
WO2017002199A1 (ja) | 2015-06-30 | 2017-01-05 | 楽天株式会社 | 翻字処理装置、翻字処理方法、翻字処理プログラム、及び情報処理装置 |
JP2017021602A (ja) | 2015-07-10 | 2017-01-26 | 日本電信電話株式会社 | テキスト変換装置、方法、及びプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58127230A (ja) * | 1982-01-22 | 1983-07-29 | Toshiba Corp | 漢字仮名変換装置 |
JPH09179866A (ja) * | 1995-12-26 | 1997-07-11 | Sharp Corp | 機械翻訳装置 |
US8812300B2 (en) | 1998-03-25 | 2014-08-19 | International Business Machines Corporation | Identifying related names |
WO2005106705A2 (en) * | 2004-04-26 | 2005-11-10 | John Francis Glosson | Method, system, and software for embedding metadata objects concomitantly with linguistic content |
US11120064B2 (en) | 2018-11-20 | 2021-09-14 | Amazon Technologies, Inc. | Transliteration of data records for improved data matching |
-
2018
- 2018-11-20 US US16/197,222 patent/US11120064B2/en active Active
-
2019
- 2019-11-18 WO PCT/US2019/062056 patent/WO2020106644A1/en active Application Filing
- 2019-11-18 JP JP2021527995A patent/JP7254925B2/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007073054A (ja) | 2005-09-08 | 2007-03-22 | Fujitsu Ltd | 対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置 |
JP2007156545A (ja) | 2005-11-30 | 2007-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体 |
JP2009157888A (ja) | 2007-12-28 | 2009-07-16 | National Institute Of Information & Communication Technology | 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム |
US20120035905A1 (en) | 2010-08-09 | 2012-02-09 | Xerox Corporation | System and method for handling multiple languages in text |
US20120253785A1 (en) | 2011-04-03 | 2012-10-04 | Microsoft Corporation | Translation of multilingual embedded phrases |
US20160364384A1 (en) | 2015-06-15 | 2016-12-15 | Microsoft Technology Licensing, Llc | Machine map label translation |
WO2017002199A1 (ja) | 2015-06-30 | 2017-01-05 | 楽天株式会社 | 翻字処理装置、翻字処理方法、翻字処理プログラム、及び情報処理装置 |
JP2017021602A (ja) | 2015-07-10 | 2017-01-26 | 日本電信電話株式会社 | テキスト変換装置、方法、及びプログラム |
Non-Patent Citations (1)
Title |
---|
川岸 将実、外1名,機械翻訳とWebによる固有名詞の対訳を併用した英日言語横断質問応答システム,言語処理学会第12回年次大会発表論文集,日本,言語処理学会,2006年03月13日,p.340-343 |
Also Published As
Publication number | Publication date |
---|---|
US11120064B2 (en) | 2021-09-14 |
JP2022510818A (ja) | 2022-01-28 |
US20200159857A1 (en) | 2020-05-21 |
WO2020106644A1 (en) | 2020-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7254925B2 (ja) | 改良されたデータマッチングのためのデータレコードの字訳 | |
US10303689B2 (en) | Answering natural language table queries through semantic table representation | |
US10102246B2 (en) | Natural language consumer segmentation | |
US9996521B2 (en) | Validation of formulas with external sources | |
US11748429B2 (en) | Indexing native application data | |
US11061943B2 (en) | Constructing, evaluating, and improving a search string for retrieving images indicating item use | |
CN113836316B (zh) | 三元组数据的处理方法、训练方法、装置、设备及介质 | |
CN111459977B (zh) | 自然语言查询的转换 | |
CN107665442B (zh) | 获取目标用户的方法及装置 | |
WO2020024824A1 (zh) | 一种用户状态标识确定方法及装置 | |
US11055345B2 (en) | Constructing, evaluating, and improving a search string for retrieving images indicating item use | |
TWI547888B (zh) | A method of recording user information and a search method and a server | |
US11645329B2 (en) | Constructing, evaluating, and improving a search string for retrieving images indicating item use | |
US11860876B1 (en) | Systems and methods for integrating datasets | |
CN113923193B (zh) | 一种网络域名关联方法、装置、存储介质及电子设备 | |
CN113515940B (zh) | 一种用于文本搜索的方法及设备 | |
US11556591B2 (en) | Tenant-isolated custom annotations for search within a public corpus | |
CN113722334B (zh) | 数据处理的方法、装置、电子设备及介质 | |
US10664517B2 (en) | Constructing, evaluating, and improving a search string for retrieving images indicating item use | |
Gonçalves de Pontes et al. | PPMark: An Architecture to Generate Privacy Labels Using TF-IDF Techniques and the Rabin Karp Algorithm | |
CN115081450A (zh) | 文本分析方法,装置、设备、介质和程序产品 | |
CN117688939A (zh) | 一种实体关系提取的方法和装置 | |
CN114154072A (zh) | 检索方法、装置、电子设备以及存储介质 | |
CN117349312A (zh) | 单词标准化、查询方法、装置、电子设备以及存储介质 | |
WO2022265744A1 (en) | Smart browser history search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210519 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220627 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220726 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20221025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230307 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230329 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7254925 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |