JP6595979B2 - 多言語ビジネスの指標のキュレーション及び翻字統合 - Google Patents

多言語ビジネスの指標のキュレーション及び翻字統合 Download PDF

Info

Publication number
JP6595979B2
JP6595979B2 JP2016503025A JP2016503025A JP6595979B2 JP 6595979 B2 JP6595979 B2 JP 6595979B2 JP 2016503025 A JP2016503025 A JP 2016503025A JP 2016503025 A JP2016503025 A JP 2016503025A JP 6595979 B2 JP6595979 B2 JP 6595979B2
Authority
JP
Japan
Prior art keywords
grapheme
data
character string
workflow
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016503025A
Other languages
English (en)
Other versions
JP2016516247A5 (ja
JP2016516247A (ja
Inventor
ジェイ. スクリフィグナノ、アンソニー
クライン、マイケル
キャロラン、ショーン
マシューズ、ウォリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dun and Bradstreet Corp
Original Assignee
Dun and Bradstreet Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dun and Bradstreet Corp filed Critical Dun and Bradstreet Corp
Publication of JP2016516247A publication Critical patent/JP2016516247A/ja
Publication of JP2016516247A5 publication Critical patent/JP2016516247A5/ja
Application granted granted Critical
Publication of JP6595979B2 publication Critical patent/JP6595979B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)

Description

(関連出願の相互参照)
本出願は、2013年3月15日出願の米国仮特許出願第61/793,044号の優先権の利益を主張し、この出願の内容を参照により本明細書に組み込む。
本開示は、情報が二つ以上の言語又は書記体系の間で変換され、情報の第2、第3および多様な順序の表現を生成する状況に関する。
このセクションで記述された手法は、追求可能な手法であるが、必ずしも以前に考案され又は追求された手法ではない。従って、このセクションで記述された手法は、本願特許請求の範囲に対する先行技術でなくても良く、このセクションに含めることにより先行技術であるとは認められない。
本開示は、企業体名のような特定の文脈内での異なる綴りの間の変換(例えばロシア語のキリル文字からラテン文字)に特に焦点を当てたデータの自動言語変換の分野に関する。
先行技術は、第1言語における名前の様々な部分を第2言語における名前に十分には変換しない。この文脈において、“様々な部分”は、呼び名、地理的名称、一般的な名詞、形容詞の記述、社名接尾辞(incorporation suffix)等のセマンティック要素を指す。例えば、元々キリル文字で書かれたロシア語の企業名を、ドイツ語圏の人々が“理解できる”ラテン文字に変換する必要があるかもしれない。先行技術は、一般的に、1対1のマッピング及び/又は直訳を行うことによりこの問題に取り組んだ。この文脈において、“1対1のマッピング”は、変換元データ内の語(名前)に対してマップされた変換先言語における単語の記憶及び検索を指す。この文脈において、“直訳”は、変換元言語から変換先言語への語(又は名前全体)の意味の翻訳を指す。従って、先行技術は、“発音可能”な変換を達成したが、例えば、企業名の記述部分をドイツ語話者が理解可能な言語へ変換することはできない。
先行技術の他の問題は、技術が誤った翻訳又は変換を行う場合に翻訳又は変換の品質を自動的に改善する方法を有していないことである。つまり、先行技術は、経験から学び経験を活用することができない。
文字列を解析するためのレキシコンおよび解析ルールと、入力データの変換元についての履歴データと、文字列への一連の処理を表すワークフローを決定するための変更編成ルールと、前記ワークフローを最適化するための最適化論理データと、を格納するデータストアを備えるコンピュータが実行する方法であって、第1言語の文字列と、入力データの変換元についてのセマンティック文脈データと、を含む入力データを受けることと、前記文字列を複数の書記素に分解するとともに、前記データストアから前記レキシコンと前記解析ルールとを読み出して、読み出した前記レキシコンと前記解析ルールとに基づいて前記文字列を解析して、分解されたそれぞれの前記書記素に、前記文字列の構造に基づく分類を付与することと、前記複数の書記素に付与された分類に基づいて、前記文字列の構造を表す抽象概念である書記素パターンを生成することと、前記セマンティック文脈データに含まれる前記変換元と同一又は類似する変換元についての前記履歴データを前記データストアから参照して、前記変換元からの典型的な入力の構造および質的側面を評価した評価値を表す記述データを生成することと、前記セマンティック文脈データと前記書記素パターンと前記記述データと、前記データストアに格納された前記変更編成ルールと、に基づいて、前記文字列に対する処理を行うワークフローを決定することと、決定した前記ワークフローに沿って前記文字列を処理することによって、前記文字列を第1言語から第2言語に変換することと、前記変換についての実行結果の評価を表すパフォーマンスの指標を解析することと、前記データストアに格納された前記最適化論理データ前記パフォーマンスの指標の解析結果に基づいて、前記ワークフローを変化させるか又は組み立て直すことと、を備える方法が提供される。また、上記方法を実行するシステムと上記方法を実行するプロセッサを制御するための指示を記憶する記憶装置とが提供される。
データの自動言語変換用処理の論理構造を示すブロック図である。 図1の処理により使用される参照データストアの論理構造を示すブロック図である。 図1の処理により使用される経験的データストアの論理構造を示すブロック図である。 図1の処理の第1機能の論理構造を示すブロック図である。 図1の処理の第2機能の論理構造を示すブロック図である。 図1の処理の再帰的完了機能の論理構造を示すブロック図である。 図1の処理の第1機能の例示的動作を示すフローチャートである。 図7の一部分の詳細であり、書記素マトリクス処理により実行される例示的動作を示すフローチャートを表す。 図7の一部分の詳細であり、文脈洞察処理により実行される例示的動作を示すフローチャートを表す。 図7の一部分の詳細であり、セマンティック洞察処理により実行される例示的動作を示すフローチャートを表す。 図1の処理の第2機能の例示的動作を示すフローチャートである。 図8の一部分の詳細であり、変更編成ルールストアを伴うルールエンジンと編成サービスとの相互作用を表す。 ロシア語のキリル文字の翻訳及び言語間変換による処理の例を表す。 再帰的完了機能の例示的動作を示すフローチャートである。 図9の一部分の詳細であり、経験則処理の象徴及び経験則処理のサブコンポーネントにより参照されるデータストアを表す。 図9の一部分の詳細であり、統合処理及び統合処理のサブコンポーネントにより参照されるデータストアを表す。 ルールエンジン及び編成サービスの象徴を表す。 本明細書で記述された方法を採用するシステムを示すブロック図である。
2以上の図で共通するコンポーネント又は特徴は、各図において同一の参照番号で示される。
本明細書中で使用される用語“言語間”及び米国仮特許出願第61/793,044号で使用される用語“辞書的(lexigraphical)”は、いずれも“2以上の言語間又は2以上の言語に関連する”ということを意味する。
図1は、データの自動言語変換用の処理100の論理構造を示すブロック図である。処理100は、人又は呼び出しシステムであって良いユーザ130から、言語間変換洞察環境(interlingual transformation insight environment)135に提供される入力105を受け付け、2以上の言語間又は書記体系間で変換された入力105の翻訳である出力データ106を生成する。処理100は、入力105の第2、第3および多様な順序の表現を生成する。従って、変換元変換先綴りとの間の逐語翻字(literal transcription)を超えた洞察をユーザ130に提供する。
処理100は、言語相互の、即ち複数の言語の、又は正字法相互の、即ち複数の書記体系の間の、意味的および非意味的、文脈的および非文脈的、言語間変換又は翻訳の特定の領域における類似性の推論を含むがこれらに限定されない洞察を、ユーザ130に提供する。処理100は、とりわけ入力105に対する指標の固有の要素又は属性の同一性により、複数同時形態を伴う入力105に含まれている情報(即ち1以上の言語又は書記体系で提供される情報)を認識、解析、比較、対比、又は抽出(distill)し、異なる言語、文字又は書記体系(形態)間又は中の入力105を書き直す能力をユーザ130に提供する。これらの固有の要素は、同語源語としての役割を果たす。そして、同語源語は、異なる形態で始まったデータの意味のある比較を可能にする。
入力105は、入力実体データ110と入力セマンティック文脈データ115とを含む。
入力実体データ110は、入ってくる入力自体の実体データであって、一般的には、特定の言語及び書記体系(正字法)で表現された企業名である。入力実体データ110は、処理100の実行を支援する入力実体データ110の内容に対して一切の固有のガイダンスがない点において“構造化されていない”。
入力セマンティック文脈データ115は、とりわけ、入力105の解析、文脈、履歴、入力105が提供される環境、又は入力105のメタデータから発見又は推定されて良い文脈データである。入力セマンティック文脈データ115は、例えば、入力実体データ110の変換元、入力実体データ110を受け取った日付、処理100を実行するシステムに入力実体データ110を送信したシステムなどのように、入力実体データ110に関するメタデータであるため、構造化されている”と考えられる
処理100は、言語間変換洞察環境135における多数のサブドメイン又は機能的サブアグリゲーション、即ち、第1機能140、第2機能150、再帰的完了機能160に亘って機能性を有する。また、言語間変換洞察環境135は、データストア170を備える。
データストア170は、データ記憶設備であり、参照データストア172と経験的データストア174とを備える。経験的データストア174は、処理100の実行中に得られた経験に基づいて更新される。参照データストア172は、処理100の実行中に得られた経験よりむしろ客観的なルール及び基準に応じて更新される。データストア170を参照データストア172と経験的データストア174に分離することは説明の便宜上のためのものにすぎず、必ずしも関連するストアの物理的分離を反映したものでなくて良い。
第1機能140は、入ってくる入力データ、即ち入力105に基づいて動作する機能の集合であり、3つのサブコンポーネント、即ち書記素マトリクス142と文脈洞察144とセマンティック洞察146とを備える。
第2機能150は、入力105と第1機能140の出力との組み合わせに基づいて動作する機能と処理の集合である。第2機能150は、2つのサブコンポーネント、即ち翻訳152と言語間変換154とを備える。
再帰的完了機能160は、処理100の効率性と有効性を改善するために、第1機能140と第2機能150に加えて、処理100のパフォーマンスの認識及び解析から導出されるその他の入力からの結果に基づいて動作する機能の集合である。このような解析は、経験的データストア174に存在する参照データのキュレーションと統合とを含む。再帰的完了機能160は、2つのサブコンポーネント、即ち経験則162と統合164とを備える。
図2は、参照データストア172の論理構造を示すブロック図である。参照データストア172は、下記(a)〜(h)を含む。
(a)特定の単語に対する同義語と代替エントリ又は他の言語のサブコンポーネントの集合とを記憶する同義語ストア205。
(b)書き言語の文体についての相対的重み付け又はスコアのような情報と定性データとを記憶する文体ストア210。
(c)単語、フレーズ、又は他の言語のサブコンポーネントの標準化を支援するルールとレキシコン(辞典)とを記憶する標準化ストア215。
(d)変換元正字法から変換先正字法への特定の単語、フレーズ、又は他の言語のサブコンポーネントの翻訳のためのルールと、2つの正字法(即ち変換元正字法と変換先正字法)間の潜在的翻訳と、を含む翻訳レキシコン220。
(e)変換元正字法から変換先正字法への特定の単語、フレーズ、又は他の言語のサブコンポーネントの言語間変換のためのルールと、2つの正字法(即ち変換元正字法と変換先正字法)間の潜在的言語間変換と、を記憶する言語間変換ストア225。
(f)データ変換元タイプについての情報を含む変換元タイプストア230。
(g)編成ルールを記憶する変更編成ルールストア235。
(h)全体システムの最適化のためのルールを記憶する最適化ルールストア240。
図3は、経験的データストア174の論理構造を示すブロック図である。経験的データストア174は、下記(a)〜(i)を含む。
(a)書記素の分解と解析のためのレキシコンとルールとを記憶する書記素解析ストア305。
(b)書記素の頻度数を記憶する書記素パターン頻度ストア310。
(c)単語、フレーズ、及び他の言語のサブコンポーネントの一意性に関連するルール、頻度テーブル、及びレキシコンを記憶する一意性ストア315。
(d)特定のデータ変換元についての情報を記憶する変換元ストア320。
(e)言語間変換洞察環境135のサブコンポーネントの実行において生成された統計を記憶する統計ストア325。
(f)言語間変換洞察環境135による入力105の処理の全出力を記憶するアーカイブ330。
(g)とりわけ、言語間変換洞察環境135のパフォーマンスから導出される相関関係(semaphores)とスコアとを記憶するシグナルストア335。
(h)特定の単語、フレーズ、及び他の言語のサブコンポーネントのための代替エントリを記憶する代替ストア340。
(i)言語間変換洞察環境135のためのキーパフォーマンス指標に関連する統計を記憶するパフォーマンスストア345。
図4は、第1機能140の論理構造のブロック図を示す。前述したように、第1機能140は、書記素マトリクス142と、文脈洞察144と、セマンティック洞察146と、を備える。
書記素マトリクス142は、例えば入力105のその基本書記素への縮小のように、最も基本的セマンティックレベルにいて入力105に基づいて動作するコンポーネントサブ処理の集合である。書記素マトリクス142は、書記素分解解析405と、書記素パターンマッパ410と、書記素パターンモデラ415と、を備える。
書記素分解解析405は、他の処理に供給されるセマンティック要素を認識して属性化するために、とりわけ、書記素解析ストア305に記憶されたレキシコン、メタデータを使用して入力105を分解し解析する。
書記素パターンマッパ410は、書記素分解解析405の出力を使用し、象徴的方法で入力105の内容のセマンティックパターンの曖昧さを失くす(例えば分解する)。書記素パターンマッパ410の出力は、入力105の内容の構造を明らかにする象徴的パターン(例えば抽象的表現)である。このような曖昧さを失くした例は、“ジムの草刈りスプリングベール(Jim's Mowing Springvale)”を“PN−CD−GL”に変換することである。ここで、“PN”は固有名詞を示し、“CD”は営利表現を示し、“GL”は地理的位置を示す。
書記素パターンモデラ415は、書記素パターンマッパ410の出力を受け取り、書記素パターン頻度ストア310のデータを使用して、入力105の構成書記素に類似するパターンを識別する。類似性のためのテストは、表面的なパターンの類似性以上のものである。
文脈洞察144は、文脈レベルでの入力105に基づいて動作するサブコンポーネントの集合である。すなわち、それらは、入力105の出所、タイミング及び内容から来る属性及び指標に関する入力105を分析、基本的書記素レベルセマンティックを超えている。文脈洞察144は、文脈解析420と、変換元分類425と、一意性解析430と、代替生成435と、を備える。
文脈解析420は、書記素パターンマッパ410と書記素パターンモデラ415により生成された属性と同様に、内容の全体的意味に焦点を当てたレベルでの入力105の内容の解析により入力105を解析する。この解析は、とりわけ、“技術用語”と“専門用語”を見つけるための入力105の内容の解析を含み、ジオコーダ(即ち地理的実体の識別を解決するサービス)、業界レキシコン(例えば特定の言語における特定国のための業界特有の頭字語リスト)といった機能を参照して良い。文脈解析420の主な出力は、文脈解析420により実行された解析、すなわち入力105の内容の分類付け及び特徴付け、に関するメタデータである。
分類及びパターンが改善されるように、文脈解析420と書記素マトリクス142のコンポーネントとの間で処理の複数の反復が有っても良い。
変換元分類425は、処理100に対する前回の入力の変換元及び変換元タイプについての履歴データを参照する入力セマンティック文脈データ115内で提供される入力105についての変換元メタデータを解析する。なお、履歴データは、変換元ストア320と変換元タイプストア230に記憶されている。変換元分類425の出力は、入力105の変換元と同一又は類似する変換元からの典型的な入力の構造(例えばスタイル、トーン、文法構造についてのデータ)及び質的側面(例えば信憑性、忠実性、可変性、完全性、複雑性)についての記述データである。
一意性解析430は、参考として一意性ストア315を考慮して、様々な基準に関連する単語又はフレーズ群の一意性と同様に、単語(又は他の言語のサブコンポーネント)レベルでの一意性について、入力105を解析する。一意性解析430の出力は、入力105とその構成部分の相対的な一意性を記述するスコアである。
代替生成435は、入力105の構成部分のために代替単語(又は他の書記素表現)、フレーズ、及び名前を生成する。それら代替は、経験に基づく文脈上のもの(言い換えると、それらは標準頻度テーブル又は言語レベルルールに基づかないもの)であり、代替ストア340から供給される。
セマンティック洞察146は、入力105に基づいて言語レベルで動作するサブコンポーネントの集合である。つまり、それらは、入力の推定された言語的文脈のレベル(例えば、ロシア語のキリル文字、又は、政府機関の名称のためのロシア語のキリル文字といったより具体的な“言語”)で動作する。セマンティック洞察146は、標準化処理440と、同義語解析445と、スタイル解析450と、を備える。
標準化処理440は、そのコンテンツの“最良の標準的なビュー”を作成するために、入力105に対してクレンジング、解および標準化処理を実行する。標準化処理440は、標準化ストア215データを利用する。
同義語解析445は、入力105の特定の言語に対する代替としての同義語を取得するために、入力105の単語、又は他の言語のサブコンポーネントを解析する。同義語解析445は、同義語ストア205を利用する。
文体解析450は、入力105の言語の文体(トーン、形式、専門用語、頭字語、略語の観察等を含む。)を解析し、属性化された文体を表現するためにスコア及び指標を計算する。文体解析450は、文体ストア345のデータを利用する。文体解析450の出力は、入力105の文体の性質を記述するスコア及び指標である。
図5は、第2機能150の論理構造のブロック図を示す。上述したように、第2機能は、翻訳152と、言語間翻訳154と、を備える。第2機能150は、ルールエンジン525及び編成サービス530を使用する。
ルールエンジン525は、変更編成ルールストア235に記憶されたルールを使用する。
編成サービス530は、変更編成ルールストア235に記憶されたワークフローと決定論理を使用するワークフローシステムである。
ルールエンジン525と編成サービス530は、第2機能150に亘って、即ち翻訳152と言語間変換154とに亘って協働して動作し、入力105とその構成部分の配置を確立するために、第1機能140のコンポーネント部分の出力を整理する。
ルールエンジン525と編成サービス530により実行されるワークフローとルールの組は、変更編成ルールストア235に記憶されている。これらのワークフローとルールは、第1機能140の出力を形成する指標、スコア、及び他のデータを利用する。
翻訳152は、言語間の入力105から単語(又は他の言語のサブコンポーネント)を変換するサブ処理から構成される。この点に関して、翻訳152は、翻訳済み予約語ルックアップ505と翻訳処理510とを含む。
翻訳済み予約語ルックアップ505は、専門的又は専門用語に基づいた、入力105の一部の翻訳の候補を提供するために、それによって、第1機能140により生成されたメタデータと変形(variants)とを含む入力105の一部が、翻訳レキシコン220を用いて解析される処理である
翻訳処理510は、言語間(例えばロシア語と英語間)において、第1機能140により生成されたメタデータと変形とを含む入力105の一部を翻訳する。翻訳処理510は、翻訳機能を実行するウェブサービス、アプリケーション、及び他のシステムの起動を含んでいても良い。
言語間変換154は、言語間の入力105から単語(又は他の言語のサブコンポーネント)を翻訳するいくつかのサブ処理から構成される。言語間変換154は、インターレキシコン予約語ルックアップ515と、変換処理520と、を備える。
インターレキシコン予約語ルックアップ515は、専門的な、又は専門用語に基づいた、入力105またはその一部の変換である翻訳の候補を提供するために、それによって、第1機能140により生成されたメタデータと変形(variants)とを含む入力105の一部が、翻訳レキシコン220を用いて解析される処理である
変換処理520は、文字間(例えばギリシャス文字からラテン文字)において入力105の一部を翻字する。変換処理520は、翻字機能を実行するウェブサービス、アプリケーション、及び他のシステムの起動を含んでいても良い。
図6は、再帰的完了機能160の論理構造を示すブロック図である。上述したように、再帰的完了機能160は、経験則162と統合164とを備える。第2機能150により利用されるルールエンジン525及び編成サービス530は、再帰的完了機能160にも利用され、最適化を達成し処理100の有効性と効率性を改善するために経験則162と統合164とに亘って協働して動作する。
上述したように、編成サービス530は、再帰的完了機能160の内容において最適化ルールストア240に含まれているワークフローと決定論理を使用するワークフローシステムである。
経験則162は、観測された挙動に従って処理100のパフォーマンスを最適化するために、アーカイブ130に記憶されている出力データ106と同様に、言語間変換洞察環境135のサブ処理の全ての(アーカイブ330に記憶されている)出力を継続的に解析するコンポーネントサブ処理の集合である。処理100は、経験則162を介して、自己完結するものである。つまり、経験則162は、最適な又は解決の手掛かりをもたらす結果を作成するために、経験から学習し、処理100内で実行されるワークフローを変化させる又は組み立て直す。経験則162は、統計解析605と、レキシコンシーケンサ610と、シグナルスコアラ615と、を備える。
統計解析605は、統計ストア325に記憶される、スコアと他の指標を作成するために統計解析を実行する。統計解析部605は、例えば単語フレーズ又は入力105の他の言語のサブコンポーネントの頻度解析、アーカイブ330及び経験則データストア174に記憶された言語間情報洞察環境135の履歴入力の履歴データと処理105の出力とに亘る中心傾向の測定と、を実行する。作成されたスコアと他の指標は、統合164による第1機能140及び第2機能150のチューニングにおけるリソースとして使用され得る。
レキシコンシーケンサ610は、レキシコンの順序を組み立て直すワークフローを作成又は更新するために、とりわけ、言語間変換ストア225、同義語ストア205、書記素パターン頻度ストア310、一意性ストア315及び代替ストア340に記憶されている統計解析605の出力を使用する。その結果、最適な又は解決の手掛かりをもたらすエントリが、これらのストアを利用する処理(例えば書記素パターン頻度ストア310からのデータ検索)により返される。
シグナルスコアラ615は、優先属性を処理100のパフォーマンスから導出された様々な指標と測定量に割り当てるルーチンを実行し、これらのスコアをシグナルストア335に送信する。
統合164は、とりわけ、経験則162の出力を使用するコンポーネントサブ処理の集合であり、言語間変換洞察環境135のサブコンポーネント内の処理及びルーチンを変更するためにルールエンジン525及び編成サービス530により実行されるワークフローに対する入力を提供し、処理100のパフォーマンスの効率性と有効性を高める。これらの変更は、最適化ルールストア240にエントリとして記録される。この関連で、統合164は、履歴解析620と最適化625とを備える。
履歴解析620は、処理100実行中の言語間変換洞察環境135の(実行時間、リソース使用率、データストア使用率、品質正確性の属性、ユーザフィードバックスコアを含むがこれに限定されない)パフォーマンスの指標を解析する。パフォーマンスの指標は、履歴解析620によりパフォーマンスストア345に記録され、更新又は修正のための処理を選択するために最適化625により読み取られる。
最適化625は、とりわけ、履歴解析620により生成されたパフォーマンスの指標を使用し、最適化ルールストア240を更新する。そして、ルールエンジン525及び編成サービス530における最適化ルーチンの実行を開始する。
図7は、ロシア語のキリル文字を例にとり、第1機能140の動作を示すフローチャートである。
図7Aは、図7の一部分の詳細であり、ロシア語のキリル文字を例にとり、書記素マトリクス142により実行される動作を示すフローチャートを表す。
図7Bは、図7の一部分の詳細であり、ロシア語のキリル文字を例にとり、文脈洞察144により実行される動作を示すフローチャートを表す。
図7Cは、図7の一部分の詳細であり、ロシア語のキリル文字を例にとり、セマンティック洞察146により実行される動作を示すフローチャートを表す。
図7を参照すると、第1機能140は、この例において、2014年1月1日における変換元“パートナー収集システム”から(即ち入力セマンティック文脈データ115)、ロシア語のキリル文字“Невское Электромонтажное Общество”、(即ち入力実体データ110)である入力105を受信する。第1機能140は、アーカイブ330に記憶される一時的出力760を作成する。
図7Aを参照すると、書記素分解解析405は、入力105を解析し、書記素解析ストア305を参照し、入力実体データ110の構成要素(書記素、単語、フレーズ等)に分類を割り当てる。
この例では、書記素分解解析405は、入力実体データ110を解析し、それを表1に示すように分類する。
Figure 0006595979
書記素パターンマッパ410は、入力実体データ110と書記素分解解析405により生成された(上記表1のカラム2及び3に示す)メタデータとを受け付け、入力実体データ110の文法的セマンティック構造の抽象概念である“書記素パターン”を作成する。
この例では、書記素パターンマッパ410は、入力が2つの主要部分、名前(N)及び接尾辞(S)と、3つの詳細部分、地理的名称(GN)、営利表現(CD)、及び社名接尾辞(IN)と、から成ることを識別する1N:GN−2N:CD−3S:INのパターンを作成する。
書記素パターンモデラ415は、書記素パターンマッパ410の出力を受け付け、重要な点で類似するパターンを見つけるために、書記素パターン頻度ストア310において検索を実行する。
表2は、書記素パターンモデラ415により導出されるいくつかのパターンの例を提供する。実際には、書記素パターンモデラ415内部で他のパターン、例えば図7Aに示すパターンも導出される。
Figure 0006595979
図7Bを参照すると、変換元分類425は、入力(入力セマンティック文脈データ115)の変換元メタデータを解析する。この例では、変換元“パートナー収集システム(Partner Collection System)”は、キー“PCS”と共に見つけられ、変換元分類425は、表3に示すように変換元ストア320からメタデータを導出する。
Figure 0006595979
表3のメタデータのリストは、単なる例示であり、閉集合(closed set)を表すものではない。
文脈解析420は、入力105と書記素マトリクス142の出力とを受け付け、ジオコーダと商業レキシコンとを参照し、入力105の内容の構成部分(単語とフレーズ、又は同等のもの)の詳細な分類を作成する。この例では、詳細な分類を表4に示す。
Figure 0006595979
新しいメタデータ(即ち、表4に示す文脈解析)は、他のコンポーネントによる効率的な使用のためにコード又はトークンとして記憶されても良い。
代替生成435は、入力105を受け付け、代替ストア340を参照し、表5に示す代替データを生成する。
Figure 0006595979
一意性解析430は、(第1機能140の他の部分の出力を含む)入力105を受け付け、一意性ストア315を参照し、一意性スコア(即ち、入力105の一部分の一意性を示すスコア)を生成する。本実施例における一意性スコアを表6に示す。
Figure 0006595979
一意性解析430は、一意性スコアを生成する場合に、代替生成435により生成された代替データも考慮する。
図7Cを参照すると、標準化処理440は、レキシコン固有ルール使用して、(代替生成43により生成された代替を含む)入力105の内容を標準化する(このケースにおいて、関連するレキシコンは、“キリル文字のロシア語の商号”であって良い)。この例では、入力は表7に示すように標準化され得る。
Figure 0006595979
同義語解析445は、例えば表8に示すように、入力105の構成部分と代替生成部435により生成された代替とに対する同義語を生成するために、同義語ストア205から入力105及びその一部を検索する
Figure 0006595979
文体解析450は、いくつかの観点にわたって入力105の文体を解析し、この解析を表現するメタデータを作成する。この例では、文体解析450は、表9に示す出力を作成する。
Figure 0006595979
表9文体メタデータカラムは、例として、言語固有の専門用語の使用、頭字語の使用、及び入力105の構造の文法形式といった観点に基づいて入力105の文体を分類する文体ベーススコアの入力“Невское Электромонтажное Общество”に対する属性を表す。
図8は、ロシア語のキリル文字の入力を例として用いて、第2機能150の例示的動作を示すフローチャートである。
図8Aは、図8の一部分の詳細であり、変更編成ルールストア235を伴うルールエンジン525と編成サービス530との相互作用を表し、図8におけるロシア語のキリル文字の例の処理に対するそれらの関係を示す。
図8Aを参照すると、入力105と第1機能140の全出力とは、ルールエンジン525により使用される。ルールエンジン525は、このデータの全てと変更編成ルールストア235を参照し、後に変更編成ルールストア235に記憶されデータ駆動型のルール(“ワークフロー”)を生成する。ワークフローは、入力105の配置のための処理100における一連のステップを決定する。
編成サービス530は、ルールエンジン525により規定され、変更編成ルールストア235に記憶されたワークフローを実行する。
表10は、本実施例のために、ワークフローステップを記載する。
Figure 0006595979
表10が示すワークフローステップは、この例で必要とされる指示の僅かなサブセットにすぎない。フルセットは、第1次機能140により生成された、多数の入力105の変形とその属性部分と、に対する動作を含む。
図8Bは、図8の一部分の詳細であり、図8におけるロシア語のキリル文字の例のために、翻訳152と言語間変換154とにより処理された例示的なデータを表す。この点に関し、翻訳152は翻訳データ860を作成し、言語間変換154は変換済みデータ870を作成する。
図8を再度参照すると、翻訳済みデータ860と変換済みデータ870は、出力データ106を作成するために結び付けられている。より具体的には、ルールエンジン525は、最終的な結果、即ちアーカイブ330に記憶される出力データ106を組み立てるために翻訳152と言語間変換154の結果に対してルールを実行する。
表11は、翻訳済みデータ860と変換済みデータ870の内容の例を示す。
Figure 0006595979
表12は、出力データ106になる最終的な合成されたバージョンを示す。
Figure 0006595979
従って、“Невское Электромонтажное Общество”は、“NEVA ELECTRICAL LLC”に変換されている。
図9は、再帰的完了機能160の例示的な動作を示すフローチャートである。図9は、再帰的完了機能160の象徴的表現と、再帰的完了機能160のサブコンポーネントにより参照されるデータストアと、を示す。
図9Aは、図9の一部分の詳細であり、経験則162とそのサブコンポーネントである統計的解析605、シグナルスコアラ615、レキシコンシーケンサ610、並びにこれらのサブコンポーネントと相互に作用するデータストアを示す。
図9Bは、図9の一部分の詳細であり、統合164と、統合164のサブコンポーネントより参照されるデータストアと、を示す。
図9Cは、図9の一部分の詳細であり、最適化ルールストア240を伴うルールエンジン525と編成サービス530との相互作用を示す。
従って、処理100は、
(a)入力105、即ち文字列を分解して書記素にすること(図7A、書記素分解解析405参照)と、
(b)書記素の抽象概念を表す文字パターンを生成すること(図7A、書記素パターンマッパ410参照)と、
を備える方法である。
文字パターンは、入力105の書記素における書記素に対応する文字群を含む。例えば、図7Aにおいて、パターン“1N:GN−2N:CD−3S:IN”は、“営利表現(commercial description)”の指定に対応する文字群“CD”を含み、書記素解析ストア305を参照する書記素パターンマッパ410によりマップされている。
また、処理100は、データ変換元から書記素についての情報を導出することを含む。例えば、図7Bの文脈解析420を参照されたい。
図7Aの書記素パターンマッパ410を再度参照すると、文字パターンは、第1文字群、例えばGNと、第2文字群、例えばCDの連続を含む。GNは入力105の書記素における第1書記素に対応し、CDは入力105の書記素における第2書記素に対応する。図8Aを参照すると、処理100は、(a)連続に基づいて、複数の処理のうちから1つを選択することと、(b)文字列処理を実行することと、を更に備える。
処理100は、文字列の、翻訳、即ち翻訳済みデータ860と、言語間変換、即ち変換済みデータ870と、の組み合わせを得る。
図10は、ここに記述された方法を採用するシステム1000のブロック図である。システム1000は、インターネット等のデータ通信ネットワーク、即ちネットワーク1030に接続するコンピュータ1005を備える。
コンピュータ1005は、ユーザインタフェース1010と、プロセッサ1015と、メモリ1020と、を備える。コンピュータ1005は、ここではスタンドアローン装置として表されているが、これに限定されず、代わりに分散型処理システムにおける(図示しない)他の装置に接続され得る。
ユーザインタフェース1010は、ユーザ130が情報と命令選択をプロセッサ1015と通信することを可能にするためのキーボード、音声認識サブシステム等の入力装置を備える。また、ユーザインタフェース1010は、ディスプレイ、プリンタ等の出力装置を備える。付加情報と命令選択をプロセッサ1015と通信するために、ユーザ130は、マウス、トラックボール、ジョイスティック等のカーソル移動制御装置により、ディスプレイ上でカーソルを操作することができる。
また、システム1000は、コンピュータ1005にネットワーク1030を介して通信可能に接続するユーザ装置1045を備える。ユーザ130は、ユーザインタフェース1010を介して情報をやり取りする代替として、ユーザ装置1045を介してコンピュータ205と情報をやり取りし得る。
プロセッサ1015は、指示に応答し実行する論理回路で構成された電子装置である。
メモリ1020は、コンピュータプログラムで符号化された非一時的なコンピュータ読み取り可能な装置である。これに関し、メモリ1020は、プロセッサ1015の動作を制御するためのプロセッサ1015により読み取り可能であり実行可能なデータと指示とを記憶する。メモリ1020は、ランダムアクセスメモリ(RAM)、ハードウェア、読み出し専用メモリ(ROM)、又はそれらの組み合わせにより実現されて良い。メモリ1020のコンポーネントの1つは、プログラムモジュール1025である。
プログラムモジュール1025は、ここに記述された方法を実行するプロセッサ1015を制御するための指示を含む。例えば、プログラムモジュール1025の制御下で、プロセッサ1015は、処理100を実行する。用語“モジュール”は、ここでは、スタンドアローンコンポーネント又は複数のサブコンポーネントが統合された構成として具体化され得る機能的な動作を示すために使用される。従って、プログラムモジュール225は、シングルモジュール又は他のモジュールとの組み合わせで動作する複数のモジュールとして実現されて良い。更に、プログラムモジュール225は、ここではメモリ1020にインストールされ、その結果、ソフトウェアで実現されているものとして記述されているが、ハードウェア(例えば、電子回路)、ファームウェア、ソフトウェア、それらの組み合わせのいずれかで実現され得る。
プロセッサ1015は、ネットワーク1030又はユーザインタフェース1010を介して入力105を受信する。入力105は、ユーザ130によりユーザインタフェース1010又はユーザ装置1045を介してコンピュータ1005、従って処理100に提供され得る。また、入力105は、例えばバッチマシン機能を使用して提出されたファイルから導出されるように、コンピュータ1005又はコンピュータ1005にネットワーク1030を介して接続する(図示しない)遠隔装置で動作する自動化された処理により提供され得る。データストア170は、コンピュータ1005のコンポーネントであって良く、例えば、メモリ1020内に記憶されていて良い。また、コンピュータ1005の外部に配置されていて良く、例えばデータベース1040又はコンピュータ1005が(図示しない)ローカルネットワーク又はネットワーク1030を介してアクセスする(図示しない)データベースに配置されていて良い。プロセッサ1015は、ネットワーク1030又はユーザインタフェース1010を介して出力データ106を返す。
プログラムモジュール1025は、予めメモリ1020にロードされるように指示されるが、メモリ1020への後のロードのために記憶装置1035上に構成されていても良い。また、記憶装置1035は、コンピュータプログラムにより符号化された非一時的なコンピュータ読み取り可能な装置であり、プログラムモジュール1025を記憶する所定の従来の記憶装置であり得る。記憶装置1035の例は、フロッピディスク、コンパクトディスク、磁気テープ、読み取り専用メモリ、光学記憶媒体、ユニバーサルシリアルバス(USB)フラッシュドライブ、デジタル多用途ディスク、ジップ(ZIP)ドライブを含む。また、記憶装置1035は、ランダムアクセスメモリ、又は、遠隔記憶システムに配置されコンピュータ1005にネットワーク1030を介して接続する他のタイプの電子記憶装置であり得る。
処理100とシステム1000の技術的利点は、処理100に徐々に精度を向上させながら実行させる閉ループ学習処理の導入と同様に、改善される出力の精度と動作の拡張性の向上を含む。
本明細書中に記載された技術は、例示であり、本開示において所定の特定の限定を暗示していると解釈されるべきではない。種々の代替、組み合わせ、修正が当業者により考案され得ることを理解すべきである。例えば、ステップ自体により特定又は指示されない限り、本明細書中に記載された処理に関連するステップが所定の順序で実行され得る。本開示は、添付の特許請求の範囲内の全てのそのような代替、修正、変形を包含することを目的とする。
用語“備える(comprises又はcomprising)”は、上述の特徴、整数、ステップ、コンポーネントの存在を特定するものとして解釈されるべきであり、1以上の他の特徴、整数、ステップ、コンポーネント、その集合の存在を除外すべきでない。用語“1つの(a又はan)”は不定冠詞であり、それ自体は複数のものを有する実施形態を除外しない。
(付記1)
文字列を解析して複数の書記素にすることと、
前記複数の書記素の抽象概念を表す文字パターンを生成することと、
を備える方法。
(付記2)
前記文字パターンは、前記複数の書記素のうちの1つに対応する文字群を含み、データ変換元にマッピングされる付記1に記載の方法。
(付記3)
前記データ変換元から前記書記素に関する情報を取得することを更に備える付記2に記載の方法。
(付記4)
前記文字パターンは、第1文字群と第2文字群のシーケンスを含み、
前記第1文字群は、前記複数の書記素のうちの第1書記素に対応し、
前記第2文字群は、前記複数の書記素のうちの第2書記素に対応し、
前記シーケンスに基づいて、複数の処理のうちから1つを選択することと、
前記文字列前記処理を実行することと、
を更に備える付記1に記載の方法。
(付記5)
前記処理は、前記文字列の翻訳と言語間の変換との組み合わせを生じさせる付記4に記載の方法。
(付記6)
プロセッサと、
前記プロセッサと通信可能に接続するメモリと、
を備え、
前記メモリは、前記プロセッサが読み取り可能な指示であって、
文字列を解析して複数の書記素にし、
前記複数の書記素の抽象概念を表す文字パターンを生成する、
というアクションを前記プロセッサに実行させる指示を記録する、
システム。
(付記7)
前記文字パターンは、前記複数の書記素のうちの1つに対応する文字群を含み、データ変換元にマッピングされる付記6に記載のシステム。
(付記8)
前記指示は、前記データ変換元から前記書記素に関する情報を取得するというアクションを前記プロセッサに更に実行させる付記7に記載のシステム。
(付記9)
前記文字パターンは、第1文字群と第2文字群のシーケンスを含み、
前記第1文字群は、前記複数の書記素のうちの第1書記素に対応し、
前記第2文字群は、前記複数の書記素のうちの第2書記素に対応し、
前記指示は、
前記シーケンスに基づいて、複数の処理のうちから1つを選択し、
前記文字列前記処理を実行する、
というアクションを前記プロセッサに更に実行させる、
付記6に記載のシステム。
(付記10)
前記処理は、前記文字列の翻訳と言語間の変換との組み合わせを生じさせる付記9に記載のシステム。
(付記11)
プロセッサが読み取り可能な指示であって、
文字列を解析して複数の書記素にし、
前記複数の書記素の抽象概念を表す文字パターンを生成する、
というアクションを前記プロセッサに実行させる指示を記憶する、
記憶装置。
(付記12)
前記文字パターンは、前記複数の書記素のうちの1つに対応する文字群を含み、データ変換元にマッピングされる付記11に記載の記憶装置。
(付記13)
前記指示は、前記データ変換元から前記書記素に関する情報を取得するというアクションを前記プロセッサに更に実行させる付記12に記載の記憶装置。
(付記14)
前記文字パターンは、第1文字群と第2文字群のシーケンスを含み、
前記第1文字群は、前記複数の書記素のうちの第1書記素に対応し、
前記第2文字群は、前記複数の書記素のうちの第2書記素に対応し、
前記指示は、
前記シーケンスに基づいて、複数の処理のうちから1つを選択し、
前記文字列前記処理を実行する、
というアクションを前記プロセッサに更に実行させる、
付記11に記載の記憶装置。
(付記15)
前記処理は、前記文字列の翻訳と言語間の変換との組み合わせを生じさせる付記14に記載の記憶装置。

Claims (15)

  1. 文字列を解析するためのレキシコンおよび解析ルールと、入力データの変換元についての履歴データと、文字列への一連の処理を表すワークフローを決定するための変更編成ルールと、前記ワークフローを最適化するための最適化論理データと、を格納するデータストアを備えるコンピュータが実行する方法であって、
    第1言語の文字列と、入力データの変換元についてのセマンティック文脈データと、を含む入力データを受けることと、
    前記文字列を複数の書記素に分解するとともに、前記データストアから前記レキシコンと前記解析ルールとを読み出して、読み出した前記レキシコンと前記解析ルールとに基づいて前記文字列を解析して、分解されたそれぞれの前記書記素に、前記文字列の構造に基づく分類を付与することと、
    前記複数の書記素に付与された分類に基づいて、前記文字列の構造を表す抽象概念である書記素パターンを生成することと、
    前記セマンティック文脈データに含まれる前記変換元と同一又は類似する変換元についての前記履歴データを前記データストアから参照して、前記変換元からの典型的な入力の構造および質的側面を評価した評価値を表す記述データを生成することと、
    前記セマンティック文脈データと前記書記素パターンと前記記述データと、前記データストアに格納された前記変更編成ルールと、に基づいて、前記文字列に対する処理を行うワークフローを決定することと、
    決定した前記ワークフローに沿って前記文字列を処理することによって、前記文字列を第1言語から第2言語に変換することと、
    前記変換についての実行結果の評価を表すパフォーマンスの指標を解析することと、
    前記データストアに格納された前記最適化論理データ前記パフォーマンスの指標の解析結果に基づいて、前記ワークフローを変化させるか又は組み立て直すことと、
    を備える方法。
  2. 前記書記素パターンは、前記複数の書記素のうちの1つに対応する文字群を含み、前記データストアに格納された前記レキシコンと前記解析ルールとに対応づけられる請求項1に記載の方法。
  3. 前記入力データの変換元から前記書記素に関する情報を取得することを更に備える請求項2に記載の方法。
  4. 前記書記素パターンは、第1文字群と第2文字群の連続を含み、
    前記第1文字群は、前記複数の書記素のうちの第1書記素に対応し、
    前記第2文字群は、前記複数の書記素のうちの第2書記素に対応し、
    前記データストアに格納された前記変更編成ルールにアクセスすることと、
    前記第1文字群と前記第2文字群の前記連続に基づいて、前記変更編成ルールを参照して複数の前記ワークフローのうちから1つを選択することと、
    前記文字列に、選択された前記ワークフローを実行することと、
    を更に備える請求項1に記載の方法。
  5. 選択された前記ワークフローは、前記文字列の翻訳と言語間の変換との組み合わせを生じさせる請求項4に記載の方法。
  6. プロセッサと、
    前記プロセッサと通信可能に接続するメモリと、
    を備え、
    前記メモリは、前記プロセッサが読み取り可能な指示と、文字列を解析するためのレキシコンおよび解析ルールと、入力データの変換元についての履歴データと、文字列への一連の処理を表すワークフローを決定するための変更編成ルールと、前記ワークフローを最適化するための最適化論理データと、を格納し、
    前記指示は、
    第1言語の文字列と、入力データの変換元についてのセマンティック文脈データと、を含む入力データを受け、
    前記文字列を複数の書記素に分解するとともに、前記メモリから前記レキシコンと前記解析ルールとを読み出して、読み出した前記レキシコンと前記解析ルールとに基づいて前記文字列を解析して、分解されたそれぞれの前記書記素に、前記文字列の構造に基づく分類を付与し、
    前記複数の書記素に付与された分類に基づいて、前記文字列の構造を表す抽象概念である書記素パターンを生成し、
    前記セマンティック文脈データに含まれる前記変換元と同一又は類似する変換元についての前記履歴データを前記メモリから参照して、前記変換元からの典型的な入力の構造および質的側面を評価した評価値を表す記述データを生成し、
    前記セマンティック文脈データと前記書記素パターンと前記記述データと、前記メモリに格納された前記変更編成ルールと、に基づいて、前記文字列に対する処理を行うワークフローを決定し、
    決定した前記ワークフローに沿って前記文字列を処理することによって、前記文字列を第1言語から第2言語に変換し、
    前記変換についての実行結果の評価を表すパフォーマンスの指標を解析し、
    前記メモリに格納された前記最適化論理データ前記パフォーマンスの指標の解析結果に基づいて、前記ワークフローを変化させるか又は組み立て直す
    というアクションを前記プロセッサに実行させるための指示である、
    システム。
  7. 前記書記素パターンは、前記複数の書記素のうちの1つに対応する文字群を含み、前記メモリに格納された前記レキシコンと前記解析ルールとに対応づけられる請求項6に記載のシステム。
  8. 前記指示は、前記入力データの変換元から前記書記素に関する情報を取得するというアクションを前記プロセッサに更に実行させる請求項7に記載のシステム。
  9. 前記書記素パターンは、第1文字群と第2文字群の連続を含み、
    前記第1文字群は、前記複数の書記素のうちの第1書記素に対応し、
    前記第2文字群は、前記複数の書記素のうちの第2書記素に対応し、
    前記指示は、
    前記メモリに格納された前記変更編成ルールにアクセスし、
    前記第1文字群と前記第2文字群の前記連続に基づいて、前記変更編成ルールを参照して複数の前記ワークフローのうちから1つを選択し、
    前記文字列に、選択された前記ワークフローを実行する、
    というアクションを前記プロセッサに更に実行させる、
    請求項6に記載のシステム。
  10. 選択された前記ワークフローは、前記文字列の翻訳と言語間の変換との組み合わせを生じさせる請求項9に記載のシステム。
  11. プロセッサが読み取り可能な指示と、文字列を解析するためのレキシコンおよび解析ルールと、入力データの変換元についての履歴データと、文字列への一連の処理を表すワークフローを決定するための変更編成ルールと、前記ワークフローを最適化するための最適化論理データと、を記憶する記憶装置であって、
    前記指示は、
    第1言語の文字列と、入力データの変換元についてのセマンティック文脈データと、を含む入力データを受け、
    前記文字列を複数の書記素に分解するとともに、前記記憶装置から前記レキシコンと前記解析ルールとを読み出して、読み出した前記レキシコンと前記解析ルールとに基づいて前記文字列を解析して、分解されたそれぞれの前記書記素に、前記文字列の構造に基づく分類を付与し、
    前記複数の書記素に付与された分類に基づいて、前記文字列の構造を表す抽象概念である書記素パターンを生成し、
    前記セマンティック文脈データに含まれる前記変換元と同一又は類似する変換元についての前記履歴データを前記記憶装置から参照して、前記変換元からの典型的な入力の構造および質的側面を評価した評価値を表す記述データを生成し、
    前記セマンティック文脈データと前記書記素パターンと前記記述データと、前記記憶装置に格納された前記変更編成ルールと、に基づいて、前記文字列に対する処理を行うワークフローを決定
    決定した前記ワークフローに沿って前記文字列を処理することによって、前記文字列を第1言語から第2言語に変換し、
    前記変換についての実行結果の評価を表すパフォーマンスの指標を解析し、
    前記記憶装置に格納された前記最適化論理データ前記パフォーマンスの指標の解析結果に基づいて、前記ワークフローを変化させるか又は組み立て直す
    というアクションを前記プロセッサに実行させるための指示である、
    記憶装置。
  12. 前記書記素パターンは、前記複数の書記素のうちの1つに対応する文字群を含み、前記記憶装置に格納された前記レキシコンと前記解析ルールとに対応づけられる請求項11に記載の記憶装置。
  13. 前記指示は、前記入力データの変換元から前記書記素に関する情報を取得するというアクションを前記プロセッサに更に実行させる請求項12に記載の記憶装置。
  14. 前記書記素パターンは、第1文字群と第2文字群の連続を含み、
    前記第1文字群は、前記複数の書記素のうちの第1書記素に対応し、
    前記第2文字群は、前記複数の書記素のうちの第2書記素に対応し、
    前記指示は、
    前記記憶装置に格納された前記変更編成ルールにアクセスし、
    前記第1文字群と前記第2文字群の前記連続に基づいて、前記変更編成ルールを参照して複数の前記ワークフローのうちから1つを選択し、
    前記文字列に、選択された前記ワークフローを実行する、
    というアクションを前記プロセッサに更に実行させる、
    請求項11に記載の記憶装置。
  15. 選択された前記ワークフローは、前記文字列の翻訳と言語間の変換との組み合わせを生じさせる請求項14に記載の記憶装置。
JP2016503025A 2013-03-15 2014-03-14 多言語ビジネスの指標のキュレーション及び翻字統合 Active JP6595979B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361793044P 2013-03-15 2013-03-15
US61/793,044 2013-03-15
PCT/US2014/029244 WO2014144716A1 (en) 2013-03-15 2014-03-14 Multi-lingual business indicia curation and transliteration synthesis

Publications (3)

Publication Number Publication Date
JP2016516247A JP2016516247A (ja) 2016-06-02
JP2016516247A5 JP2016516247A5 (ja) 2019-09-12
JP6595979B2 true JP6595979B2 (ja) 2019-10-23

Family

ID=51531780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016503025A Active JP6595979B2 (ja) 2013-03-15 2014-03-14 多言語ビジネスの指標のキュレーション及び翻字統合

Country Status (13)

Country Link
US (1) US9489351B2 (ja)
EP (1) EP2973003A4 (ja)
JP (1) JP6595979B2 (ja)
KR (1) KR101797125B1 (ja)
CN (1) CN105210057B (ja)
AU (1) AU2014228823B2 (ja)
BR (1) BR112015023779A2 (ja)
CA (1) CA2906763C (ja)
HK (1) HK1217784A1 (ja)
PH (1) PH12015502103A1 (ja)
RU (1) RU2644071C2 (ja)
SG (1) SG11201507601TA (ja)
WO (1) WO2014144716A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6008693B2 (ja) * 2012-10-30 2016-10-19 キヤノン株式会社 情報処理装置及びその制御方法、プログラム
JP6392445B2 (ja) * 2015-03-24 2018-09-19 株式会社東芝 音訳支援装置、音訳支援方法及び音訳支援プログラム
KR102565275B1 (ko) * 2016-08-10 2023-08-09 삼성전자주식회사 병렬 처리에 기초한 번역 방법 및 장치
US10269353B2 (en) 2016-08-30 2019-04-23 Tata Consultancy Services Limited System and method for transcription of spoken words using multilingual mismatched crowd unfamiliar with a spoken language
US10460748B2 (en) * 2017-10-04 2019-10-29 The Toronto-Dominion Bank Conversational interface determining lexical personality score for response generation with synonym replacement
US10339931B2 (en) 2017-10-04 2019-07-02 The Toronto-Dominion Bank Persona-based conversational interface personalization using social network preferences
KR102070452B1 (ko) 2019-06-14 2020-02-03 최재용 업소용 음식물 쓰레기 처리장치
KR20210152099A (ko) 2020-06-05 2021-12-15 박성근 음식물 쓰레기 처리장치
CN111680647A (zh) * 2020-06-12 2020-09-18 中华人民共和国杭州海关 一种用于危化品检验的护目镜及其检验方法
US20230128406A1 (en) 2021-10-27 2023-04-27 Bank Of America Corporation Recursive Logic Engine for Efficient Transliteration of Machine Interpretable Languages

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411932B1 (en) * 1998-06-12 2002-06-25 Texas Instruments Incorporated Rule-based learning of word pronunciations from training corpora
JP4636673B2 (ja) 2000-11-16 2011-02-23 パナソニック株式会社 音声合成装置および音声合成方法
KR100515698B1 (ko) 2003-05-16 2005-09-16 (주)다음소프트 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법 및 작성을 위한 장치
US7415411B2 (en) * 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US7822596B2 (en) * 2005-12-05 2010-10-26 Microsoft Corporation Flexible display translation
JP2008276517A (ja) * 2007-04-27 2008-11-13 Oki Electric Ind Co Ltd 訳文評価装置、訳文評価方法およびプログラム
US8005664B2 (en) * 2007-04-30 2011-08-23 Tachyon Technologies Pvt. Ltd. System, method to generate transliteration and method for generating decision tree to obtain transliteration
KR20090008865A (ko) * 2007-07-19 2009-01-22 서오텔레콤(주) 휴대폰 컨텐츠 실시간 번역 시스템 및 그 방법
US9798720B2 (en) * 2008-10-24 2017-10-24 Ebay Inc. Hybrid machine translation
US8498857B2 (en) * 2009-05-19 2013-07-30 Tata Consultancy Services Limited System and method for rapid prototyping of existing speech recognition solutions in different languages
US8326600B2 (en) * 2010-08-11 2012-12-04 Google Inc. Evaluating and modifying transliteration rules
WO2012027672A1 (en) * 2010-08-26 2012-03-01 Google Inc. Conversion of input text strings
WO2012061588A2 (en) * 2010-11-04 2012-05-10 Legendum Pro Vita, Llc Methods and systems for transcribing or transliterating to an iconophonological orthography
US10521511B2 (en) * 2010-12-02 2019-12-31 Accessible Publishing Systems Pty Ltd Text conversion and representation system
US8977535B2 (en) * 2011-04-06 2015-03-10 Pierre-Henry DE BRUYN Transliterating methods between character-based and phonetic symbol-based writing systems

Also Published As

Publication number Publication date
RU2644071C2 (ru) 2018-02-07
CA2906763A1 (en) 2014-09-18
AU2014228823A1 (en) 2015-10-22
CN105210057B (zh) 2018-12-14
PH12015502103B1 (en) 2016-01-11
HK1217784A1 (zh) 2017-01-20
BR112015023779A2 (pt) 2017-07-18
CN105210057A (zh) 2015-12-30
KR20150140683A (ko) 2015-12-16
AU2014228823B2 (en) 2017-06-22
EP2973003A1 (en) 2016-01-20
PH12015502103A1 (en) 2016-01-11
JP2016516247A (ja) 2016-06-02
CA2906763C (en) 2019-04-16
US9489351B2 (en) 2016-11-08
SG11201507601TA (en) 2015-10-29
RU2015142998A (ru) 2017-04-20
EP2973003A4 (en) 2016-12-21
US20140278350A1 (en) 2014-09-18
WO2014144716A1 (en) 2014-09-18
KR101797125B1 (ko) 2017-11-13

Similar Documents

Publication Publication Date Title
JP6595979B2 (ja) 多言語ビジネスの指標のキュレーション及び翻字統合
JP2016516247A5 (ja)
Khan et al. A novel natural language processing (NLP)–based machine translation model for English to Pakistan sign language translation
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Tablan et al. A natural language query interface to structured information
JP2019212321A (ja) 意味情報生成方法、意味情報生成装置、およびプログラム
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
KR101511656B1 (ko) 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙
Lawrie et al. Quantifying identifier quality: an analysis of trends
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
CN116719520B (zh) 代码生成方法及装置
RU2546064C1 (ru) Распределенная система и способ языкового перевода
CN114625889A (zh) 一种语义消歧方法、装置、电子设备及存储介质
JP5302784B2 (ja) 機械翻訳方法、及びシステム
JP3825645B2 (ja) 表現変換方法及び表現変換装置
JP2011243087A (ja) 自動単語対応付け装置とその方法とプログラム
JP6907703B2 (ja) 解析装置、解析方法、および解析プログラム
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP3737817B2 (ja) 表現変換方法及び表現変換装置
JP7362577B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2013011985A (ja) 解析モデル学習装置、方法、及びプログラム
CN118093838B (zh) 一种大语言模型提示词生成方法、系统、终端设备及介质
JP5348699B2 (ja) データ分類システム、データ分類方法およびプログラム
JP4031492B2 (ja) テンプレート作成装置、辞書作成装置、テンプレート作成方法、辞書作成方法、テンプレート作成プログラム、辞書作成プログラムおよび記録媒体
Uneson When errors become the rule: Twenty years with transformation-based learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161227

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171006

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20171121

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20180119

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190422

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20190729

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190927

R150 Certificate of patent or registration of utility model

Ref document number: 6595979

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250