JP2022504384A - 多言語データ・ガバナンスおよび管理を改良するための認知照合構成 - Google Patents

多言語データ・ガバナンスおよび管理を改良するための認知照合構成 Download PDF

Info

Publication number
JP2022504384A
JP2022504384A JP2021518876A JP2021518876A JP2022504384A JP 2022504384 A JP2022504384 A JP 2022504384A JP 2021518876 A JP2021518876 A JP 2021518876A JP 2021518876 A JP2021518876 A JP 2021518876A JP 2022504384 A JP2022504384 A JP 2022504384A
Authority
JP
Japan
Prior art keywords
collation
sublanguage
language
buffers
sorting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021518876A
Other languages
English (en)
Inventor
リウ、スー
ツェン、ボイ
ヤン、ファン
ジェン、デニス、マリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2022504384A publication Critical patent/JP2022504384A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

Figure 2022504384000001
本発明の実施形態は、多言語データの認知照合構成処理のためのコンピュータ実施方法を提供する。この方法は、多言語入力テキストを構文解析して複数の照合アイテムに分解することを含む。この方法は、複数の照合アイテムのそれぞれの照合アイテムの言語を検出することを含む。この方法は、複数の照合アイテムのそれぞれの照合アイテムを、複数の副言語バッファのうちの対応する副言語バッファに記憶することを含む。この方法は、複数の副言語バッファに関して第1のソート操作を実行することを含み、第1のソート操作は、一組の照合設定に基づいて複数の副言語バッファをソートすることを含み、この一組の照合設定は言語選択リストを含む。この方法は、ソートされた複数の副言語バッファの内容を併合して、複数の照合アイテムを含むソート済み出力を形成することを含む。

Description

本発明は一般に、テキストの多言語データ・ガバナンスおよび管理(multilingual data governance and management)に関し、より詳細には、多言語データ・ガバナンスおよび管理を改良するための認知照合構成(cognitive collation configuration)に関する。
データ・ガバナンスは一般に、データ管理システムにデータがインポートされたときにそのデータがある精密な標準を満たすことを保証するために、データ管理システムによって実行されるプロセスを指す。データ処理規則およびポリシーを管理するための統一されたガバナンスおよびインテグレーションの手法を提供するために、いくつかのプラットホームが開発された。データ照合はしばしば、データ・ガバナンスおよび管理の鍵となる特徴の1つである。
Linux(登録商標)、UNIX(登録商標)、iOSおよびAndroid(登録商標)などの最新のオペレーティング・システムは、多言語データの処理およびソーティング(sorting)に依存している。技術における多言語データの使用はますます拡大している。例えば、UNIX(登録商標)システム・ログは、100の言語/スクリプトで書かれたテキスト情報を含むことがある。電子メール・サーバは、異なる言語もしくは異なるスクリプトまたはその両方を有する電子メール主体(email subject)を表示およびソートする必要があることがある。同様に、クラウド・ストレージ・フォルダは、多数の言語で書かれた数千の名前付きファイルを含むことがある。例えばUNIX(登録商標)では、オペレーティング・システムが、標準コマンド・ライン・プログラムを介してソートを利用して、現在のロケールによって定義されるある順序で入力アイテム・リスト(input item list)を照合する。現在、分離された言語照合規則およびロケール照合規則に従って多言語データをソートすることができるシステムまたはツールは存在しない。
本発明の実施形態は、多言語データの認知照合構成処理のためのコンピュータ実施方法(computer-implemented method)を提供する。このコンピュータ実施方法の非限定的な例は、1つまたは複数のプロセッサを備えるシステムによって、多言語入力テキストを構文解析して複数の照合アイテムに分解することを含む。この方法は、このシステムによって、複数の照合アイテムのそれぞれの照合アイテムの言語を検出することを含む。この方法は、このシステムによって、複数の照合アイテムのそれぞれの照合アイテムを、複数の副言語バッファ(sub language buffer)のうちの対応する副言語バッファに記憶することを含む。この方法は、このシステムによって、複数の副言語バッファに関して第1のソート操作を実行することを含み、第1のソート操作は、一組の照合設定(collation setting)に基づいて複数の副言語バッファをソートすることを含み、この一組の照合設定は言語選択リストを含む。この方法は、このシステムによって、ソートされた複数の副言語バッファの内容を併合して、複数の照合アイテムを含むソート済み出力(sorted output)を形成することを含む。
本発明の実施形態は、多言語データの認知照合構成処理のためのコンピュータ実施方法を提供する。この方法の非限定的な例は、1つまたは複数のプロセッサを備えるシステムによって、バックエンド・システムにソーティング・リクエストを送信することを含み、このソーティング・リクエストは多言語入力テキストを含む。バックエンド・システムは、多言語入力テキストを構文解析して複数の照合アイテムに分解するように構成されている。バックエンド・システムはさらに、複数の照合アイテムのそれぞれの照合アイテムの言語を検出するように構成されている。バックエンド・システムはさらに、複数の照合アイテムのそれぞれの照合アイテムを、複数の副言語バッファのうちの対応する副言語バッファに記憶するように構成されている。バックエンド・システムはさらに、複数の副言語バッファに関して第1のソート操作を実行するように構成されており、第1のソート操作は、一組の照合設定に基づいて複数の副言語バッファをソートすることを含み、この一組の照合設定は言語選択リストを含む。バックエンド・システムはさらに、ソートされた複数の副言語バッファの内容を併合して、複数の照合アイテムを有するソート済み出力を形成するように構成されている。
本発明の実施形態は、多言語データの認知照合構成処理のためのシステムを提供する。このシステムは、方法を実行するように構成された1つまたは複数のプロセッサを含む。この方法の非限定的な例は、このシステムによって、多言語入力テキストを構文解析して複数の照合アイテムに分解することを含む。この方法は、このシステムによって、複数の照合アイテムのそれぞれの照合アイテムの言語を検出することを含む。この方法は、このシステムによって、複数の照合アイテムのそれぞれの照合アイテムを、複数の副言語バッファのうちの対応する副言語バッファに記憶することを含む。この方法は、このシステムによって、複数の副言語バッファに関して第1のソート操作を実行することを含み、第1のソート操作は、一組の照合設定に基づいて複数の副言語バッファをソートすることを含み、この一組の照合設定は言語選択リストを含む。この方法は、このシステムによって、ソートされた複数の副言語バッファの内容を併合して、複数の照合アイテムを有するソート済み出力を形成することを含む。
本発明の実施形態は、多言語データの認知照合構成処理のためのコンピュータ・プログラム製品を提供し、このコンピュータ・プログラム製品は、プログラム命令を実装したコンピュータ可読ストレージ媒体を含む。このプログラム命令は、1つまたは複数のプロセッサを備えるバックエンド・システムによって、バックエンド・システムに方法を実行させるように実行可能である。この方法の非限定的な例は、バックエンド・システムによって、多言語入力テキストを構文解析して複数の照合アイテムに分解することを含む。この方法は、バックエンド・システムによって、複数の照合アイテムのそれぞれの照合アイテムの言語を検出することを含む。この方法は、バックエンド・システムによって、複数の照合アイテムのそれぞれの照合アイテムを、複数の副言語バッファのうちの対応する副言語バッファに記憶することを含む。この方法は、バックエンド・システムによって、複数の副言語バッファに関して第1のソート操作を実行することを含み、第1のソート操作は、一組の照合設定に基づいて複数の副言語バッファをソートすることを含み、この一組の照合設定は言語選択リストを含む。この方法は、バックエンド・システムによって、ソートされた複数の副言語バッファの内容を併合して、複数の照合アイテムを有するソート済み出力を形成することを含む。
本発明の実施形態は、多言語データの認知照合構成処理のためのシステムを提供する。このシステムの非限定的な例は、フロントエンド・コンポーネントと、バックエンド・コンポーネントと、1つまたは複数のプロセッサと、この1つまたは複数のプロセッサに動作可能に結合されたメモリとを含む。フロントエンド・コンポーネントは、バックエンド・コンポーネントにソーティング・リクエストを送信するように構成されており、このソーティング・リクエストは多言語入力テキストを含む。バックエンド・コンポーネントは、多言語入力テキストを構文解析して複数の照合アイテムに分解するように構成されている。バックエンド・コンポーネントはさらに、複数の照合アイテムのそれぞれの照合アイテムの言語を検出するように構成されている。バックエンド・コンポーネントはさらに、複数の照合アイテムのそれぞれの照合アイテムを、複数の副言語バッファのうちの対応する副言語バッファに記憶するように構成されている。バックエンド・コンポーネントはさらに、複数の副言語バッファに関して第1のソート操作を実行するように構成されており、第1のソート操作は、一組の照合設定に基づいて複数の副言語バッファをソートすることを含み、この一組の照合設定は言語選択リストを含む。バックエンド・コンポーネントはさらに、ソートされた複数の副言語バッファの内容を併合して、複数の照合アイテムを有するソート済み出力を形成するように構成されている。
本発明の技法によって、追加の技術的特徴および利益が実現される。本明細書には、本発明の実施形態および態様が詳細に記載されており、それらは、特許請求の範囲に記載されている主題の部分とみなされる。より十分な理解のため、以下の詳細な説明および図面を参照されたい。
本明細書に記載された独占権の詳細は、本明細書の末尾の特許請求の範囲に具体的に示されており、明確に主張されている。本発明の実施形態の上記の特徴および利点ならびにその他の特徴および利点は、添付図面とともに解釈される以下の詳細な説明から明白である。
本発明の1つまたは複数の実施形態によるクラウド・コンピューティング環境を示す図である。 本発明の1つまたは複数の実施形態による抽象化モデル層を示す図である。 本発明の1つまたは複数の実施形態を実施することができる例示的なコンピュータ・システムを示す図である。 本発明の1つまたは複数の実施形態による、多言語データを処理する認知照合構成サービスを提供するための例示的なシステムのブロック図である。 本発明の1つまたは複数の実施形態による、多言語データを処理する認知照合構成サービスを提供するための別の例示的なシステムのブロック図および対応するコンポーネント・フローを示す図である。 本発明の1つまたは複数の実施形態による例示的な認知照合構成設定の階層図である。 本発明の1つまたは複数の実施形態による例示的な多言語データ入力を示す図である。 本発明の1つまたは複数の実施形態による、図7の未ソートのテキスト入力をソートすることに応答して生成されることがある例示的な改良されたソート済み出力を示す図である。 本発明の1つまたは複数の実施形態による方法を示す流れ図である。
本明細書に示された図は例示のためのものである。本発明の思想を逸脱しない、図および図に記載された動作に対する多くの変形態様が存在しうる。例えば、動作を異なる順序で実行することができ、または動作を追加、削除もしくは変更することができる。また、用語「結合された」およびその変異語は、2つの要素間に通信経路を有することを示し、要素間に介在要素/接続がない要素間の直接接続を含意しない。これらの変形態様は全て本明細書の一部とみなされる。
添付図および記載された実施形態の以下の詳細な説明では、図に示されたさまざまな要素が2桁または3桁の参照符号を有する。少数の例外を除き、それぞれの参照符号の左端の数字はその要素が最初に示された図に対応する。
本明細書では、本発明のさまざまな実施形態が関連図を参照して説明される。本発明の範囲を逸脱することなく本発明の代替実施形態を考案することができる。以下の説明および図面には、要素間のさまざまな接続および位置関係(例えば上、下、隣りなど)が示されている。これらの接続もしくは位置関係またはその両方は、特に指定されていない限り、直接的なものであることまたは間接的なものであることができ、本発明は、この点に関して限定を意図したものではない。したがって、実体の結合は、直接結合または間接結合を指すことができ、実体間の位置関係は、直接的位置関係または間接的位置関係であることができる。さらに、本明細書には詳細に記載されていない追加のステップまたは機能を有するより包括的な手順またはプロセスに、本明細書に記載されたさまざまなタスクおよびプロセス・ステップを組み込むことができる。
特許請求の範囲および本明細書の解釈のために、以下の定義および略語が使用される。本明細書で使用されるとき、用語「備える(comprises)」、「備える(comprising)」、「含む(includes)」、「含む(including)」、「有する(has)」、「有する(having)」、「含有する(contains)」もしくは「含有する(containing)」、またはこれらの用語の他の変異語は、非排他的包含(non-exclusive inclusion)をカバーすることが意図されている。例えば、要素のリストを含む組成物、混合物、プロセス、方法、物品または装置は、必ずしもそれらの要素だけに限定されるわけではなく、明示的にはリストに入れられていない他の要素、あるいはこのような組成物、混合物、プロセス、方法、物品または装置に固有の他の要素を含みうる。
さらに、本明細書では、用語「例示的な」が、「例、事例または実例として役立つ」ことを意味するものとして使用されている。本明細書に「例示的」として記載された任意の実施形態または設計は必ずしも、他の実施形態または設計よりも好ましいまたは有利であるとは解釈されない。用語「少なくとも1つの」および「1つまたは複数の」は、1以上の任意の整数、すなわち1、2、3、4などを含むと理解してもよい。用語「複数の」は、2以上の任意の整数、すなわち2、3、4、5などを含むと理解してもよい。用語「接続」は、間接「接続」と直接「接続」の両方を含むことがある。
用語「約」、「実質的に」、「およそ」およびこれらの用語の変異語は、特定の数量の大きさに関連した、本出願の提出時に利用可能な機器に基づく誤差の程度を含むことが意図されている。例えば、「約」は、所与の値の±8%、または5%または2%の範囲を含みうる。
簡潔にするため、本明細書では、本発明の態様を製作および使用することに関係した従来の技法が、詳細に説明されることもあり、または詳細には説明されないこともある。特に、本明細書に記載されたさまざまな技術的特徴を実施するためのコンピューティング・システムおよび特定のコンピュータ・プログラムのさまざまな態様はよく知られている。したがって、本明細書では、簡潔にするために、よく知られたシステムもしくはプロセスまたはその両方の詳細を提供することなしに、従来の多くの実施態様の詳細が簡単にしか言及されておらず、または完全に省かれている。
本開示はクラウド・コンピューティングに関する詳細な説明を含むが、本明細書に記載された教示の実施態様はクラウド・コンピューティング環境に限定されないことを理解すべきである。むしろ、本発明の実施形態は、現在知られているまたは後に開発される他の任意のタイプのコンピューティング環境で実施することができる。
クラウド・コンピューティングは、最小限の管理労力またはサービスのプロバイダとの最小限のインタラクションで迅速に供給およびリリースすることができる構成可能なコンピューティング・リソース(例えばネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械およびサービス)の共有プールへの都合のよいオンデマンド・ネットワーク・アクセスを可能にするサービス配信モデルである。このクラウド・モデルは、少なくとも5つの特徴、少なくとも3つのサービス・モデル、および少なくとも4つのデプロイメント(deployment)モデルを含むことができる。
特徴は以下のとおりである。
オンデマンド・セルフサービス:クラウド・コンシューマ(cloud consumer)は、サーバ時間およびネットワーク・ストレージなどのコンピューティング機能の供給を、サービスのプロバイダとのヒューマン・インタラクションを必要とすることなく必要に応じて自動的に一方的に受けることができる。
ブロード・ネットワーク・アクセス:機能は、ネットワーク上で利用可能であり、異種シンまたはシック・クライアント・プラットホーム(例えば移動電話、ラップトップおよびPDA)による使用を促進する標準的機構を通してアクセスされる。
リソース・プーリング(resource pooling):マルチテナント・モデルを使用して多数のコンシューマにサービスを提供するため、プロバイダのコンピューティング・リソースはプールされており、要求に応じて、異なる物理的および仮想リソースが動的に割当ておよび再割当てされる。コンシューマは一般に、提供されたリソースの正確な位置を制御できずまたは正確な位置を知らないが、より高次の抽象化レベル(例えば国、州またはデータセンター)で位置を指定することができるという意味で、位置独立の感覚がある。
ラピッド・エラスティシティ(rapid elasticity):機能は、素早くスケールアウトするために迅速かつ弾力的に、場合によっては自動的に供給することができ、素早くスケールインするために迅速にリリースすることができる。コンシューマにとって、供給に利用可能な機能はしばしば無限であるように見え、いつでも好きな量だけ購入することができる。
メジャード・サービス(measured service):クラウド・システムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅および使用中ユーザ・アカウント)に対して適切なある抽象化レベルで計測機能に介入することによって、リソースの使用状況を自動的に制御および最適化する。リソースの使用状況を監視、制御および報告して、利用されているサービスのプロバイダとコンシューマの両方に透明性を提供することができる。
サービス・モデルは以下のとおりである。
ソフトウェア・アズ・ア・サービス(SaaS):コンシューマに提供されるこの機能は、クラウド・インフラストラクチャ上でランしているプロバイダのアプリケーションを使用する機能である。ウェブ・ブラウザなどのシン・クライアント・インターフェース(例えばウェブ・ベースの電子メール)を通してさまざまなクライアント・デバイスからアプリケーションにアクセス可能である。場合によっては可能な限られたユーザ固有のアプリケーション構成の設定を除けば、コンシューマは、ネットワーク、サーバ、オペレーティング・システム、ストレージまたは個々のアプリケーション機能も含む基礎をなすクラウド・インフラストラクチャを管理もまたは制御もしない。
プラットフォーム・アズ・ア・サービス(PaaS):コンシューマに提供されるこの機能は、クラウド・インフラストラクチャ上で、プロバイダがサポートするプログラム言語およびツールを使用して作成されたコンシューマ作成または取得のアプリケーションをデプロイする機能である。コンシューマは、ネットワーク、サーバ、オペレーティング・システムまたはストレージを含む基礎をなすクラウド・インフラストラクチャを管理もまたは制御もしないが、デプロイされたアプリケーションおよび場合によってはアプリケーション・ホスティング環境構成を制御することができる。
インフラストラクチャ・アズ・ア・サービス(IaaS):コンシューマに提供されるこの機能は、処理、ストレージ、ネットワークおよび他の基本的なコンピューティング・リソースを供給する機能であり、コンシューマは任意のソフトウェアをデプロイおよびランすることができ、このソフトウェアは、オペレーティング・システムおよびアプリケーションを含むことができる。コンシューマは、基礎をなすクラウド・インフラストラクチャを管理もまたは制御もしないが、オペレーティング・システム、ストレージおよびデプロイされたアプリケーションは制御することができ、場合によっては、選択されたネットワーク・コンポーネント(例えばホスト・ファイアウォール)を限定的に制御することができる。
デプロイメント・モデルは以下のとおりである。
プライベート・クラウド:このクラウドのインフラストラクチャは、組織体のためだけに運営される。インフラストラクチャは、その組織体または第三者が管理することができ、オンプレミス(on-premises)またはオフプレミス(off-premises)で存在することができる。
コミュニティ・クラウド:このクラウドのインフラストラクチャは、いくつかの組織体によって共有され、利害(例えばミッション、セキュリティ要件、ポリシーおよびコンプライアンス上の問題)を共有する特定のコミュニティをサポートする。インフラストラクチャは、その組織体または第三者が管理することができ、オンプレミスまたはオフプレミスで存在することができる。
パブリック・クラウド:このクラウドのインフラストラクチャは、一般大衆または大きな産業グループが利用可能であり、クラウド・サービスを販売している組織体によって所有される。
ハイブリッド・クラウド:このクラウドのインフラストラクチャは、固有の実体を維持しているが、データおよびアプリケーション・ポータビリティを可能にする標準化された技術または独占技術(例えばクラウド間のロード・バランシングのためのクラウド・バースティング(cloud bursting))によって1つに結合された2つ以上のクラウド(プライベート、コミュニティまたはパブリック)の合成体である。
クラウド・コンピューティング環境は、無国籍、低結合、モジュール性および意味論的相互運用性に重きを置くサービス指向の環境である。クラウド・コンピューティングの中心には、相互接続されたノードのネットワークを含むインフラストラクチャがある。
次に図1を参照すると、例示的なクラウド・コンピューティング環境50が示されている。示されているとおり、クラウド・コンピューティング環境50は1つまたは複数のクラウド・コンピューティング・ノード10を含み、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイス、例えばパーソナル・デジタル・アシスタント(PDA)もしくは移動電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54Cまたは自動車コンピュータ・システム54Nあるいはこれらの組合せは、これらのノードと通信することができる。ノード10は互いに通信することができる。それらのノードは、上で説明したプライベート、コミュニティ、パブリックまたはハイブリッド・クラウドまたはこれらの組合せなどの1つまたは複数のネットワークに、物理的にまたは仮想的にグループ分けすることができる(図示せず)。これによって、クラウド・コンピューティング環境50は、インフラストラクチャ、プラットホームもしくはソフトウェアまたはこれらの組合せをサービスとして提供することができ、そのため、クラウド・コンシューマは、ローカル・コンピューティング・デバイス上にリソースを維持する必要がない。図1に示されたタイプのコンピューティング・デバイス54A~Nは単なる例であることが意図されていること、ならびにコンピューティング・ノード10およびクラウド・コンピューティング環境50は、任意のタイプのネットワーク上もしくはアドレス指定可能なネットワーク接続上またはその両方で(例えばウェブ・ブラウザを使用して)、コンピュータ化された任意のタイプのデバイスと通信することができることが理解される。
次に図2を参照すると、クラウド・コンピューティング環境50(図1)によって提供される一組の機能抽象化層が示されている。図2に示されたコンポーネント、層および機能は単なる例であることが意図されており、本発明の実施形態はそれらに限定されないことを予め理解しておくべきである。図示のとおり、以下の層および対応する機能が提供される。
ハードウェアおよびソフトウェア層60は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム61、RISC(縮小命令セット・コンピュータ)アーキテクチャ・ベースのサーバ62、サーバ63、ブレード・サーバ64、ストレージ・デバイス65ならびにネットワークおよびネットワーキング・コンポーネント66を含む。いくつかの実施形態では、ソフトウェア・コンポーネントが、ネットワーク・アプリケーション・サーバ・ソフトウェア67およびデータベース・ソフトウェア68を含む。
仮想化層70は抽象化層を提供し、この層から、仮想実体の以下の例を提供することができる:仮想サーバ71、仮想ストレージ72、仮想専用ネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティング・システム74、ならびに仮想クライアント75。
一例では、管理層80が下記の機能を提供することができる。リソース供給81は、クラウド・コンピューティング環境内でタスクを実施する目的に利用されるコンピューティング・リソースおよびその他のリソースの動的調達を提供する。計量および価格設定82は、クラウド・コンピューティング環境内でリソースが利用されたときの費用追跡、およびこれらのリソースの消費に対する課金または請求を提供する。一例では、これらのリソースがアプリケーション・ソフトウェア・ライセンスを含むことができる。セキュリティは、クラウド・コンシューマおよびタスクの識別確認ならびにデータおよび他のリソースの保護を提供する。ユーザ・ポータル83は、コンシューマおよびシステム管理者に、クラウド・コンピューティング環境へのアクセスを提供する。サービス水準管理84は、必要なサービス水準が達成されるようなクラウド・コンピューティング・リソースの割振りおよび管理を提供する。サービス水準合意(Service Level Agreement)(SLA)計画および履行85は、SLAによって将来必要になると予想されるクラウド・コンピューティング・リソースの事前調整および調達を提供する。
ワークロード層90は、クラウド・コンピューティング環境を利用することができる機能の例を提供する。この層から提供することができるワークロードおよび機能の例は、マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想教室教育配信93、データ解析処理94、トランザクション処理95、および認知照合構成サービス処理96を含む。
次に、本発明の態様により具体的に関連する技術の概要を説明する。上述のとおり、データ・ガバナンスは一般に、データ管理システムにデータがインポートされたときにそのデータがある精密な標準を満たすことを保証するために、データ管理システムによって実行されるプロセスを指す。データ処理規則およびポリシーを管理するための統一されたガバナンスおよびインテグレーションの手法を提供するために、いくつかのプラットホームが開発された。データ照合はしばしば、データ・ガバナンスおよび管理の鍵となる特徴の1つである。
照合設定は、1つのロケール内の文字を比較するための一組の規則であり、比較の単位は、照合要素または照合単位と呼ばれる。ロケールは、指定された文化に対する慣例を定義するユーザの環境である。照合要素は、英語の「a」、「A」および「2」、フランス語の「a」、すなわちアクセントの付いた「a」などの1つの文字、またはフランス語の「ch」、ドイツ語の「OE」などの文字列であることがある。照合規則は、ロケールの照合要素のソーティング順序を決定する。照合規則はロケール特異的(locale-specific)であるため、異なるロケールにおいては一組の照合要素が異なってソートされることがある。例えば、文字「A」、「B」、「D」および「c」は、英語では「A B D c」、フランス語では「A B c D」とソートされることがある。伝統的に、照合規則は通常、ロケール・ベースの仕様または標準によって支配され、所与のリストのソート後の順序は、ソーティング・プログラムがランしているロケールに依存する。異なるロケールにある同じ言語は異なる照合規則を有することがある。
Linux(登録商標)、UNIX(登録商標)、iOSおよびAndroid(登録商標)などの最新のオペレーティング・システムは、多言語データの処理およびソーティングに依存している。技術における多言語データの使用はますます拡大している。例えば、UNIX(登録商標)システム・ログは、100の言語/スクリプトで書かれたテキスト情報を含むことがある。電子メール・サーバは、異なる言語もしくは異なるスクリプトまたはその両方を有する電子メール主体を表示およびソートする必要があることがある。同様に、クラウド・ストレージ・フォルダは、多数の言語で書かれた数千の名前付きファイルを含むことがある。例えばUNIX(登録商標)では、オペレーティング・システムが、標準コマンド・ライン・プログラムを介してソートを利用して、現在のロケールによって定義されるある順序で入力アイテム・リストを照合する。
上で識別したプロセスは、いくつかの技術的問題を生じがちである。例えば、照合規則は通常、ロケール・ベースの仕様または標準によって支配されるため、所与の多言語リストのソート後の順序は、ソーティング・プログラムがランしている現在のロケールだけに依存する。現在まで、異なる言語、スクリプトおよびロケールと組み合わされたアイテムを、異なる言語およびロケールにおいて定義された相関づけられた照合に従ってソートするための理想的で知的な手法はなかった。例えば、分離された言語照合規則およびロケール照合規則に従って多言語データをソートすることができるシステムまたはツールは存在しない。UNIX(登録商標)において、標準コマンド・ライン・プログラムのコマンド「ls」は、単一のロケール照合規則の下で多言語ファイル名を列挙するだけである。
次に、本発明の態様の概要を説明する。本発明の1つまたは複数の実施形態は、多言語データ・ガバナンスおよび管理を改良するための多言語データの認知照合構成(CCC)処理の方法を提供することによって、先行技術の上述の短所に対処する。
この方法は、入力テキストを構文解析して、複数の照合アイテムitem(item、item、item、...、item)に分解することを含む。この方法は、構文解析後の所与のそれぞれのアイテムの言語(item、L)を検出することを含み、言語L(L、L、L、L、...、L)である。この方法は、検出されたそれぞれのアイテムを、対応する副言語バッファb[L]=∈(b[L]、b[L]、b[L]、b[L]、...、b[L])に保存することを含む。この方法は、第1のソート操作を実行することを含み、第1のソート操作は、現在の言語もしくはロケール設定またはその両方に基づいて全ての副言語バッファ(b[L]、b[L]、b[L]、b[L]、...、b[L])をソートすることを含む。本発明のいくつかの実施形態では、この方法が、それに加えてまたはその代わりに、第2のソート操作を実行することを含み、第2のソート操作は、例えば(b[L]、b[L]、b[L]、b[L]、...、b[L])のそれぞれをソートすることによって、それぞれの副言語バッファ(b[L])内でソートを実行することを含む。本発明のいくつかの実施形態では、第2のソート操作が、CCC基準(criteria)のロケール設定基準、例えばロケール選択リストに基づく。この方法は、全ての副言語バッファの内容を併合して、新たなソート済み出力とすることを含む。
本発明のいくつかの実施形態では、リアルタイムCCC基準が定義され、このCCC基準は、デフォルト・ロケール選択ポリシー(例えばロケール選択リスト)、ミニマム言語セクション(minimum language section)もしくは言語決定しきい値(language determination threshold)、またはこれらの組合せを含む。本発明のいくつかの実施形態では、1人または複数のユーザの照合の好み(preference)を追跡するためのCCCデータ構造が定義される。CCC基準は、本明細書に示されたCCCサービスをサポートするために使用される一組のCCC規則である。本発明のいくつかの実施形態では、CCC基準が、ミニマム言語セクション、言語決定しきい値、デフォルト・ロケール選択ポリシーおよびその他の適当なCCC規則を含む。ミニマム言語セクションは、言語を決定するためおよび入力内容をグループ化するための最小の言語/スクリプト分類単位を示す。下表1は、本発明の1つまたは複数の実施形態による例示的な認知ミニマム言語セクション設定を示す。
Figure 2022504384000002
ミニマム言語セクション設定が表1に示されているように定義されているシナリオでは、特定のユーザのミニマム言語セクションがラテン-1に設定されている場合、CCCサービスは、英語、フランス語、ドイツ語、スペイン語およびアイスランド語の任意の内容を1つの副ソーティング・バッファとしてグループ化する。特定のユーザのミニマム言語セクションが中国語に設定されている場合、CCCサービスは、簡体字中国語および繁体字中国語の任意の内容を1つの副言語ソーティング・バッファとしてグループ化する。特定のユーザのミニマム言語セクションがCJKに設定されている場合、CCCサービスは、中国語、日本語および朝鮮語の任意の内容を1つの副言語ソーティング・バッファとしてグループ化する。
言語決定しきい値は、テキストの特定の行(line)、列(row)、独立した行、区切り記号(delimiter)によって分離されたストリング(string)または段落(paragraph)などの特定の照合アイテムの言語を決定するために使用される所定の言語決定しきい値である。照合アイテムは、ある言語およびロケール内の順序付けおよびソーティング単位の基本エントリである。例えば、照合アイテムが、果物リストの中の「リンゴ」または「バナナ」であることがある。本発明のいくつかの実施形態では、言語決定しきい値が、照合アイテムの中の文字の最低百分率である。例えば、言語決定しきい値が80%である場合、本発明のいくつかの実施形態では、1つの照合アイテムの文字(すなわち照合アイテムの照合要素)の少なくとも80%がある1つの言語で書かれていると検出された場合に、その照合アイテムは、その1つの言語で書かれていると検出されることになる。これは、特定の照合アイテムが異なる言語のテキストの混合物を有する状況に対する支援を提供する。本発明のいくつかの実施形態では、言語決定しきい値が、所与の照合アイテムの言語を検出するために使用することができる1つまたは複数の記号または単位(例えば(¥)(℃)、(°F)など)からなる一組の記号または単位である。本発明のいくつかの実施形態では、言語決定しきい値が、例えばある種の実体名(例えばIBM)もしくはある種の頭字語(例えば「laugh out loud(声を立てて笑う)」の頭字語としての「LOL」)またはその両方など、所与の照合アイテムの言語を検出する目的に使用しないことができるある種の語を示す。例えば、「IBMはトップ10の米国企業の1つです[IBM is one of the top ten US companies]」という照合アイテムは、たとえ語「IBM」が英語で書かれているとしても、英語ではなく日本語で書かれていると判定されることになる。
本発明のいくつかの実施形態では、所与のユーザに対するCCCサービスにおいてどのロケール照合規則を使用するのかを決定するために、デフォルト・ロケール選択ポリシー(例えばロケール選択リスト)が使用される。下表2は、本発明の1つまたは複数の実施形態による例示的なデフォルト認知ロケール選択ポリシーを示している。
Figure 2022504384000003
表2に示された例の文脈では、フランス語内容は、fr_FR.UTF-8(フランス語フランス)、fr_CA.UTF-8(フランス語カナダ)など、表2に定義された任意のフランス語ロケールでありうる。この例では、フランス語ロケールfr_FR.UTF-8が、全てのフランス語内容をソートするためのユーザAに対するデフォルト・フランス語ロケールとして設定されており、フランス語ロケールfr_CA.UTF-8が、全てのフランス語内容をソートするためのユーザBに対するデフォルト・フランス語のロケールとして設定されている。本発明のいくつかの実施形態では、デフォルト・ロケールが予め設定されていない場合、同様の共通性を有する他のユーザによって選択されたロケールに基づいてロケールが設定される。
本発明のいくつかの実施形態では、この方法が、1人または複数のユーザの照合設定を監視および学習し、次いで学習された照合設定の好みを考慮してCCC基準を調整するために、1つまたは複数の機械学習アルゴリズムを実行することを含む。
機械学習は、推論(inference)もしくはデジタル・データ間の関係またはその両方を決定するために多数の技術によってしばしば使用される。例えば、機械学習技術、信号処理技術、画像処理技術、データ解析技術もしくはその他の技術またはこれらの組合せは、機械学習モデルを使用して、デジタル・データを解析し、デジタル・データを処理し、デジタル・データから推論を決定し、もしくはデジタル・データ間の関係を決定し、あるいはこれらの組合せを実行する。機械学習機能は、現在知られていない機能を実行するように訓練される機能を有する人工ニューラル・ネットワーク(artificial neural network)(ANN)を使用して実装することができる。機械学習および認知科学では、ANNが、動物の生体ニューラル・ネットワーク、特に脳から着想を得た統計的学習モデルの一種である。ANNを使用して、多数の入力に依存するシステムおよび機能を推定または近似することができる。
ANNは、シミュレートされた「ニューロン」の働きをし、互いの間で電子信号の形態の「メッセージ」を交換する、相互接続されたプロセッサ要素のいわゆる「ニューロモーフィック(neuromorphic)」システムとして実装することができる。生体ニューロン間でメッセージを運ぶシナプス神経伝達物質接続のいわゆる「可塑性」と同様に、シミュレートされたニューロン間で電子的メッセージを運ぶANN内の接続は、所与の接続の強さまたは弱さに対応する数値重みを備える。この重みは経験に基づいて調整および調節することができ、ANNを、入力に対して適応可能とし、学習できるようにする。例えば、手書き文字認識用のANNは、入力画像のピクセルによって活性化させることができる一組の入力ニューロンによって規定される。ネットワークの設計者によって決定された機能によって重み付けおよび変換された後、これらの入力ニューロンの活性化は次いで、下流の他のニューロンに渡される。それらの下流のニューロンをしばしば「隠れ」ニューロンと呼ばれる。出力ニューロンが活性化されるまで、このプロセスは繰り返される。活性化された出力ニューロンは、どの文字が読まれたかを決定する。
次に、本開示をより詳細に説明する。図3は、本発明の1つまたは複数の実施形態を実施するのに有用なコンピュータ・ベースのシステム300の一例を示す高次ブロック図を示している。例示的な1つのコンピュータ・システム300が示されているが、コンピュータ・システム300は、コンピュータ・システム300を追加のシステムに接続する通信経路326を含み、通信経路326は、インターネット、イントラネットまたは無線通信ネットワークもしくはこれらの組合せなどの、1つもしくは複数のワイド・エリア・ネットワーク(WAN)または1つもしくは複数のローカル・エリア・ネットワーク(LAN)あるいはその両方を含むことができる。コンピュータ・システム300と追加のシステムは、(例えばそれらの間でデータをやりとりするために)通信経路326を介して通信する。
コンピュータ・システム300は、プロセッサ302などの1つまたは複数のプロセッサを含む。プロセッサ302は、通信インフラストラクチャ304(例えば通信バス、クロスオーバー・バー(cross-over bar)またはネットワーク)に接続されている。コンピュータ・システム300は、ディスプレイ・ユニット308に表示するための図形、テキストおよびその他のデータを通信インフラストラクチャ304から(または図示されていないフレーム・バッファから)転送するディスプレイ・インターフェース306を含むことができる。コンピュータ・システム300はさらに主メモリ310、好ましくはランダム・アクセス・メモリ(RAM)を含み、さらに補助メモリ(secondary memory)312を含むことができる。補助メモリ312は、例えばハード・ディスク・ドライブ314もしくはリムーバブル・ストレージ・ドライブ316またはその両方を含むことができ、リムーバブル・ストレージ・ドライブ316は例えば、フロッピー(登録商標)・ディスク・ドライブ、磁気テープ・ドライブまたは光ディスク・ドライブを表す。リムーバブル・ストレージ・ドライブ316は、当業者によく知られている方式で、リムーバブル・ストレージ・ユニット318からの読出しもしくはリムーバブル・ストレージ・ユニット318への書込みまたはその両方を実行する。リムーバブル・ストレージ・ユニット318は例えば、リムーバブル・ストレージ・ドライブ316によって読み書きされる、フロッピー(登録商標)・ディスク、コンパクト・ディスク、磁気テープまたは光ディスクなどを表す。理解されることだが、リムーバブル・ストレージ・ユニット318は、コンピュータ・ソフトウェアもしくはデータまたはその両方が記憶されたコンピュータ可読媒体を含む。
本発明のいくつかの代替実施形態では、補助メモリ312が、コンピュータ・プログラムまたは他の命令をコンピュータ・システムにロードすることを可能にする他の同様の手段を含むことができる。そのような手段は例えば、リムーバブル・ストレージ・ユニット320およびインターフェース322を含むことができる。そのような手段の例は、(ビデオ・ゲーム装置に見られるものなどの)プログラム・パッケージおよびパッケージ・インターフェース、(EPROMまたはPROMなどの)リムーバブル・メモリ・チップおよび関連ソケット、ならびにリムーバブル・ストレージ・ユニット320からコンピュータ・システム300にソフトウェアおよびデータを転送することを可能にするその他のリムーバブル・ストレージ・ユニット320およびインターフェース322を含むことができる。
コンピュータ・システム300はさらに通信インターフェース324を含むことができる。通信インターフェース324は、コンピュータ・システムと外部デバイスとの間でソフトウェアおよびデータを転送することを可能にする。通信インターフェース324の例は、モデム、(Ethernetカードなどの)ネットワーク・インターフェース、通信ポート、またはPCM-CIAスロットおよびカードなどを含むことができる。通信インターフェース324を介して転送されるソフトウェアおよびデータは信号の形態をとり、それらの信号は例えば、通信インターフェース324が受信することができる電子信号、電磁信号、光学信号またはその他の信号であることができる。これらの信号は、通信経路(すなわちチャネル)326を介して通信インターフェース324に提供される。通信経路326は信号を運び、ワイヤもしくはケーブル、光ファイバ、電話線、携帯電話リンク、RFリンクまたは他の通信チャネルあるいはこれらの組合せを使用して実装することができる。
本開示では、用語「コンピュータ・プログラム媒体」、「コンピュータ使用可能媒体」および「コンピュータ可読媒体」が、主メモリ310および補助メモリ312、リムーバブル・ストレージ・ドライブ316、ならびにハード・ディスク・ドライブ314内に設置されたハード・ディスクなど、媒体全般を指すために使用される。コンピュータ・プログラム(コンピュータ制御論理とも呼ばれる)は、主メモリ310もしくは補助メモリ312またはその両方に記憶されている。通信インターフェース324を介してコンピュータ・プログラムを受け取ることもできる。このようなコンピュータ・プログラムは、ランされたときに、本明細書で論じられている本開示の特徴をコンピュータ・システムが実行することを可能にする。特に、これらのコンピュータ・プログラムは、ランされたときに、このコンピュータ・システムの特徴をプロセッサ302が実行することを可能にする。したがって、このようなコンピュータ・プログラムは、このコンピュータ・システムのコントローラを表す。
図4は、本発明の1つまたは複数の実施形態による、多言語データを処理する認知照合構成(CCC)サービスを提供するための例示的なシステム400のブロック図を示している。図4に示された例では、システム400が、バックエンド・システム402およびフロントエンド・システム404を含む。バックエンド・システム402およびフロントエンド・システム404のコンポーネントに関する追加の詳細は後に、図5に示されたシステム500のバックエンド・システム502およびフロントエンド・システム504に関して説明される。本発明のいくつかの実施形態では、バックエンド・システム402もしくはフロントエンド・システム404またはその両方が、並行プログラミング環境(concurrent programming environment)で動作するマルチスレッド・コンピュータ・システムの部分を形成する。一般に、並行プログラミング環境では、1つまたは複数のプロセッサ(例えばプロセッサ302)上で一組のプロセスを実行することができる。プロセスは、並行プログラミングの単位(例えばプログラムまたはプログラムの部分)を指す。プログラムの同じ部分を多数のプロセスが同時に実行することができ、次いで、それぞれのプロセスは多数のスレッドを含むことがある。プロセス・スレッドは、同じプログラム内で同時に実行されるプロセスまたは命令ストリームの部分要素(sub-element)を指す。並行プログラミングでは、同じタイプの2つ以上のトランザクションを同時に実行することを可能にするマルチスレッディング処理技術を使用することができる。それぞれのストリームは異なるトランザクション・メッセージを処理する。
本発明のいくつかの実施形態では、バックエンド・システム402が、データを受信、送信および処理することができる、独立型コンピューティング・デバイス、マネジメント・サーバ、ウェブ・サーバ、モバイル・コンピューティング・デバイスもしくは他の適当な電子デバイス、またはコンピューティング・システム、あるいはこれらの組合せである。本発明のいくつかの実施形態では、バックエンド・システム402が、データを受信、送信および処理することができる、独立型コンピューティング・デバイス、マネジメント・サーバ、ウェブ・サーバ、モバイル・コンピューティング・デバイスもしくは他の適当な電子デバイス、またはコンピューティング・システム上、あるいはこれらの組合せ上で実行可能な、アプリケーション、モジュールまたはオペレーティング・システムなどのソフトウェアである。本発明のいくつかの実施形態では、バックエンド・システム402が、クラウド・コンピューティング環境50(図1)内の多数のコンピュータなどの多数のコンピュータを利用するサーバ・コンピューティング・システムである。本発明のいくつかの実施形態では、バックエンド・システム402が、バックエンド・システム402および他のアプリケーションまたはコンピューティング・デバイス(図示せず)とネットワーク406を介して通信することができる、ラップトップ・コンピュータ、タブレット・コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ(PC)、デスクトップ・コンピュータ、パーソナル・デジタル・アシスタント(PDA)、スマートフォンまたは他の適当なプログラム可能電子デバイスである。本発明のいくつかの実施形態では、バックエンド・システム402が、分散環境内でアクセス可能なシームレス・リソース(seamless resources)の単一のプールの働きをするクラスタ化されたコンピュータおよびコンポーネント(例えばデータベース・サーバ・コンピュータ、アプリケーション・サーバ・コンピュータなど)を利用する、コンピューティング・システムである。バックエンド・システム402は、図3に関して示し上で説明したものなどの内部および外部ハードウェア・コンポーネントを有することができる。
ネットワーク406は例えば、電気通信ネットワーク、ローカル・エリア・ネットワーク(LAN)、ワイド・エリア・ネットワーク(WAN)、例えばインターネット、またはこれらの3つのネットワークの組合せとすることができ、有線、無線または光ファイバ接続を含むことができる。ネットワーク406は、音声、データおよびビデオ情報を含むマルチメディア信号を含む、データ、音声もしくはビデオ信号またはこれらの信号の組合せを受信および送信することができる、1つもしくは複数の有線または無線ネットワークあるいはその両方を含むことができる。一般に、ネットワーク406は、バックエンド・システム402、フロントエンド・システム404、または分散環境内の他のアプリケーションもしくはコンピューティング・デバイス(図示せず)、あるいはこれらの組合せの通信をサポートすることができる、接続およびプロトコルの任意の適当な組合せとすることができる。本発明のいくつかの実施形態では、システム400が、クラウド・コンピューティング環境50(図1)などのクラウド・コンピューティング環境の部分として実装される。本発明のいくつかの実施形態では、ネットワーク406が、通信インフラストラクチャ304もしくは通信経路326(図3)またはその両方を介して、バックエンド・システム402とフロントエンド・システム404を相互接続する。
本発明のいくつかの実施形態では、フロントエンド・システム404が、分散環境内のさまざまなコンポーネントおよびデバイスと通信することができる、ラップトップ・コンピュータ、タブレット・コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ(PC)、デスクトップ・コンピュータ、パーソナル・デジタル・アシスタント(PDA)、スマートフォン、インターネット・オブ・シングス(internet-of-things)(IoT)使用可能デバイス(enabled device)、もしくは他の適当なプログラム可能電子デバイス、またはこれらの組合せなどのユーザ・デバイスである。本発明のいくつかの実施形態では、フロントエンド・システム404が、機械可読プログラム命令を実行することおよび分散環境内の他のコンピューティング・デバイス(図示せず)と通信することができる、プログラム可能電子モバイル・デバイスまたはプログラム可能電子モバイル・デバイスの組合せである。本発明のいくつかの実施形態では、フロントエンド・システム404が、データを受信、送信および処理することができる、独立型コンピューティング・デバイス、マネジメント・サーバ、ウェブ・サーバ、モバイル・コンピューティング・デバイスもしくは他の適当な電子デバイス、またはコンピューティング・システム上、あるいはこれらの組合せ上で実行可能な、アプリケーション、モジュールまたはオペレーティング・システムなどのソフトウェアである。本発明のいくつかの実施形態では、フロントエンド・システム404が、図3に関して示し上で説明したものなどの内部および外部ハードウェア・コンポーネントを含むことができる。
システム400は、限定はされないが、機械学習技術、ビデオ処理技術、言語ソーティング技術、データ解析技術、データ分類技術、データ・クラスタ化技術、推奨システム技術、信号処理技術もしくは他のデジタル技術またはこれらの組合せなどの技術に関連するさまざまな技術的問題を解決するために利用することができる(例えば以前に知られていない機能的関係を学習する)機械学習システムである。システム400は、現実に高度に技術的であり、抽象的でなく、人間による一組の精神的行為として実行することができない問題を、ハードウェアもしくはソフトウェアまたはその両方を使用して解決する。図4は、例示的なただ1つのシステムの図解を提供し、本発明の異なる実施形態を実施することができる他のシステムに関する、いかなる限定を暗示しない。当業者は、特許請求項によって記述された本発明の範囲を逸脱することなく、図示された環境に対する適当なさまざまな変更を実施することができる。例えば、本発明のいくつかの実施形態では、バックエンド・システム402とフロントエンド・システム404とが単一のサーバとして実施される。
図5は、本発明の1つまたは複数の実施形態による、多言語データを処理するCCCサービスを提供するための例示的なシステム500のブロック図および対応するコンポーネント・フローを示している。システム500は、バックエンド・システム502およびフロントエンド・システム504を含み、バックエンド・システム502は、CCCパーサ(parser)506、言語検出ウィザード508、言語検出エンジン510、CCCアイテム・クラシファイヤ(classifier)512、ロケール・アサイナ(assigner)514、アイテム・ソーティング・エージェント516、言語ソーティング・ハンドラ(handler)518、CCCコンバイナ(combiner)520、CCCフィードバック・デーモン(daemon)522、CCCマネージャ(manager)524および複数の副言語バッファ526a~526nを含む。本発明のいくつかの実施形態では、CCCマネージャ524が、CCCプロファイル528およびCCC基準530を含む。本発明のいくつかの実施形態では、CCCパーサ506、言語検出ウィザード508、言語検出エンジン510、CCCアイテム・クラシファイヤ512、ロケール・アサイナ514、アイテム・ソーティング・エージェント516、言語ソーティング・ハンドラ518、CCCコンバイナ520、CCCフィードバック・デーモン522、CCCマネージャ524もしくは副言語バッファ526a~526nまたはこれらの組合せが、通信インフラストラクチャ304もしくは通信経路326またはその両方を介して相互接続されている。
CCCパーサ506は、フロントエンド・システム504から多言語入力テキストを受け取り、多言語入力テキストを構文解析して複数の照合アイテム(例えばitem(item、item、item、...、item))に分解するように構成されたアプリケーション、モジュールまたはシステムを含む。多言語入力テキストは、2つ以上の言語で書かれたテキストを含み、それぞれの言語は、1つまたは複数のロケールに関連づけられていることがある。本発明のいくつかの実施形態では、それぞれの照合アイテムが、多言語入力テキストの行、段落、列、またはテキストのその他のセグメント(segment)を表す。したがって、多言語入力テキストが複数のテキスト行(line of text)を含む本発明のいくつかの実施形態では、CCCパーサ506が、多言語入力テキストを、それぞれの行が照合アイテムである複数の行にセグメント化する。それぞれの照合アイテムは、1つまたは複数の照合要素(例えば、文字、文字列など)を含む。本発明のいくつかの実施形態では、バックエンド・システム502がフロントエンド・システム504からソーティング・リクエストを受け取ったことに応答して多言語入力テキストをCCCパーサ506に渡すように、バックエンド・システム502が構成されている。本発明のいくつかの実施形態では、このソーティング・リクエストが、サービスAPIの関数呼出しを介してフロントエンド・システム504から受け取られる。このソーティング・リクエストは多言語入力テキストを含む。CCCパーサ506は、言語検出ウィザード508もしくは言語検出エンジン510またはその両方に構文解析後の多言語入力テキストを送信するように構成されている。
言語検出ウィザード508は、構文解析後の所与のそれぞれのアイテム(item)の言語(item、L)を検出するために予め定められたCCC基準に従って言語検出エンジン510を呼び出すクライアントの働きをするアプリケーション、モジュールまたはシステムを含み、ここで言語L(L、L、L、L、...、L)である。言語検出エンジン510は、所与のストリングの言語名を決定し、決定された言語を呼出し元(例えば言語検出ウィザード508)に返すためのサービスAPI(例えば独立型またはSaaS)を提供するアプリケーション、モジュールまたはシステムを含む。当業者に知られている適当なさまざまな言語検出エンジンを利用することができる。本発明のいくつかの実施形態では、言語検出ウィザード508および言語検出エンジン510によって実行される機能が、バックエンド・システム502の単一のアプリケーション、モジュールまたはシステムによって提供される。本発明のいくつかの実施形態では、言語検出エンジン510を外部エンジンとすることができ、もしくはバックエンド・システム502から分離することができ、またはその両方とすることができる。
CCCアイテム・クラシファイヤ512は、検出されたそれぞれのアイテムを、返された言語名に従って、複数の副言語バッファ526a~526nのうちの対応する副言語バッファに記憶するように構成されたアプリケーション、モジュールまたはシステムを含む。複数の副言語バッファ526a~526nは、検出されたアイテムを一時的に記憶する一組の副バッファ(b[L]、b[L]、b[L]、b[L]、...、b[L])である。例えば、英語、フランス語および日本語で書かれたテキスト行を入力テキストが含むシナリオを考えると、CCCアイテム・クラシファイヤ512は、英語に関連づけられた副言語バッファ526aに英語テキストを記憶し、フランス語に関連づけられた副言語バッファ526bにフランス語テキストを記憶し、日本語に関連づけられた副言語バッファ526cに日本語テキストを記憶することになる。
ロケール・アサイナ514は、一組のロケール照合規則(例えばCCC設定のロケール設定)に基づいて、検出されたそれぞれの言語L(L、L、L、L、...、L)に照合ロケール名を割り当てるように構成されたアプリケーション、モジュールまたはシステムを含む。アイテム・ソーティング・エージェント516は、割り当てられた照合ロケール名に関連づけられたロケール照合規則に従ってそれぞれの副言語バッファb[L]をソートする(例えば(b[L]、b[L]、b[L]、b[L]、...、b[L])のそれぞれに対してソートを実行する)ように構成されたアプリケーション、モジュールまたはシステムを含む。例えば、本発明のいくつかの実施形態では、アイテム・ソーティング・エージェント516が、複数の副言語バッファ526a~526nの所与のそれぞれの副言語バッファ内でソーティング操作を実行するように構成されている。このソーティング操作は、所与の副言語バッファの複数の照合要素をソートする。本発明のいくつかの実施形態では、この複数の照合要素のソーティングが、一組のCCC設定に関連づけられた所定のロケール選択リスト(例えばロケール選択ポリシー)に基づいて実行される。本明細書では、アイテム・ソーティング・エージェント516によって実行されるソーティング操作を「第2のソート操作」と呼ぶ。図6は、本発明の1つまたは複数の実施形態による、例示的なCCC設定600の階層図を示しており、CCC設定600は、複数の異なるグループおよびレベルを含む。
再び図5を参照すると、言語ソーティング・ハンドラ518は、現在の言語/ロケール設定に基づいて、全ての副言語バッファ(b[L]、b[L]、b[L]、b[L]、...、b[L])の最上位層ソート(top layer sort)を実行するように構成されたアプリケーション、モジュールまたはシステムを含む。本明細書では、言語ソーティング・ハンドラ518によって実行されるソーティング操作を「第1のソート操作」と呼ぶ。CCCコンバイナ520は、全ての副言語バッファ526a~526nの内容を併合して、改良されたソート済み出力532を生成するように構成されたアプリケーション、モジュールまたはシステムを含む。図7は、本発明の1つまたは複数の実施形態による、バックエンド・システム502がフロントエンド・システム504から受け取ることがある例示的な多言語データ入力700を示している。この多言語データは、言語およびロケールが混ざりあった未ソートのUnicodeテキストを含む。図8は、本発明の1つまたは複数の実施形態による、図7の未ソートのテキスト入力をソートすることに応答して生成されることがある例示的な改良されたソート済み出力800を示している。この改良されたソート済み出力は、CCCコンバイナ520によって生成されたUnicodeテキストを含む。この例では、改良されたソート済み出力800が、ソートされたドイツ語(de_DE)部分802、ソートされた英語(en_US)部分804、ソートされたフランス語(fr_FR)部分806、ソートされた日本語(ja_JP)部分808、ソートされたロシア語(ru_RU)部分810、ソートされた簡体字中国語(zh_Hans_CN)部分812およびソートされた繁体字中国語(zh_Hant_HK)部分814を含む。図8を見て分かるとおり、簡体字中国語のテキストと繁体字中国語のテキストは、異なる部分812および814にセグメント化されており、それぞれの部分は、ロケールに基づいてその部分の言語に割り当てられた特定のロケール選択リストに基づいてソートされている。
本発明のいくつかの実施形態では、フロントエンド・システム504からソーティング・リクエストを受け取ったことに応答して、改良されたソート済み出力532をフロントエンド・システム504に送信するように、バックエンド・システム502が構成されている。本発明のいくつかの実施形態では、このリクエストが、サービスAPIの関数呼出しを介して行われる。
CCCフィードバック・デーモン522は、1人もしくは複数のユーザのソーティングの好み(例えばカスタマイズされた設定)の監視もしくは学習またはその両方を実行し、次いでCCC基準530をリアルタイムで調整するように構成されたアプリケーション、モジュールまたはシステムを含む。本発明のいくつかの実施形態では、CCCフィードバック・デーモン522が、1人または複数のユーザの学習されたソーティングの好みを考慮してCCC基準530を調整するために1つまたは複数の機械学習モデルを実行するように構成されている。
CCCマネージャ524は、1人または複数のユーザのCCCプロファイル528およびCCC基準530を管理および記憶するアプリケーション、モジュールまたはシステムを含む。本発明のいくつかの実施形態では、CCCマネージャ524が、管理者またはユーザにユーザ・インターフェースを提示するように構成されている。CCCマネージャ524は、ユーザ・インターフェースを介したユーザからの入力を介してユーザの照合の好みを学習し、ユーザのCCCプロファイル528を生成および記憶するように構成されている。本発明のいくつかの実施形態では、学習されたユーザの照合の好みが、ユーザ定義のカスタマイズされたCCC設定を含む。本発明のいくつかの実施形態では、ユーザのカスタマイズされたCCC設定が、ユーザのミニマム言語セクション、言語決定しきい値もしくはロケール選択ポリシーまたはこれらの組合せを含む。例えば、本発明のいくつかの実施形態では、ユーザのカスタマイズされたCCC設定のCCCデータ構造が、[UserID, DeviceID, LanguagePreferenceList, Minimum LanguageSection, LanguageDeterminationThreshold, LocaleSelectionList, …]の形態をとり、いくつかの実施形態では、このCCCデータ構造がデータベースに記憶されている。本発明のいくつかの実施形態では、ユーザAとユーザBが1つまたは複数のある種の共通性(例えば同じまたは同様の地理的位置、言語技能、ソーティングの好み、データ源など)を共有していることをCCCマネージャ524が学習した場合に、ユーザAのカスタマイズされたCCC設定が、ユーザBのデフォルトCCC設定と同じ設定に設定される。本発明のいくつかの実施形態では、CCCプロファイル528が、CCC基準データおよび関連構成データを記憶するように構成された階層構造である。本発明のいくつかの実施形態では、CCCプロファイル528が、サービス設定と、異なるCCC基準530とともに使用するためのユーザのパーソナライズされたカスタマイズ設定の両方を含む。本発明のいくつかの実施形態では、ユーザ・インターフェースが、CCC基準530を定義および調整するように構成されている。本発明のいくつかの実施形態では、ユーザのカスタマイズされたCCC設定を得るために、バックエンド・システム502が、フロントエンド・システム504にユーザ・インターフェースを表示させる。
フロントエンド・システム504は、ユーザ入力インターフェース534を介してユーザから入力を受け取るように構成されている。この入力は、多言語入力データ(例えば多言語テキスト536)を含む。本発明のいくつかの実施形態では、フロントエンド・システム504のアプリケーション538が、バックエンド・システム502にソート・リクエストを送信するように構成されている。このソート・リクエストは多言語入力データを含む。本発明のいくつかの実施形態では、多言語入力の改良されたソート済み出力532をフロントエンド・システム504に提供することをバックエンド・システム502に実行させるために、CCCサービスAPIの関数呼出しの実行によって、バックエンド・システム502にソート・リクエストが送信される。本発明のいくつかの実施形態では、CCCサービス機能が有効もしくは使用可能であるのかどうか、またはその両方であるのかどうかに基づいて、バックエンド・システム502への関数呼出しをするかどうかを判定するように、フロントエンド・システム504が構成されている。本発明のいくつかの実施形態では、アプリケーション538がバックエンド・システム502を呼び出さない場合に、フロントエンド・システム504自体が、多言語入力テキスト536のソート操作540を実行し、次いで改良されていないソート済み出力542を出力してユーザに返す。
次に、システム400およびシステム500の動作の追加の詳細を図9を参照して説明する。図9は、本発明の1つまたは複数の実施形態による方法900を示す流れ図を示している。902で、多言語入力テキストを構文解析して複数の照合アイテムに分解する。本発明のいくつかの実施形態では、複数の照合アイテムのそれぞれの照合アイテムが複数の照合要素を含む。本発明のいくつかの実施形態では、複数の照合アイテムが、多言語入力テキストの複数のテキスト行を含む。本発明のいくつかの実施形態では、複数の照合アイテムのそれぞれの照合アイテムの複数の照合要素が、複数のテキスト行のそれぞれのテキスト行の複数の文字を含む。904で、複数の照合アイテムのそれぞれの照合アイテムの言語を検出する。906で、複数の照合アイテムのそれぞれの照合アイテムを、複数の副言語バッファのうちの対応する副言語バッファに記憶する。複数の副言語バッファのそれぞれの副言語バッファは、複数の言語のうちの異なる言語に関連づけられている。908で、複数の副言語バッファに関する第1のソート操作を実行する。第1のソート操作は、一組の照合設定に基づいて複数の副言語バッファをソートすることを含む。本発明のいくつかの実施形態では、この一組の照合設定が、言語選択リストもしくはロケール選択リストまたはその両方を含む。910で、ソートされた複数の副言語バッファの内容を併合して、複数の照合アイテムを含むソート済み出力を形成する。
本発明のいくつかの実施形態では、方法900がさらに、複数の副言語バッファのそれぞれの副言語バッファ内で第2のソート操作を実行することを含み、副言語バッファの第2のソート操作は、副言語バッファの複数の照合要素をロケール選択リストに基づいてソートすることを含む。本発明のいくつかの実施形態では、副言語バッファの内容の併合が、第2のソート操作および第1のソート操作の後に実行される。
本発明のいくつかの実施形態では、方法900がさらに、多言語入力テキストを構文解析する前に、サービスAPIの関数呼出しを介してフロントエンド・システムからソーティング・リクエストを受け取ることを含み、このソーティング・リクエストは多言語入力テキストを含む。本発明のいくつかの実施形態では、方法900がさらに、受け取ったソーティング・リクエストに応答して、ソート済み出力をフロントエンド・システムに送信することを含む。
本発明のいくつかの実施形態では、方法900がさらに、1人または複数のユーザのソーティングの好みを監視および学習するように構成されたフィードバック・デーモンを実行することを含み、このフィードバック・デーモンはさらに、学習したソーティングの好みに基づいて一組の照合設定をリアルタイムで調整するように構成されている。
本発明は、インテグレーションの任意の可能な技術的詳細レベルにおいて、システム、方法もしくはコンピュータ・プログラム製品、またはこれらの組合せであることができる。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令をその上に有する、1つまたは複数のコンピュータ可読ストレージ媒体を含むことができる。
このコンピュータ可読ストレージ媒体は、命令実行デバイスが使用するための命令を保持および記憶することができる有形のデバイスとすることができる。このコンピュータ可読ストレージ媒体は例えば、限定はされないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイスまたはこれらの適当な組合せとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リードオンリー・メモリ(ROM)、消去可能なプログラマブル・リードオンリー・メモリ(EPROM(登録商標)またはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リードオンリー・メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック(登録商標)、フロッピー(登録商標)・ディスク、機械的にコード化されたデバイス、例えばパンチカードまたはその上に命令が記録された溝の中の一段高くなった構造体、およびこれらの任意の適当な組合せを含む。本明細書で使用されるとき、コンピュータ可読ストレージ媒体は、それ自体が一過性の信号、例えば電波もしくは他の自由に伝搬する電磁波、ウェーブガイドもしくは他の伝送媒体内を伝搬する電磁波(例えば光ファイバ・ケーブル内を通る光パルス)、または電線を通して伝送される電気信号であると解釈されるべきではない。
本明細書に記載されたコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体から対応するそれぞれのコンピューティング/処理デバイスにダウンロードすることができるか、またはネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはそれらの組合せを介して外部コンピュータもしくは外部ストレージ・デバイスにダウンロードすることができる。このネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータもしくはエッジ・サーバ、またはこれらの組合せを含むことができる。それぞれのコンピューティング/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、コンピュータ可読プログラム命令をネットワークから受け取り、それらのコンピュータ可読プログラム命令を、対応するそれぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に記憶するために転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、もしくは集積回路用の構成データであってもよく、またはSmalltalk(登録商標)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語または同種のプログラミング言語などの手続き型プログラミング言語を含む、1つもしくは複数のプログラミング言語の任意の組合せで書かれた、ソース・コードもしくはオブジェクト・コードのいずれかであってもよい。このコンピュータ可読プログラム命令は、全体がユーザのコンピュータ上で実行されてもよく、一部がユーザのコンピュータ上で実行されてもよく、独立型ソフトウェア・パッケージとして実行されてもよく、一部がユーザのコンピュータ上で、一部が遠隔コンピュータ上で実行されてもよく、または全体が遠隔コンピュータもしくは遠隔サーバ上で実行されてもよい。上記の最後のシナリオでは、遠隔コンピュータが、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、またはこの接続が、外部コンピュータに対して(例えばインターネット・サービス・プロバイダを使用してインターネットを介して)実施されてもよい。いくつかの実施形態では、本発明の態様を実施するために、例えばプログラム可能論理回路、フィールドプログラマブル・ゲート・アレイ(FPGA)またはプログラム可能論理アレイ(PLA)を含む電子回路が、このコンピュータ可読プログラム命令の状態情報を利用してその電子回路をパーソナライズすることにより、このコンピュータ可読プログラム命令を実行してもよい。
本明細書では、本発明の態様が、本発明の実施形態による方法、装置(システム)およびコンピュータ・プログラム製品の流れ図もしくはブロック図またはその両方の図を参照して説明される。それらの流れ図もしくはブロック図またはその両方の図のそれぞれのブロック、およびそれらの流れ図もしくはブロック図またはその両方の図のブロックの組合せは、コンピュータ可読プログラム命令によって実施することができることが理解される。
これらのコンピュータ可読プログラム命令は、機械を形成する汎用コンピュータ、専用コンピュータまたは他のプログラム可能データ処理装置のプロセッサに、それらのコンピュータまたは他のプログラム可能データ処理装置のプロセッサによって実行されるこれらの命令が、これらの流れ図もしくはブロック図またはその両方の図の1つまたは複数のブロックに指定された機能/動作を実施する手段を生成するように提供することができる。これらのコンピュータ可読プログラム命令はさらに、特定の方式で機能するようにコンピュータ、プログラム可能データ処理装置もしくは他のデバイスまたはこれらの組合せに指図することができるコンピュータ可読ストレージ媒体に、その中に命令が記憶されたコンピュータ可読ストレージ媒体が、これらの流れ図もしくはブロック図またはその両方の図の1つまたは複数のブロックに指定された機能/動作の態様を実施する命令を含む製品を含むように記憶することができる。
コンピュータ可読プログラム命令はさらに、コンピュータ、他のプログラム可能装置または他のデバイス上で一連の動作ステップを実行させて、コンピュータによって実施されるプロセスを生み出すために、このコンピュータ、他のプログラム可能データ処理装置または他のデバイス上に、このコンピュータ、他のプログラム可能装置または他のデバイス上で実施されるこれらの命令が、これらの流れ図もしくはブロック図またはその両方の図の1つまたは複数のブロックに指定された機能/動作を実施するようにロードすることができる。
添付図中の流れ図およびブロック図は、本発明のさまざまな実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実施態様のアーキテクチャ、機能および動作を示す。この点に関して、それらの流れ図またはブロック図のそれぞれのブロックは、指定された論理機能を実施する1つまたは複数の実行可能命令を含む、命令のモジュール、セグメントまたは部分を表すことがある。いくつかの代替実施態様では、ブロックに示された機能を、図に示された順序とは異なる順序で実施することができる。例えば、連続して示された2つのブロックが、実際は、実質的に同時に実行されることがあるか、または、含まれる機能によってはそれらのブロックが逆の順序で実行されることもある。それらのブロック図もしくは流れ図またはその両方の図のそれぞれのブロック、ならびにそれらのブロック図もしくは流れ図またはその両方の図のブロックの組合せを、指定された機能もしくは動作を実行するか、または専用ハードウェアとコンピュータ命令の組合せを実施するハードウェアベースの専用システムによって実施することができることにも留意すべきである。
本発明のさまざまな実施形態の説明は例示のために提示されたものであり、それらの説明が網羅的であること、または開示された実施形態に限定されることは意図されていない。当業者には、記載された実施形態の範囲および思想を逸脱しない多くの変更および変形が明白になるであろう。本明細書で使用されている用語は、実施形態の原理、実際的用途、もしくは市場に出ている技術には見られない技術的改良を最もうまく説明するように、または本明細書に開示された実施形態を他の当業者が理解することができるように選択した。

Claims (25)

  1. 多言語データの認知照合構成処理のコンピュータ実施方法であって、
    1つまたは複数のプロセッサを備えるシステムによって、多言語入力テキストを構文解析して複数の照合アイテムに分解すること、
    前記システムによって、前記複数の照合アイテムのそれぞれの照合アイテムの言語を検出すること、
    前記システムによって、前記複数の照合アイテムのそれぞれの照合アイテムを、複数の副言語バッファのうちの対応する副言語バッファに記憶すること、
    前記システムによって、前記複数の副言語バッファに関して第1のソート操作を実行することであって、前記第1のソート操作が、一組の照合設定に基づいて前記複数の副言語バッファをソートすることを含み、前記一組の照合設定が言語選択リストを含む、前記第1のソート操作を実行すること、および
    前記システムによって、ソートされた前記複数の副言語バッファの内容を併合して、前記複数の照合アイテムを含むソート済み出力を形成すること
    を含む、コンピュータ実施方法。
  2. 前記照合設定がロケール選択リストをさらに含み、前記複数の照合アイテムのそれぞれの照合アイテムが複数の照合要素を含み、前記方法がさらに、
    前記システムによって、前記複数の副言語バッファのそれぞれの副言語バッファ内で第2のソート操作を実行すること
    を含み、副言語バッファの前記第2のソート操作が、前記副言語バッファの前記複数の照合要素を前記ロケール選択リストに基づいてソートすることを含み、前記併合が、前記第2のソート操作および前記第1のソート操作の後に実行される、
    請求項1に記載のコンピュータ実施方法。
  3. 前記複数の照合アイテムが、前記多言語入力テキストの複数のテキスト行を含み、前記複数の照合アイテムのそれぞれの照合アイテムの前記複数の照合要素が、前記複数のテキスト行のそれぞれのテキスト行の複数の文字を含む、請求項1に記載のコンピュータ実施方法。
  4. 前記多言語入力テキストを構文解析する前に、前記システムによって、サービスAPIの関数呼出しを介してフロントエンド・システムからソーティング・リクエストを受け取ることであって、前記ソーティング・リクエストが前記多言語入力テキストを含む、前記ソーティング・リクエストを受け取ること、および
    前記システムによって、受け取った前記ソーティング・リクエストに応答して、前記ソート済み出力を前記フロントエンド・システムに送信すること
    を含む、請求項1に記載のコンピュータ実施方法。
  5. 前記システムによって、1人または複数のユーザのソーティングの好みを監視および学習するように構成されたフィードバック・デーモンを実行すること
    をさらに含み、前記フィードバック・デーモンがさらに、学習した前記ソーティングの好みに基づいて前記一組の照合設定をリアルタイムで調整するように構成されている、
    請求項1に記載のコンピュータ実施方法。
  6. 多言語データの認知照合構成処理のコンピュータ実施方法であって、
    1つまたは複数のプロセッサを備えるシステムによって、バックエンド・システムにソーティング・リクエストを送信すること
    を含み、前記ソーティング・リクエストが多言語入力テキストを含み、
    前記バックエンド・システムが、
    前記多言語入力テキストを構文解析して複数の照合アイテムに分解し、
    前記複数の照合アイテムのそれぞれの照合アイテムの言語を検出し、
    前記複数の照合アイテムのそれぞれの照合アイテムを、複数の副言語バッファのうちの対応する副言語バッファに記憶し、
    前記複数の副言語バッファに関して、第1のソート操作であって、前記第1のソート操作が、一組の照合設定に基づいて前記複数の副言語バッファをソートすることを含み、前記一組の照合設定が言語選択リストを含む、前記第1のソート操作を実行し、
    ソートされた前記複数の副言語バッファの内容を併合して、前記複数の照合アイテムを含むソート済み出力を形成する
    ように構成されている、コンピュータ実施方法。
  7. 前記照合設定がロケール選択リストをさらに含み、前記複数の照合アイテムのそれぞれの照合アイテムが複数の照合要素を含み、前記バックエンド・システムがさらに、
    前記複数の副言語バッファのそれぞれの副言語バッファ内で第2のソート操作を実行する
    ように構成されており、副言語バッファの前記第2のソート操作が、前記副言語バッファの前記複数の照合要素を前記ロケール選択リストに基づいてソートすることを含み、前記併合が、前記第2のソート操作および前記第1のソート操作の後に実行される、
    請求項6に記載のコンピュータ実施方法。
  8. 前記複数の照合アイテムが、前記多言語入力テキストの複数のテキスト行を含み、前記複数の照合アイテムのそれぞれの照合アイテムの前記複数の照合要素が、前記複数のテキスト行のそれぞれのテキスト行の複数の文字を含む、請求項6に記載のコンピュータ実施方法。
  9. 前記ソーティング・リクエストが、サービスAPIの関数呼出しを介して前記システムから前記バックエンド・システムに送られ、前記バックエンド・システムがさらに、受け取った前記ソーティング・リクエストに応答して、前記ソート済み出力を前記システムに送信するように構成されている、請求項6に記載のコンピュータ実施方法。
  10. 前記バックエンド・システムがさらに、フィードバック・デーモンを実行するように構成されており、前記フィードバック・デーモンが、1人または複数のユーザのソーティングの好みを監視および学習するように構成されており、前記フィードバック・デーモンがさらに、学習した前記ソーティングの好みに基づいて前記一組の照合設定をリアルタイムで調整するように構成されている、請求項6に記載のコンピュータ実施方法。
  11. 多言語データの認知照合構成処理のためのシステムであって、前記システムが、方法を実行するように構成された1つまたは複数のプロセッサを備え、前記方法が、
    前記システムによって、多言語入力テキストを構文解析して複数の照合アイテムに分解すること、
    前記システムによって、前記複数の照合アイテムのそれぞれの照合アイテムの言語を検出すること、
    前記システムによって、前記複数の照合アイテムのそれぞれの照合アイテムを、複数の副言語バッファのうちの対応する副言語バッファに記憶すること、
    前記システムによって、前記複数の副言語バッファに関して第1のソート操作を実行することであって、前記第1のソート操作が、一組の照合設定に基づいて前記複数の副言語バッファをソートすることを含み、前記一組の照合設定が言語選択リストを含む、前記第1のソート操作を実行すること、および
    前記システムによって、ソートされた前記複数の副言語バッファの内容を併合して、前記複数の照合アイテムを含むソート済み出力を形成すること
    を含む、システム。
  12. 前記照合設定がロケール選択リストをさらに含み、前記複数の照合アイテムのそれぞれの照合アイテムが複数の照合要素を含み、前記方法がさらに、
    前記システムによって、前記複数の副言語バッファのそれぞれの副言語バッファ内で第2のソート操作を実行すること
    を含み、副言語バッファの前記第2のソート操作が、前記副言語バッファの前記複数の照合要素を前記ロケール選択リストに基づいてソートすることを含み、前記併合が、前記第2のソート操作および前記第1のソート操作の後に実行される、
    請求項11に記載のシステム。
  13. 前記複数の照合アイテムが、前記多言語入力テキストの複数のテキスト行を含み、前記複数の照合アイテムのそれぞれの照合アイテムの前記複数の照合要素が、前記複数のテキスト行のそれぞれのテキスト行の複数の文字を含む、請求項11に記載のシステム。
  14. 前記方法がさらに、
    前記多言語入力テキストを構文解析する前に、前記システムによって、サービスAPIの関数呼出しを介してフロントエンド・システムからソーティング・リクエストを受け取ることであって、前記ソーティング・リクエストが前記多言語入力テキストを含む、前記ソーティング・リクエストを受け取ること、および
    前記システムによって、受け取った前記ソーティング・リクエストに応答して、前記ソート済み出力を前記フロントエンド・システムに送信すること
    をさらに含む、請求項11に記載のシステム。
  15. 前記方法がさらに、
    前記システムによって、1人または複数のユーザのソーティングの好みを監視および学習するように構成されたフィードバック・デーモンを実行すること
    をさらに含み、前記フィードバック・デーモンがさらに、学習した前記ソーティングの好みに基づいて前記一組の照合設定をリアルタイムで調整するように構成されている、
    請求項11に記載のシステム。
  16. 多言語データの認知照合構成処理のためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品が、プログラム命令を実装したコンピュータ可読ストレージ媒体を含み、前記プログラム命令が、1つまたは複数のプロセッサを備えるバックエンド・システムによって、前記バックエンド・システムに方法を実行させるように実行可能であり、前記方法が、
    前記バックエンド・システムによって、多言語入力テキストを構文解析して複数の照合アイテムに分解すること、
    前記バックエンド・システムによって、前記複数の照合アイテムのそれぞれの照合アイテムの言語を検出すること、
    前記バックエンド・システムによって、前記複数の照合アイテムのそれぞれの照合アイテムを、複数の副言語バッファのうちの対応する副言語バッファに記憶すること、
    前記バックエンド・システムによって、前記複数の副言語バッファに関して第1のソート操作を実行することであって、前記第1のソート操作が、一組の照合設定に基づいて前記複数の副言語バッファをソートすることを含み、前記一組の照合設定が言語選択リストを含む、前記第1のソート操作を実行すること、および
    前記バックエンド・システムによって、ソートされた前記複数の副言語バッファの内容を併合して、前記複数の照合アイテムを含むソート済み出力を形成すること
    を含む、コンピュータ・プログラム製品。
  17. 前記照合設定がロケール選択リストをさらに含み、前記複数の照合アイテムのそれぞれの照合アイテムが複数の照合要素を含み、前記方法がさらに、
    前記バックエンド・システムによって、前記複数の副言語バッファのそれぞれの副言語バッファ内で第2のソート操作を実行すること
    を含み、副言語バッファの前記第2のソート操作が、前記副言語バッファの前記複数の照合要素を前記ロケール選択リストに基づいてソートすることを含み、前記併合が、前記第2のソート操作および前記第1のソート操作の後に実行される、
    請求項16に記載のコンピュータ・プログラム製品。
  18. 前記複数の照合アイテムが、前記多言語入力テキストの複数のテキスト行を含み、前記複数の照合アイテムのそれぞれの照合アイテムの前記複数の照合要素が、前記複数のテキスト行のそれぞれのテキスト行の複数の文字を含む、請求項16に記載のコンピュータ・プログラム製品。
  19. 前記方法がさらに、
    前記多言語入力テキストを構文解析する前に、前記バックエンド・システムによって、サービスAPIの関数呼出しを介してフロントエンド・システムからソーティング・リクエストを受け取ることであって、前記ソーティング・リクエストが前記多言語入力テキストを含む、前記ソーティング・リクエストを受け取ること、および
    前記バックエンド・システムによって、受け取った前記ソーティング・リクエストに応答して、前記ソート済み出力を前記フロントエンド・システムに送信すること
    をさらに含む、請求項16に記載のコンピュータ・プログラム製品。
  20. 前記方法がさらに、
    前記バックエンド・システムによって、1人または複数のユーザのソーティングの好みを監視および学習するように構成されたフィードバック・デーモンを実行すること
    をさらに含み、前記フィードバック・デーモンがさらに、学習した前記ソーティングの好みに基づいて前記一組の照合設定をリアルタイムで調整するように構成されている、
    請求項16に記載のコンピュータ・プログラム製品。
  21. 多言語データの認知照合構成処理のためのシステムであって、前記システムが、
    1つまたは複数のプロセッサと、
    前記1つまたは複数のプロセッサに動作可能に結合されたメモリと、
    フロントエンド・コンポーネントと、
    バックエンド・コンポーネントと
    を備え、
    前記フロントエンド・コンポーネントが、前記バックエンド・コンポーネントにソーティング・リクエストを送信するように構成されており、前記ソーティング・リクエストが多言語入力テキストを含み、
    前記バックエンド・コンポーネントが、
    前記多言語入力テキストを構文解析して複数の照合アイテムに分解し、
    前記複数の照合アイテムのそれぞれの照合アイテムの言語を検出し、
    前記複数の照合アイテムのそれぞれの照合アイテムを、複数の副言語バッファのうちの対応する副言語バッファに記憶し、
    前記複数の副言語バッファに関して、第1のソート操作であって、前記第1のソート操作が、一組の照合設定に基づいて前記複数の副言語バッファをソートすることを含み、前記一組の照合設定が言語選択リストを含む、前記第1のソート操作を実行し、
    ソートされた前記複数の副言語バッファの内容を併合して、前記複数の照合アイテムを含むソート済み出力を形成する
    ように構成されている、システム。
  22. 前記照合設定がロケール選択リストをさらに含み、前記複数の照合アイテムのそれぞれの照合アイテムが複数の照合要素を含み、前記バックエンド・コンポーネントがさらに、
    前記複数の副言語バッファのそれぞれの副言語バッファ内で第2のソート操作を実行する
    ように構成されており、副言語バッファの前記第2のソート操作が、前記副言語バッファの前記複数の照合要素を前記ロケール選択リストに基づいてソートすることを含み、前記併合が、前記第2のソート操作および前記第1のソート操作の後に実行される、
    請求項21に記載のシステム。
  23. 前記複数の照合アイテムが、前記多言語入力テキストの複数のテキスト行を含み、前記複数の照合アイテムのそれぞれの照合アイテムの前記複数の照合要素が、前記複数のテキスト行のそれぞれのテキスト行の複数の文字を含む、請求項21に記載のシステム。
  24. 前記ソーティング・リクエストが、サービスAPIの関数呼出しを介して前記フロントエンド・コンポーネントから前記バックエンド・コンポーネントに送られ、前記バックエンド・コンポーネントがさらに、受け取った前記ソーティング・リクエストに応答して、前記ソート済み出力を前記フロントエンド・コンポーネントに送信するように構成されている、請求項21に記載のシステム。
  25. 前記バックエンド・コンポーネントがさらに、フィードバック・デーモンを実行するように構成されており、前記フィードバック・デーモンが、1人または複数のユーザのソーティングの好みを監視および学習するように構成されており、前記フィードバック・デーモンがさらに、学習した前記ソーティングの好みに基づいて前記一組の照合設定をリアルタイムで調整するように構成されている、請求項21に記載のシステム。
JP2021518876A 2018-10-23 2019-10-21 多言語データ・ガバナンスおよび管理を改良するための認知照合構成 Pending JP2022504384A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/168,245 2018-10-23
US16/168,245 US11256862B2 (en) 2018-10-23 2018-10-23 Cognitive collation configuration for enhancing multilingual data governance and management
PCT/IB2019/058946 WO2020084440A1 (en) 2018-10-23 2019-10-21 Cognitive collation configuration for enhancing multilingual data governance and management

Publications (1)

Publication Number Publication Date
JP2022504384A true JP2022504384A (ja) 2022-01-13

Family

ID=70280822

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021518876A Pending JP2022504384A (ja) 2018-10-23 2019-10-21 多言語データ・ガバナンスおよび管理を改良するための認知照合構成

Country Status (5)

Country Link
US (1) US11256862B2 (ja)
JP (1) JP2022504384A (ja)
DE (1) DE112019005298T5 (ja)
GB (1) GB2591210A (ja)
WO (1) WO2020084440A1 (ja)

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3005031B2 (ja) * 1990-10-17 2000-01-31 キヤノン株式会社 通信装置
US5440482A (en) 1993-03-25 1995-08-08 Taligent, Inc. Forward and reverse Boyer-Moore string searching of multilingual text having a defined collation order
JP3326708B2 (ja) * 1993-08-31 2002-09-24 日水製薬株式会社 光学的測定装置およびその方法
JP3457061B2 (ja) * 1994-06-28 2003-10-14 富士通株式会社 属性混在文字列のソート装置及び属性混在文字列のソート方法
US5687366A (en) 1995-05-05 1997-11-11 Apple Computer, Inc. Crossing locale boundaries to provide services
US5675818A (en) 1995-06-12 1997-10-07 Borland International, Inc. System and methods for improved sorting with national language support
US5873111A (en) 1996-05-10 1999-02-16 Apple Computer, Inc. Method and system for collation in a processing system of a variety of distinct sets of information
US7165020B2 (en) 1998-05-29 2007-01-16 Citicorp Development Center, Inc. Multi-language phrase editor and method thereof
DE69706439T2 (de) 1996-11-15 2002-06-06 Michael Schindler Rechnersortiersystem zur datenkompression
US6119064A (en) 1997-05-15 2000-09-12 Nissan Motor Co., Ltd. Vehicular control apparatus arranged for undergoing initial failure test after burn-in and method arranged therefor
US6389386B1 (en) * 1998-12-15 2002-05-14 International Business Machines Corporation Method, system and computer program product for sorting text strings
CA2348239C (en) * 2001-05-18 2005-04-19 Ibm Canada Limited-Ibm Canada Limitee Culturally correct ordering of keyed records
US6952691B2 (en) 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
JP4289891B2 (ja) * 2003-01-17 2009-07-01 キヤノン株式会社 情報検索装置、情報検索方法およびプログラム
US7941311B2 (en) 2003-10-22 2011-05-10 Microsoft Corporation System and method for linguistic collation
US7899665B2 (en) * 2004-08-20 2011-03-01 International Business Machines Corporation Methods and systems for detecting the alphabetic order used by different languages
US20060100857A1 (en) * 2004-11-05 2006-05-11 Microsoft Corporation Custom collation tool
US7941484B2 (en) 2005-06-20 2011-05-10 Symantec Operating Corporation User interfaces for collaborative multi-locale context-aware systems management problem analysis
US20070088699A1 (en) 2005-10-18 2007-04-19 Edmondson James R Multiple Pivot Sorting Algorithm
CN101441637A (zh) * 2007-11-22 2009-05-27 国际商业机器公司 对已排序的字符串序列再排序的方法及装置
US8355919B2 (en) * 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
CN102135969A (zh) 2010-01-22 2011-07-27 富士通株式会社 构造索引库的方法和设备以及查询方法
US8682644B1 (en) * 2011-06-30 2014-03-25 Google Inc. Multi-language sorting index
US10423999B1 (en) * 2013-11-01 2019-09-24 Richrelevance, Inc. Performing personalized category-based product sorting
CN104933072A (zh) 2014-03-19 2015-09-23 北京航天长峰科技工业集团有限公司 一种多语种互联网信息分析方法
US10027615B2 (en) 2015-02-13 2018-07-17 International Business Machines Corporation Personal communication data management in multilingual mobile device
US9588966B2 (en) 2015-07-21 2017-03-07 Facebook, Inc. Data sorting for language processing such as POS tagging
US10025779B2 (en) * 2015-08-13 2018-07-17 Xerox Corporation System and method for predicting an optimal machine translation system for a user based on an updated user profile
CN107526742B (zh) * 2016-06-21 2021-10-08 伊姆西Ip控股有限责任公司 用于处理多语言文本的方法和设备
CN106503195A (zh) 2016-11-02 2017-03-15 四川译宝联科技有限公司 一种基于搜索引擎的翻译词库检索方法及系统

Also Published As

Publication number Publication date
WO2020084440A1 (en) 2020-04-30
DE112019005298T5 (de) 2021-07-22
US20200125634A1 (en) 2020-04-23
GB2591210A (en) 2021-07-21
US11256862B2 (en) 2022-02-22

Similar Documents

Publication Publication Date Title
US11074284B2 (en) Cognitive summarization and retrieval of archived communications
US11093216B2 (en) Automatic discovery of microservices from monolithic applications
US10528675B2 (en) Context-aware translation memory to facilitate more accurate translation
US10303689B2 (en) Answering natural language table queries through semantic table representation
US10885082B2 (en) Implicit relation induction via purposeful overfitting of a word embedding model on a subset of a document corpus
US20210117668A1 (en) Automatic delineation and extraction of tabular data using machine learning
US11093774B2 (en) Optical character recognition error correction model
US11416823B2 (en) Resolution and pipelining of helpdesk tickets needing resolutions from multiple groups
US11048885B2 (en) Cognitive translation service integrated with context-sensitive derivations for determining program-integrated information relationships
US11360973B2 (en) Generating multilingual queries
US10839168B2 (en) Dynamic automation of pipeline creation
US11354504B2 (en) Multi-lingual action identification
US10776411B2 (en) Systematic browsing of automated conversation exchange program knowledge bases
US11416686B2 (en) Natural language processing based on user context
JP2022504384A (ja) 多言語データ・ガバナンスおよび管理を改良するための認知照合構成
US11227127B2 (en) Natural language artificial intelligence topology mapping for chatbot communication flow
US11373039B2 (en) Content context aware message intent checker
US20220043977A1 (en) Determining user complaints from unstructured text
US10474750B1 (en) Multiple information classes parsing and execution
US20230106490A1 (en) Automatically improving data annotations by processing annotation properties and user feedback
US11726641B1 (en) Encoding/decoding user interface interactions
US11755822B2 (en) Promised natural language processing annotations
WO2023216857A1 (en) Multi-agent chatbot with multi-intent recognition
US20210081803A1 (en) On-Demand Knowledge Resource Management

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210427

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20210406

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220418

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231002

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240301