JP6975377B2

JP6975377B2 - テキスト相関度を確定するためのコンピュータ実施方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム

Info

Publication number: JP6975377B2
Application number: JP2019210903A
Authority: JP
Inventors: イエシュ; ヂィーファンフェン; ジョーファン; ヤンジャン; ヨンジュー
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-01-30
Filing date: 2019-11-21
Publication date: 2021-12-01
Anticipated expiration: 2039-11-21
Also published as: KR102564144B1; CN109871428A; US20200242140A1; US11520812B2; JP2020123318A; KR20200094627A; CN109871428B; EP3690672A1

Description

本開示の実施形態は主にコンピュータ分野に関し、より具体的には、テキスト相関度を確定するためのコンピュータ実施方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムに関する。

テキストの相関度はテキストのマッチング度合いともいう。多くのアプリケーションでは異なるテキスト間の相関度を確定しなければならない。一つの典型的な場面は検索アプリケーションである。通常、検索を行う際に、各々の文書におけるテキストと検索クエリにおけるテキストとの相関度を確定する必要があり、相関度の高低に基づいてフィードバックされたクエリ結果において各々の文書の順位付け状況を確定することができ、すなわち相関度の順位付けが実現される。テキスト相関度の確定はテキストに対する理解を基にしており、２つのテキストの意味類似度に関連するだけでなく、テキスト間のマッチング度合いにも関連する。大量の研究がなされてきたが、現在の多くのテキスト相関度の確定を実現する方法は正確さの面で依然として改善する余地がある。

本開示の例示的実施形態によれば、テキスト相関度を確定するための手段が提供される。

本開示の第１態様では、テキスト相関度を確定するためのコンピュータ実施方法が提供される。該方法は、知識要素からなる知識表現を含む予め定義された知識ベースから、第１テキストに関連付けられる第１組の知識要素と、第２テキストに関連付けられる第２組の知識要素とを識別するステップと、第１組の知識要素及び第２組の知識要素のうち、知識ベースにおいて同じ識別子を有する知識要素の数を確定するステップであって、知識要素の識別子は知識ベースにおいて知識要素を一意に識別する、ステップと、同じ識別子を有する知識要素の数に基づいて、第１組の知識要素と第２組の知識要素との間の知識要素相関度を確定するステップと、少なくとも知識要素相関度に基づいて、第１テキストに対する第２テキストのテキスト相関度を確定するステップとを含む。

本開示の第２態様では、テキスト相関度を確定するための装置が提供される。該装置は、知識要素からなる知識表現を含む予め定義された知識ベースから、第１テキストに関連付けられる第１組の知識要素と、第２テキストに関連付けられる第２組の知識要素とを識別するように構成された知識要素関連付けモジュールと、第１組の知識要素と第２組の知識要素との間の知識要素相関度を確定するように構成された要素相関度確定モジュールと、少なくとも知識要素相関度に基づいて、第１テキストに対する第２テキストのテキスト相関度を確定するように構成されたテキスト相関度確定モジュールとを含み、要素相関度確定モジュールは、第１組の知識要素及び第２組の知識要素のうち、知識ベースにおいて同じ識別子を有する知識要素の数を確定するように構成された同識別子モジュールであって、知識要素の識別子は知識ベースにおいて知識要素を一意に識別する、同識別子モジュールと、同じ識別子を有する知識要素の数に基づいて、知識要素相関度を確定するように構成された識別子に基づく相関度確定モジュールとを含む。

本開示の第３態様では、一つ以上のプロセッサと、１つ又は複数のプログラムを格納するための記憶装置であって、前記１つ又は複数のプログラムが１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに本開示の第１態様に係る方法を実現させる記憶装置と、を備える電子機器が提供される。

本開示の第４態様では、コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、該プログラムがプロセッサによって実行されたときに本開示の第１態様による方法を実現するコンピュータ可読記憶媒体が提供される。
本開示の第５態様では、コンピュータプログラムであって、コンピュータプログラムがプロセッサにより実行されると、本開示の第１態様による方法を実現する、コンピュータプログラムが提供される。

発明の開示の部分に記載された内容は、本開示の実施形態の肝要な又は重要な特徴を限定するためのものではなく、本開示の範囲を限定するためのものでもないことを理解されたい。本開示のその他の特徴は以下の説明により容易に理解されるものと思われる。

添付の図面及び以下の詳細な説明を参照することにより、本開示の各実施形態の上記説明、並びにその他の特徴、利点及び態様はより明確になると思われる。添付図面において同一又は類似の図面符号は同一又は類似の要素を示している。

従来の技術手段におけるテキスト類似度を確定する例示的な環境の概略図を示す。

本開示の複数の実施形態によるテキスト類似性を確定する例示的な環境の概略図を示す。

本開示のいくつかの実施形態による学習ネットワークに基づくテキスト相関度を確定するシステムの概略ブロック図を示す。

本開示のいくつかの実施形態による、図３のシステムにおける表現決定モジュールの例示的なブロック図を示す。

本開示のいくつかの実施形態による、図３のシステムにおける特徴抽出モジュールの例示的なブロック図を示す。

本開示のいくつかの実施形態によるテキスト相関度を確定する方法のフローチャートを示す。

本開示の実施形態によるテキスト相関度を確定するための装置の概略ブロック図を示す。

本開示の複数の実施形態を実施することができるコンピューティングデバイスのブロック図を示す。

以下、添付図面を参照しながら本開示の実施形態について詳細に説明する。添付図面には本開示のいくつかの実施形態が示されているが、本開示は様々な形態によって実現することができ、本明細書に記載された実施形態に限定されるものとして解釈されてはいけなく、むしろ、本開示をより徹底的かつ完全に理解するためにこれらの実施形態が提供されることを理解されたい。本開示の添付図面及び実施形態は例示的な役割を果たすためのものであって、本開示の保護範囲を限定するためのものではないことを理解されたい。

本開示の実施形態の説明において、「含む」という用語及びその類似の用語は非限定的な包含、すなわち、「含むが、それらに限定されない」と理解されるべきである。「基づく」という用語は「少なくとも部分的に基づく」と理解されるべきである。「一実施形態」又は「この実施形態」という用語は「少なくとも１つの実施形態」と理解されるべきである。「第１」、「第２」などの用語は異なる又は同じ対象を指すことができる。以下にはその他にも明示的及び暗示的な定義が含まれ得る。

本明細書で使用されているように、用語「文書」は電子文書とも呼ばれ、テキストを含むあらゆるフォーマットのコンピュータ可読文書を指す。文書の例としては、ハイパーテキストマークアップランゲージ（ＨＴＭＬ）ファイル（ウェブページとも呼ばれる）、ｗｏｒｄ文書、プレゼンテーション文書、ポータブル文書フォーマット（ＰＤＦ）文書、スプレッドシート文書、プレーンテキスト文書などがある。

上述したように、多くのアプリケーションにおいてテキスト間の相関度を確定する必要がある。図１は、従来の技術手段においてテキスト類似度を確定する例示的な環境１００の概略図を示している。環境１００において、コンピューティングデバイス１１０は、２つのテキスト間の相関度を確定するように構成され、文書ライブラリ１２０は、それぞれが対応するテキストを有する文書が複数記憶されて構成される。テキスト１０２「華子の妻は誰ですか？」はユーザが入力した検索クエリ１０２としてコンピューティングデバイス１１０に提供される。コンピューティングデバイス１１０はその後文書ライブラリ１２０からテキスト１０２に関連付けられる（又はマッチングする）テキストを検索する。例えば、コンピューティングデバイス１１０は、文書ライブラリ１２０から文書１３０を取得し、文書１３０の一部、例えば、文章「朱麗倩の夫は劉徳華です」をテキスト１３２として抽出する。次に、コンピューティングデバイス１１０は、テキスト１３２と１０２との相関度を出力１０４として決定する。検索クエリのアプリケーションにおいて、確定された相関度は文書１３０が検索クエリに対する検索結果としてユーザに提示可能であるか否か、及び／又は検索結果における文書１３０の順位付けに影響を与え得る。

多くの相関度確定技術では、テキスト間での文字や単語レベルの共起、すなわち、２つのテキストで同じ文字や単語が出現する場合を主に考える。しかし、このような明示的な文字や単語レベルの情報はテキストの深層意味を捉えることが困難であることから、相関度確定の精度を十分に満足することが困難である。文書の順位付けを考慮したアプリケーションでは、ユーザのジャンプ関係とウェブページの品質とを利用してウェブ類文書を順位付けすることが提案されている（典型的な手法は「ＰａｇｅＲａｎｋ」モデルと呼ばれる）が、ウェブページと検索クエリとの間の相関度が正確に判定されていない。また、深層学習アルゴリズムの発展に伴い、テキストの相関度を算出する問題を分類問題や順位付け問題にモデル化し、様々な特徴を手動で構築するか又はアルゴリズムを利用して深層特徴を学習した後、その特徴に基づいて相関度又はマッチング度合いを確定することも提案されている。しかしながら、特徴を手動で構築することは多大な労力を必要とし、クエリテキストに対する深層理解を達成することが困難であり、単語レベルでの特徴学習も正確なテキスト理解及びマッチング問題への解決にも直面している。

本開示の実施形態によれば、改善されたテキスト相関度確定手法が提出される。この技術案では、相関度確定の精度を高めるために知識ベースが導入されている。具体的には、エンティティ関連付け手段によって２つのテキストを知識ベースにおける対応するエンティティに関連付けし、その後、２つのテキストに対応するエンティティ間のエンティティ相関度に基づいてテキスト間のテキスト相関度を確定する。このような方法により、知識ベースにおける知識要素レベルの相関度によってテキスト相関度の確定を向上させることができる。

以下、本開示の実施形態について図面を参照しながら詳細に説明する。図２は、本開示の実施形態によるテキスト類似度を確定する例示的環境２００の概略図を示している。図１に示される環境１００と比較して、環境２００のコンピューティングデバイス２１０は、テキスト１０２「華子の妻は誰ですか？」と、テキスト１３２「朱麗倩の夫は劉徳華です」のテキスト相関度を確定する際に、さらに予め定義された知識ベース２４０も参照して、テキスト１０２とテキスト１３２との間のエンティティレベルの相関度を確定する。図２の例にテキスト１０２及び１３２の具体的な内容が与えられているが、これはただ解釈や説明をするためのものであることを理解されたい。他の実施形態ではコンピューティングデバイス２１０は任意の２つのテキスト間のテキスト相関度を確定することができる。

理解を容易にするために、まず知識ベース２４０を簡単に紹介する。本明細書で使用される「知識ベース」（ＫＢ）は、「知識グラフ」又は「知識マップ」とも呼ばれ、これらの用語は本明細書で互換的に使用されてもよい。知識ベースは大量の知識の集合である。知識ベースは複数の知識要素を含むことができ、これらの知識要素のうちの２つ以上が知識表現を構成する。知識の例は、例えば、「劉徳華の妻は朱麗倩である」、「劉徳華の職業は歌手である」、「劉徳華の誕生日は１９６１年９月２７日である」等の事実又は現象である。

知識ベースにおいて、知識要素は、エンティティ、エンティティ間の関係、及びエンティティ間の属性を含む。本明細書で記載の「エンティティ」とは、人物、地理的位置、組織、ブランド、職業、日付など、実世界に存在する様々なオブジェクト及び概念を指す。上記の知識の例で、「エンティティ」は、人物「劉徳華」及び「朱麗倩」、職業「歌手」、日付「１９６１．９．２７」を含む。ここで記載の「関係」とは、２つのエンティティ間の関連付けを意味し、例えば、劉徳華と朱麗倩との関係は夫婦である。ここで記載の「属性」とは、エンティティそのものの性質を意味する。人物を例にすると、その属性には職業、誕生日、代表作、年齢、身長、体重、性別などが含まれる。エンティティの属性は時にはエンティティの名詞的関係と見なされることもあり、したがって、知識ベースは個々のエンティティの１つ以上の関係を記述していることになる。

コンピュータの処理及び理解を容易にするために、知識ベースにおける知識はトリプル（ｔｒｉｐｌｅ）の形態で表されてもよく、トリプルは、例えば、第１のエンティティ、関係／属性、第２のエンティティである。例えば、知識「劉徳華の妻は朱麗倩である」はトリプルによって（劉徳華、妻、朱麗倩）と表され得る。本明細書では、妻などのような関係又は属性は「述語」とも呼ばれ、対応する関係又は属性を有する２つのエンティティは「主語」又は「目的語」として機能し得る。１つのエンティティをノードとし、エンティティ間の関係や属性などをエッジとみなすと、多くのトリプルを含んだ知識ベースは膨大な知識マップを形成する。エンティティ、関係／属性等の知識要素を関連付けすることにより、知識ベースから対応する知識を容易に取得することができる。

図２の知識ベース２４０は任意の既存のもの又はこれから開発されるものであってもよく、その例は、Ｆｒｅｅｂａｓｅ、ＤＢｐｅｄｉａ、ＹＡＧＯ、公開情報抽出（ＯｐｅｎＩｎｆｏｒｍａｔｉｏｎＥｘｔｒａｃｔｉｏｎ，ＯｐｅｎＩＥ）、ネバーエンディング言語学習（Ｎｅｖｅｒ−ＥｎｄｉｎｇＬａｎｇｕａｇｅＬｅａｒｎｉｎｇ，ＮＥＬＬ）などを含むが、これらに限定されない。図２にはさらに知識ベース２４０におけるエンティティ「劉徳華」に関連する知識部分２４０が示されており、エンティティ「劉徳華」２０１と他のエンティティとの関係／属性が示されている。例えば、エンティティ「劉徳華」２０１の属性「代表作」２０２が指す映画エンティティ「いますぐ抱きしめたい（原題：旺角卡門）」２０３の関係は代表作であり、これは、知識「劉徳華の代表作はいますぐ抱きしめたいである」ことを示し、エンティティ「劉徳華」２０１と人物エンティティ「朱麗倩」２０５との関係が「夫婦」２０４で、これは、知識「劉徳華と朱麗倩は夫婦関係である」ことを示し、エンティティ「劉徳華」２０１の「職業」属性２０６及び「誕生日」属性２０８は、それぞれエンティティ「歌手」２０７及びエンティティ「１９６１．９．２７」２０９を指し、それぞれ知識「劉徳華の職業は歌手である」、「劉徳華の誕生日は１９６１年９月２７日である」ことを示している。図２に示される知識部分２４０及びその配置は単なる具体的な例示であることを理解されたい。他の例示では、エンティティ「劉徳華」に関連する知識は異なる形式で配置されてもよく、知識ベース２４０は、より多い、より少ない、又は異なる知識、及び／又は他の方式で配置、提示される指示を含んでもよい。

知識ベースでは、区別を容易にするために、異なる知識要素にはそれぞれ対応する識別子（ＩＤ）が割り当てることができ、そのような識別子は対応する知識要素を一意に識別することができる。なお、各々の知識要素は対応する知識要素を示すために１つ又は複数の指称（名称とも呼ぶ）を有することができる。図２の例示的な知識部分２４２では、各々のエンティティ、関係及び属性の単一指称が描かれているが、１つ又は複数の要素は他の指称を有することができる。複数の指称を有する知識要素については、それらの指称は同義語、同じオブジェクトの異なる呼称などであり得る。例えば、エンティティ「劉徳華」について、その指称「劉徳華」の他に、その歌手の他の名称、例えば、ニックネーム「華子」や英文名「ＡｎｄｙＬａｕ」なども該エンティティの指称にすることができる。いくつかの場合によっては、異なる知識要素は同じ指称を有することもあり、例えば、歌手の李娜に対応するエンティティ及びテニス選手の李娜に対応するエンティティはいずれも「李娜」という指称を有する。

知識ベース２４０は任意の記憶システム、記憶デバイス、データベースに記憶され得ることを理解されたい。文書ベース１２０とは別個に示されているが、知識ベース２４０も文書ベース１２０と同じデータベースに格納され得る。知識ベース２４０内の知識は継続的に拡張、削除、修正、及び／又は更新され得る。

本開示の実施形態によれば、コンピューティングデバイス２１０は、テキスト１０２とテキスト１３２との間のテキスト相関度２１４を確定するように構成される。テキスト相関度２１４の確定結果は、例えば、他の機器に提供されて使用又は記憶され、ユーザに提示されてもよい。コンピューティングデバイス２１０は確定されたテキスト相関度２１４をローカルに記憶することもできる。テキスト１０２及び１３２はそれぞれ１つ又は複数の文字、単語などからなる、あらゆるソースに由来するテキストであってもよい。図２に示される例では、テキスト１０２はユーザの検索クエリに含まれ、テキスト１３２は文書１３０の一部又は全部である。このような例では、文書１３０は検索クエリの候補文書であり、コンピューティングデバイス２１０は、文書１３０内のテキスト１３２が検索クエリのテキスト１０２と関連又はマッチングするかどうかを判定するように構成される。確定されたテキスト相関度の大きさは、文書１３０が検索クエリの検索結果としてユーザに返され得るかどうかを判定するために使用されてもよく、また、全ての検索結果における文書１３０の順位を確定するために使用されてもよい。例えば、テキスト１３２が検索クエリのテキスト１０２と相関性が高い場合、検索結果における対応する文書１３０の順位はより上位になり得る。知識ベースの導入により、クエリユーザのニーズをより良く理解することができ、より一致した結果を返すことができる。

いくつかの例では、テキスト１０２は検索クエリ全体を含み、テキスト１３２は文書１３０の１つの段落、１つの文又は他の粒度で分割された文書セグメントを含み得る。文書１３０は文書ライブラリ１２０におけるいずれかの文書であってもよく、コンピューティングデバイス２１０は、テキスト１０２とのテキスト相関度確定を文書１３０の各セグメントに対して実行し、テキスト相関度確定を文書ライブラリ１２０の１つ以上の文書に対して実行してもよい。

検索アプリケーションにおけるテキスト相関度確定のほかに、コンピューティングデバイス２１０は、任意の２つの文書からのテキスト１０２とテキスト１３２との間のテキスト相関度を確定してもよい。例えば、ニュース、ホットスポットプッシュ、又はユーザの興味に基づく推薦などの文書フィードアプリケーションにおいて、２つの文書のいずれかの候補におけるテキスト間の相関度を確定することができる。これらのアプリケーションでは、テキスト１０２及び１３２はいずれも文書からのものであり、例えば、文書の一部（一文又は一段落等）であってもよい。確定されたテキスト相関度又は２つの文書の全体テキスト相関度は、文書フィード時対応する２つの文書の順位を確定するために使用されてもよい。例えば、コンテンツの配信を多様化するために、テキスト相関度が高い文書同士の距離を大きくして、ユーザがより多くの異なる文書を取得できるようにしてもよい。あるいは、必要に応じて、テキスト相関度の高い文書をまとめて提示することもできる。

テキスト１０２及び１３２のソースにかかわらず、これらの２つのテキストの相関度を確定する際に、本開示の実施形態によれば、コンピューティングデバイス２１０は、テキスト１０２（説明を容易にするために本明細書では「第１テキスト」と呼ばれることもある）に関連付けられた知識要素（説明を容易にするために本明細書では「第１組の知識要素」と呼ばれることもある）を知識ベース２４０から決定する。同様に、テキスト１３２について、コンピューティングデバイス２１０は、テキスト１３２（説明を容易にするために本明細書では「第２テキスト」と呼ばれることもある）に関連付けられた知識要素（説明を容易にするために本明細書では「第２組の知識要素」と呼ばれることもある）を知識ベース２４０から決定する。以上説明したように、知識ベースにおける知識要素はエンティティ、エンティティ間の関係、及び／又は属性などを含むことができる。テキスト１０２及び１３２に含まれる内容に応じて、第１組及び／又は第２組の知識要素は１つ以上のエンティティ、エンティティ間の関係、及び／又はエンティティの属性などを含むことができる。

テキストに出現する知識要素を決定するプロセスは知識要素又はエンティティ関連付け、リンク、又はアノテーションとも呼ばれ、テキストにて記述されたあるオブジェクトが知識ベース内の対応する知識要素に実際に対応するかどうかを識別することを目的としている。コンピューティングデバイス２１０は、知識ベース２４０内の知識要素とテキスト１０２及び１３２との間の関連付けを決定するために、様々な関連付け／リンク／アノテーション技術を利用してもよく、本開示の実施形態の範囲はこの点において限定されない。図２の例では、コンピューティングデバイス２１０は、エンティティ関連付けを実行した後、テキスト１０２に出現した「華子」及び「妻」が知識ベース２４０内のエンティティ「劉徳華」２０１及び関係「夫婦」２０４に関連付けられ得ると確定することができる。さらに、テキスト１３２に出現する「朱麗倩」、「夫」、「劉徳華」が知識ベース２４０内のエンティティ「朱麗倩」２０５、関係「夫婦」２０４、及びエンティティ「劉徳華」に関連付けられ得ることが確定され得る。

コンピューティングデバイス２１０は、テキスト１０２に関連する第１組の知識要素と、テキスト１３２に関連する第２組の知識要素との間の知識要素相関度を確定し、少なくとも類似度に基づいてテキスト１０２に対するテキスト１３２のテキスト相関度を確定するように構成される。知識ベースにおける知識要素が合理的に編成され、知識要素の曖昧性の排除、知識要素の関係／属性の抽出などが実現されたので、知識ベースの補助によりテキスト相関度をより正確に確定することができる。これにより、知識要素の類似度がより高い、あるいは相関度がより強い場合には、これらの２つのテキストの相関度もより高いことを示すことができる。

いくつかの実施形態では、知識要素間の知識要素相関度は所定の規則で抽出されたカスタム特徴によって確定されてもよく、及び／又は機械学習の方法によって抽出された深層学習特徴に基づいて確定されてもよい。いくつかの実施形態では、相関度を確定すべきテキストに知識ベース内のあらゆる知識要素が含まれていない場合など、アプリケーションの安定性を確保するために、テキスト相関度はテキスト１０２及び１３２自体に基づいて確定されてもよい。この際、所定の規則によってテキスト１０２、１３２のカスタム特徴を抽出すること、及び／又は機械学習の方法によってテキスト１０２及び１３２の深層学習特徴を決定することも考えられる。

カスタム特徴は、単純な規則に従って決定される、知識要素及び／又はテキストのある態様を示すための特性を指す。深層学習特徴に対して、カスタム特徴は浅層特徴と呼ばれることもある。知識要素に関して、いくつかの実施形態では、テキスト１０２に関連付けられた第１組の知識要素と、テキスト１３２に関連付けられた第２組の知識要素との間の類似度を確定することができる。この類似度は、第１組の知識要素と第２組の知識要素に対する、知識ベース２４０における同じ知識要素（例えば、エンティティ、関係、及び／又は属性）の含有比率、及び／又は同じ知識要素の指称の使用比率を示す。一実施形態では、コンピューティングデバイス２１０は、第１組の知識要素及び第２組の知識要素において、知識ベースにおける同じ識別子を有する知識要素の数を確定することができる。知識要素の識別子は知識要素の指称とは異なって、知識ベース内で知識要素を一意に識別し、したがって、同じ識別子で同じ知識要素を確定することによって、異なる知識要素が同じ指称を有することに起因する相関度確定精度の低下を防止することができる。

次に、コンピューティングデバイス２１０は、知識要素相関度を確定するために、同じ識別子を有する知識要素の数に基づいて２組の知識要素の間の類似度を確定することができる。２組の知識要素の間の類似度は、同じ識別子を有する知識要素の数によって示されてもよく、同じ識別子を有する知識要素の数で示すことができ、第１組の知識要素の総要素数に対する同じ識別子を有する知識要素の数の割合、或いは第２組の知識要素の総要素数に対する同じ識別子を有する知識要素の数の割合、或いは２組の総要素数の和に対する同じ識別子を有する知識要素の数の割合によって示されてもよい。以下は、同じ識別子に基づく知識要素の数と第１組の知識要素における要素数との間の割合に基づいて決定される知識要素間の類似度の一例を示す。

ここで、ｉｄ＿ｑ_ｉは、第１組の知識要素のうちｉ番目の知識要素の識別子（ＩＤ）を示し、第１組の知識要素はｎ個の知識要素を含み、ｉｄ＿ｄ_ｊは、第２組の知識要素のうちｊ番目の知識要素の識別子を示し、第２組の知識要素はｍ個の知識要素を含み、

式（１）は、第１組の知識要素のいずれか１つに対して、同じ識別子を有する知識要素が第２組の知識要素内に存在するかどうかを判定することを示す。そして、知識要素相関度を確定するために、第１組の知識要素のうち、同じ識別子を有する要素の数と第１組の総要素数ｎとの比率が知識要素の類似度を示すために用いられる。２組の知識要素の間の識別子レベルでの類似度は他の方法で確定されてもよいことを理解されたい。

以上は知識要素の一意の識別子を利用して第１組の知識要素及び第２組の知識要素が知識ベース２４０内の同じ要素を指向するかどうかを判定する。選択的に又は追加的に、コンピューティングデバイス２１０は、第１組の知識要素と第２組の知識要素との間の指称の面の類似度を確定することで、知識要素相関度を確定することができる。具体的には、コンピューティングデバイス２１０は、第１組の知識要素に関連付けるためのテキスト１０２の第１組のテキストアイテム、及び第２組の知識要素に関連付けるためのテキスト１３２の第２組のテキストアイテムを識別し、これらの２組のテキストアイテム間のテキスト類似度を確定する。これらのテキストアイテムはテキスト１０２及び１３２から知識ベース２４０内の知識要素にリンクするためのテキストセグメントである。各々のテキストアイテムは１つ以上の文字、単語などを含み得る。例えば、図２の例では、テキスト１０２のテキストアイテムは「華子」、「妻」、テキスト１３２のテキストアイテムは「朱麗倩」、「夫」及び「劉徳華」であり、これらのテキストアイテムはそれぞれ対応する知識要素（例えば、エンティティ、関係又は属性）の指称でもある。コンピューティングデバイス２１０はテキスト類似度レベルに基づいて２組の知識要素の相関度を確定し得る。

テキスト類似度を確定する際に、コンピューティングデバイス２１０は、第１組のテキストアイテムの第１組のテキストベクトル表現を決定し、第２組のテキストアイテムの第２組のテキストベクトル表現を決定し、次いで、第１組のテキストベクトル表現における各々のベクトル表現と第２組のテキストベクトル表現における各々のベクトル表現との間の距離を決定する。テキストアイテムの「ベクトル表現」は、テキストアイテムのベクトル符号化又は埋め込み（ｅｍｂｅｄｄｉｎｇ）とも呼ばれ得る。各テキストアイテムのベクトル表現は、ある次元の複数の数値から構成され得る。異なるテキストアイテムのベクトル表現の次元は同じであってもよいが、含まれる数値は異なる。テキストアイテムのベクトル表現間の距離、差異、又は類似度は、異なるテキストアイテム間の意味的類似度を示してもよい。また、テキストアイテムをベクトル表現にマッピングして処理を行うことにより、言語間の相違を効果的に回避することができ、適用制限を低減することができる。本明細書で言及されるテキストアイテムは、知識ベース２４０内の一部知識要素の指称を指すので、いくつかの実施形態では、知識ベース２４０内の各々の知識要素の１つ又は複数の指称に対応するベクトル表現が事前に定義され得る。コンピューティングデバイス２１０は、指称とベクトル表現との間の所定のマッピング関係に基づいて第１組及び第２組のテキストアイテムのベクトル表現を決定し得る。

いくつかの実施形態では、第１組のテキストベクトル表現に基づいて、該組の各々のテキストベクトル表現と第２組の各々のテキストベクトル表現との間の距離の最大値、平均値又は中央値を確定した後、第１組のテキストベクトル表現のすべてについて確定された最大又は平均距離から平均値をさらに計算するか、又は、最大又は中央値を取って２組のテキストベクトル表現間の類似度を示すものとする。以下の式（２）は、２組のテキストベクトル表現間のテキスト類似度を確定する一例を示す。

ここで、ｍｅｎｔｉｏｎ＿ｑ_ｉは、第１組のテキストアイテムのうちｉ番目のテキストアイテム（第１組の知識要素におけるｉ番目の知識要素の指称にも対応する）のベクトル表現を示し、ｍｅｎｔｉｏｎ＿ｄ_ｊは、第２組のテキストアイテムにおけるｊ番目のテキストアイテム（第２組の知識要素におけるｊ番目の知識要素の指称にも対応する）のベクトル表現を示す。式（２）は、第１組のテキストアイテムのベクトル表現のいずれか１つについて、第２組のテキストアイテムの各々のベクトル表現との間の差を確定した後、最大差値を選択することを示す。第１組のテキストアイテムのすべてのテキストアイテムのベクトル表現について、選択された対応する最大差値の和を統計し、第１組のテキストアイテムの数にて平均を取る。平均して得た値を２組のテキストアイテム間のテキスト類似度として、知識要素相関度の確定に用いる。

上記の議論は、知識要素の同じ識別子及び／又は知識要素に対応するテキストアイテムのテキスト類似度に基づいて知識要素相関度を確定することを説明した。これらの態様の特徴は統計、単純な計算などによって得ることができるので、知識要素のカスタム特徴とすることができる。他の実施形態では、以上に言及されたように、コンピューティングデバイス２１０は、選択的に又は追加的に、機械学習の方法で深層学習特徴を決定してもよい。テキスト１０２及び１３２自体についても同様にカスタム特徴及び深層学習特徴を決定することができる。機械学習手段の導入はモデルのトレーニング及び使用に係わる。これらの例示的な態様を全面的に説明するために、図３を参照しながら説明し、図３は、本開示のいくつかの実施形態による学習ネットワークに基づくテキスト相関度確定のためのシステム３００の概略的なブロック図を示す。

本明細書で使用される用語「学習ネットワーク」は、トレーニングデータから対応する入力と出力との間のマッピング関係を学習可能にされることで、トレーニングが完了した後にトレーニングによって得られたパラメータセットに基づいて与えられた入力を処理して対応する出力を生成するモデルを指す。「学習ネットワーク」は、「ニューラルネットワーク」、「学習モデル」、「ネットワーク」又は「モデル」と呼ばれることもある。これらの用語は本明細書では互換的に使用される。

図３に示されるシステム３００は図２のコンピューティングデバイス２１０内に実現され得る。説明を容易にするために、図２を参照して図３の例示的なアーキテクチャを説明する。システム３００は、学習ネットワーク部分３０２を含み、学習ネットワーク部分３０２の前の処理部分も含む。具体的には、テキスト１０２及び１３２に対して、単語分割モジュール３１０−１及び３１０−２（単語分割モジュール３１０と総称することができる）は、テキスト１０２及び１３２に対してそれぞれ単語分割し、テキストアイテム間が空白で区切られている単語分割結果３１２及び３１４を得るように構成される。テキストの単語分割は現在既存の又は将来開発される様々な単語分割技術を用いて行うことができる。一部の実施形態において、英文字等文字区切り記号を有する言語については、単語分割モジュール３１０を使用しなくてもよい。他の実施形態では、テキスト１０２及び／又はテキスト１３２の各単語又は各文字は、特別な単語分割技術を必要とすることなく、次の層への入力としても使用され得る。本開示の範囲はこの点において限定されない。

システム３００は、テキスト１０２及び１３２を知識ベース２４０内の知識要素にそれぞれ関連付けして、関連付け結果３２２及び３２４を得るように構成された知識要素関連付けモジュール３２０−１及び３２０−２（知識要素管理モジュール３２０と総称することができる）をさらに含み、テキスト１０２が知識ベース２４０内の第１組の知識要素、すなわち、エンティティ２０１及び関係２０４に関連付けられていること、並びに、テキスト１３２が知識ベース２４０内の第２組の知識要素、すなわち、エンティティ２０５、関係２０４及びエンティティ２０１に関連付けられていることをそれぞれ示す。

システム３００は、知識要素管理モジュール３２０によって決定された、第１組の知識要素と第２組の知識要素との間の浅層カスタム特徴に用いられる、カスタム特徴決定モジュール３３０を含み、この浅層カスタム特徴は、第１組の知識要素と第２組の知識要素との間の知識要素相関度を特徴付けるための、識別子レベルにおける類似度及び指称面上のテキスト類似度を含む。これらの両方面の類似度は、例えば、カスタム特徴３３２として、テキスト１０２とテキスト１３２との間のテキスト相関度２１４を確定するための後続の相関度確定モジュール３６０に提供される。

知識要素に関連するカスタム特徴を抽出することに加えて、カスタム特徴決定モジュール３３０は、テキスト１０２及び１３２のカスタム特徴を、浅層テキスト相関度として確定することができる。いくつかの実施形態では、カスタム特徴決定モジュール３３０は、テキスト１０２及び１３２に出現する同じ又は類似の単語の数又は頻度を決定することができる。類似語は、同義語、同じ内容の異なる表現（例えば、略語、異なる言語での表現など）であってもよい。通常、テキスト１０２内の単語がテキスト１３２に多く出現するほど、テキスト１３２とテキスト１０２との相関度が高いことを意味する。いくつかの実施形態では、テキスト１０２及び１３２に出現する同一／類似語の数をカウントした後、該数の、テキスト１０２内の単語の総数との割合、テキスト１３２内の単語の総数との割合などを、同一／類似語が出現する頻度として決定することができる。いくつかの実施形態では、カスタム特徴決定モジュール３３０はまた、テキスト１０２及び／又はテキスト１３２自体の統計情報を決定することができ、これらの統計情報には、テキスト１０２及び／又はテキスト１３２の文字数、単語数、ソース信頼度等、テキスト１０２の分類とテキスト１３２の分類との間の類似度等が含まれるが、これらに限定されない。これらの統計情報及び／又は同一／類似語の数及び／又は頻度はカスタム特徴３３２として後続の相関度確定モジュール３６０に提供され得る。

知識要素及び／又はテキストの深層学習特徴を抽出する前に、通常、知識要素及び／又はテキストをベクトル表現にマッピングする。システム３００は、テキスト１０２に関連付けられた第１組の知識要素（すなわち、関連付けの結果３２２）に対応する第１結合ベクトル表現３４２−１と、テキスト１３２に関連付けられた第２組の知識要素（すなわち、関連付けの結果３２４）に対応する第２結合ベクトル表現３４２−４とをそれぞれ決定するための表現決定モジュール３４０−２及び３４０−４を含む。システム３００は、テキスト１０２の第１テキストベクトル表現３４２−１及びテキスト１３２の第２テキストベクトル表現３４２−３をそれぞれ決定するための、特にテキスト１３２の単語分割結果３１２及び３１４に基づいて、第１テキストベクトル表現３４２−１及び第２テキストベクトル表現３４２−３を決定するための表現決定モジュール３４０−１及び３４０−３を含む。説明の便宜上、表現決定モジュール３４０−１、３４０−２、３４０−３、及び３４０−４は、表現決定モジュール３４０と総称することができる。

通常、ベクトル表現を決定するとき、表現決定モジュール３４０は、所定のマッピング関係に基づいてベクトル表現を決定する。図４は表現決定モジュール３４０の一例を示す。表現決定モジュール３４０は、ホットコーディングモジュール４１０及びベクトル化モジュール４２０を含む。ホットコーディングモジュール４１０は、入力された各々のテキストアイテム（例えば、単語分割結果３１２、３１４内の単語分割後のテキストアイテム、又は関連付け結果３２２、３２４内の各々の知識要素の指称対応テキストアイテム）を、ホットコーディング又はワンホットコーディング（ｏｎｅ−ｈｏｔｃｏｄｅ）にマッピングするように構成される。ワンホットコーディングの次元はデータベース又はコーパス内の異なるテキストアイテムの数に関連し、相応するテキストアイテムに対応する要素は１とマークアップされ、他の要素は０とマークアップされている。

ベクトル化モジュール４２０は、ホットコーディングモジュール４１０によって出力された各テキストアイテムのワンホットコーディングをさらに縮小する。具体的に、ベクトル化モジュール４２０は、入力された知識要素（表現決定モジュール３４０−２及び３４０−４に対して）又はテキストアイテム（表現決定モジュール３４０−１及び３４０−３に対して）とベクトル表現との間の所定のマッピング関係を示して、それぞれの知識要素及び／又はテキストアイテムに対応するワンホットコーディングを所定のベクトル表現にマッピングする、所定のベクトル化モデルとして構成され得る。ベクトル化モジュール４２０は、各々の知識要素又はテキストアイテムに対応するベクトル表現を決定した後、各々の知識要素が対応するテキスト１０２又は１３２内で出現する順位を組み合わせる（例えば、カスケードする）ことができる。例えば、表現決定モジュール３４０−２に関して、知識要素「華子」及び「妻」に対応するベクトル表現を組み合わせて、第１結合ベクトル表現を得ることができる。表現決定モジュール３４０−４に関して、同様に第２結合ベクトル表現を決定することができる。表現決定モジュール３４０−１に関して、単語分割後の単語分割結果３１２内の各テキストアイテムに対応するベクトル表現を、対応するテキスト内のテキストアイテムの順位に従って組み合わせ（例えば、カスケード）して、第１テキストベクトル表現を決定することができる。同様に、表現決定モジュール３４０−１に関して、第２テキストベクトル表現を決定することができる。

いくつかの実施形態では、知識要素のベクトル表現を決定するために使用される表現決定モジュール（例えば、モジュール３４０−２又は３４０−４）、特に、その中のベクトル化モジュール４２０に使用される所定マッピング関係（時には「第１所定マッピング関係」とも呼ぶ）は、テキストの隣接表現を決定するために使用される表現決定モジュール（例えば、モジュール３４０−１又は３４０−３）内のベクトル化モジュール４２０に使用される所定マッピング関係（時には「第２所定マッピング関係」とも呼ぶ）と異なってもよい。

いくつかの実施形態では、第１所定マッピング関係は知識要素レベルでのベクトル化を実現し、知識要素からベクトル表現へのマッピングを実現して、知識ベース２４０内の同じ識別子を有する知識要素がその知識要素の指称（例えば、テキスト内の対応するテキストアイテム）にかかわらず同じベクトル表現にマッピングされるようにする。いくつかの実施形態において、第１所定マッピング関係は、知識ベース２４０内の知識要素の主語、述語、目的語（ＳＰＯ）情報に基づいて決定され得る。具体的には、ＴｒａｎｓＥモデルを用いて第１所定マッピング関係をモデル化することができ、該モデルは、知識要素のＳＰＯ関係が成立するような、例えば、Ｓ＋Ｐ＝Ｏと表される方法でモデル化する。ＴｒａｎｓＥモデルの入力は、ある知識要素の主語（Ｓ）のベクトル表現と述語（Ｐ）のベクトル表現であり、出力は目的語（Ｏ）のベクトル表現である。モデルトレーニングは、Ｓ及びＰのベクトル表現がＯのベクトル表現のみに等しくなるようにすることを目的とする。モデルを継続してトレーニングすることにより、各知識要素を対応するベクトル表現にマッピングすることができる第１マッピング関係を決定することができる。

いくつかの実施形態において、第２所定マッピング関係も知識ベース２４０内の知識要素のＳＰＯ情報に基づいて決定することができる。第２所定マッピング関係は、テキストアイテムからベクトル表現へのマッピングを実現するため、例えば、連続単語袋詰めモデル（ｃｏｎｔｉｎｕｏｕｓｂａｇ−ｏｆ−ｗｏｒｄｓＭｏｄｅｌ，ＣＢＯＷモデル）などによって決定することができる。ＣＢＯＷモデルの入力は、中心テキストアイテムのコンテキストテキストアイテムのワンホットコーディングであり、出力は該中心テキストアイテムのワンホットコーディングである。コンテキストテキストアイテムの区画は所定の単語ウィンドウによって限定される。いくつかの実施形態において、ＳＰＯ情報を考慮することにより、中心テキストアイテムとはＳＰＯ関係を有するコンテキストテキストアイテムと中心テキストアイテムとの間の距離は、例えば最大で１つのテキストアイテム距離のように短い。したがって、所定単語ウィンドウを１とすることができる。知識要素のＳＰＯ情報を利用することで、同様の関係を有する知識要素のベクトル表現をより近づける目的を実現することができる。

以上に与えられたのはベクトル表現決定のいくつかの例示的な実施形態のみであることを理解されたい。他の実施形態では、知識要素及びテキストアイテムのためのベクトル表現が他の方法で決定されてもよい。いくつかの実施形態において、知識要素及びテキストアイテムのベクトル表現は同じマッピング関係を用いて決定され得る。この点において、本開示の実施形態は限定されない。

表現決定モジュール３４０によって、テキスト１０２に対応するテキストベクトル表現３４２−１、結合ベクトル表現３４２−２がそれぞれ特徴抽出モジュール３５０−１、３５０−２に提供され、テキスト１３２に対応するテキストベクトル表現３４２−３、結合ベクトル表現３４２−２及び３４２−４がそれぞれ特徴抽出モジュール３５０−３、３５０−４に提供される。説明を容易にするために、特徴抽出モジュール３５０−１、３５０−２、３５０−３、３５０−４を特徴抽出モジュール３５０と総称してもよい。４つの特徴抽出モジュール３５０は、それぞれ対応する特徴表現から特徴３５２−１、３５２−２、３５２−３、及び３５２−４（特徴３５２と総称する）を抽出する。これらの特徴は、トレーニング済み特徴抽出モジュール３５０がトレーニングによって得られたパラメータに基づいて、ベクトル表現を処理した後に決定される特徴表現であり、これらの特徴表現は、対応する知識要素及び／又はテキストアイテムにおけるテキスト相関度の確定に役立つ特徴情報に注目するのに役立つものである。

特徴抽出モジュール３５０の一例が図５に示されている。特徴抽出モジュール３５０は、１つ以上の再帰型ニューラルネットワーク（ＲＮＮ）層５１２を含む第１ネットワーク部分５１０を含み得る。ＲＮＮ層の使用は、テキスト内の語順を捕捉するのに役立つ。例えば、「謝霆鋒の息子は誰ですか」、「謝霆鋒は誰の息子ですか」という２つのテキストに含まれるテキストアイテムは同じであるが、表す意味は全く異なり、これは、語順によるテキストの意味の変化を区別するのを助けるためのＲＮＮを必要とする。特徴抽出モジュール３５０は、第１ネットワーク部分５１０によって抽出された中間表現５１４の処理を継続して、特徴５２８を出力するための第２ネットワーク部分５２０をさらに含むことができる。第２ネットワーク部分５２０は、全体的な特徴表現能力を向上させるために、１つ又は複数の深い畳み込み（ＤＮＮ）層を含み得る。図５には、第２ネットワーク部分５２０における３つのＤＮＮ層５２２、５２４、及び５２６が示されている。各ネットワーク層は、特徴関数及び関連パラメータに基づいて入力を処理し、出力を次のネットワーク層に提供するための対応する処理ユニット（ニューロンとも呼ばれる）を１組含み得る。

特徴抽出モジュール３５０は、テキスト特徴抽出の目的を達成するように任意の方法で構成され得ることを理解されたい。図５には、特徴抽出モジュール３５０の具体例が１つのみ示されている。他の実施形態では、特徴抽出モジュール３５０は異なる方法で配置されてもよく、例えば、第１部分５１０と第２部分５２０の位置は互いに交換されてもよく、より多くのＲＮＮ層、ＤＮＮ層、他のネットワーク層を含んでもよく、又は１つ以上のＲＮＮ層、ＤＮＮ層等を含まなくてもよい。

いくつかの実施形態では、テキスト自体に対する特徴抽出のため（すなわち、単語分割結果３１２及び３１４のベクトル表現に対する特徴抽出のため）の特徴抽出モジュール３５０−１及び３５０−３のパラメータセットは共有することができ、すなわち、同じネットワーク構成及びパラメータセットの値を用いることができる。いくつかの実施形態において、知識要素を特徴抽出するため（すなわち、単語分割結果３２２及び３２４のベクトル表現を特徴抽出するため）の特徴抽出モジュール３５０−２及び３５０−４のパラメータセットは共有することができ、すなわち、同じネットワーク構成及びパラメータセットの値を用いる。いくつかの実施形態において、特徴抽出モジュール３５０−１、３５０−３は、知識要素とテキストアイテムの表現、用語等との相違を考慮して、特徴抽出モジュール３５０−２、３５０−４のパラメータセットと共有されない、すなわち、パラメータセットの値がそれぞれトレーニングされる。このとき、これらの特徴抽出モジュールのネットワーク構成（例えば、ネットワーク層の類似、数、接続方法など）は同一であってもよく異なっていてもよい。当然ながら、いくつかの実現形態では、４つの特徴抽出モジュール３５０は同じパラメータセットを有する値としてトレーニングされ得る。

続けて図３を参照し、各特徴抽出モジュール３５０によって決定された特徴３５２は相関度確定モジュール３６０に提供される。相関度確定モジュール３６０は各々の特徴抽出モジュール３５０と共に学習ネットワーク３０２を構成する。カスタム特徴決定モジュール３３０によって決定された知識要素及び／又はテキスト自体に関する浅層特徴３３２は、テキスト１０２とテキスト１３２との間のテキスト相関度を確定するために、特徴３５２と共に使用され得る。カスタム特徴決定モジュール３３０からの特徴３３２は、相関度確定モジュール３６０の入力として、特徴３５２と接続／カスケードされ得る。いくつかの実施形態において、相関度確定モジュール３６０は、テキスト１０２とテキスト１３２との間のテキスト相関度１０４を確定するために、例えばｓｏｆｔｍａｘ関数に基づいて入力（すなわち、カスケード済み特徴）を処理してもよい。いくつかの実施形態において、相関度確定モジュール３６０によって出力されるテキスト相関度１０４は、テキスト１３２がテキスト１０２とマッチングする又は関連している度合いを示してもよく、及び／又は、これら２つのテキストがどの程度マッチング／関連していないかを示してもよい。知識要素に基づいて取得された特徴／類似度などは、知識要素レベルでのテキスト１０２と１３２の相関度を特徴付けることができる。知識要素相関度が高いほどテキスト類似度が高いことを示すことができる。

一部の実施形態では、テキスト相関度のタスクのために、学習ネットワーク３０２は、各々のモジュールのパラメータセットの値を決定するためにトレーニングされる必要がある。トレーニングプロセスの目的は、学習ネットワークのパラメータセットが初期値から常に最適化され、一定の収束条件（すなわち、学習目標）を達成することである。学習ネットワーク３０２のトレーニングはコンピューティングデバイス２１０によって実現されてもよく、又は、コンピューティングデバイス２１０の使用のために、コンピューティングデバイス２１０以外の他のデバイスによって学習ネットワーク３０２をトレーニングしてもよい。

トレーニングプロセスにおいて、ポジティブサンプル及びネガティブサンプルは知識ベース２４０又は他の知識ベースにおける知識を用いて生成してもよく、ポジティブサンプルは、知識ベース２４０における知識のためのクエリ及び正しい知識のためのテキスト表現であってもよく、ネガティブサンプルは、対応するクエリ及びエラー又は関連せずに示されたテキスト表現であってもよい。トレーニングプロセスにおいて、パラメータセットの共有が必要な特徴抽出モジュール３５０に対して、パラメータ更新を同期化して行うことができる。

図３は、テキスト自体と知識要素のいずれに対してカスタム特徴計算と深層学習特徴抽出を行う例を示している。いくつかの実施形態では、図３の１つ以上のモジュールは省略されてもよく、例えば、テキスト１０２及び／又は１３２に対してカスタム特徴計算又は深層特徴抽出が実施されなくてもよく、対応する処理モジュールは省略されてもよい。

図６は、本開示のいくつかの実施形態によるテキスト相関度を確定する方法６００のフローチャートを示す。方法６００は図２のコンピューティングデバイス２１０によって実現され得る。説明を容易にするために、方法６００は図２を参照して説明する。特定の順序で示されているが、方法６００のいくつかのステップは示されているものとは異なる順序で、又は並列的に実行され得ることを理解されたい。この点において本開示の実施形態は限定されない。

ステップ６１０で、コンピューティングデバイス２１０は、予め定義された知識ベースから第１テキストに関連付けられる第１組の知識要素と、第２テキストに関連付けられる第２組の知識要素とを識別する。知識ベースは、知識要素から構成される知識表現を含む。ステップ６２０で、コンピューティングデバイス２１０は、第１組の知識要素と第２組の知識要素との間の知識要素相関度を確定する。ステップ６３０で、コンピューティングデバイス２１０は、少なくとも知識要素相関度に基づいて、第１テキストに対する第２テキストのテキスト相関度を確定する。

いくつかの実施形態では、第１テキストは検索クエリを含み、第２テキストは候補文書の少なくとも一部を含み、相関度は、検索クエリに対するクエリ結果における候補文書の順位を決定するために使用される。

いくつかの実施形態では、第１組の知識要素又は第２組の知識要素は、知識ベース内のエンティティ、エンティティ間の関係及びエンティティの属性のうちの少なくとも１つを含む。

いくつかの実施形態では、知識要素相関度を確定することは、第１組の知識要素及び第２組の知識要素において、知識ベース内に同じ識別子を有する知識要素の数を決定すること、並びに、同じ識別子を有する知識要素の数に基づいて知識要素相関度を確定することを含み、ここで、知識要素の識別子は知識ベース内において知識要素を一意に識別する。

いくつかの実施形態では、知識要素相関度を確定することは、第１テキストにおいて第１組の知識要素に関連付けるための第１組のテキストアイテムと、第２テキストにおいて第２組の知識要素に関連付けるための第２組のテキストアイテムとの間のテキスト類似度を確定すること、及びテキスト類似度に基づいて知識要素相関度を確定することとを含む。

いくつかの実施形態では、知識要素相関度を確定することはさらに、第１組の知識要素に対応する第１結合ベクトル表現及び第２組の知識要素に対応する第２結合ベクトル表現を決定することと、第１結合ベクトル表現の第１特徴及び第２結合ベクトル表現の第２特徴を抽出することと、さらに第１特徴及び第２特徴に基づいて知識要素相関度を確定することとを含む。

いくつかの実施形態では、第１結合ベクトル表現及び第２結合ベクトル表現を決定することは、知識要素とベクトル表現との間の第１所定マッピング関係に基づいて、第１組の知識要素の第１組のベクトル表現及び第２組の知識要素の第２組のベクトル表現を決定し、第１組の知識要素及び第２組の知識要素のうち知識ベース内の同じ識別子を有する知識要素が同じベクトル表現にマッピングされることと、第１組の知識要素が第１テキスト内で出現する順序に従って第１組のベクトル表現を組み合わせることによって、第１結合ベクトル表現を決定することと、第２組の知識要素が第２テキスト内で出現する順序に従って第２組のベクトル表現を組み合わせることによって、第２結合ベクトル表現を決定することとを含む。

いくつかの実施形態において、第１所定マッピング関係は知識ベース内の知識要素の主語、述語、目的語（ＳＰＯ）情報に基づいて決定される。

いくつかの実施形態において、テキスト相関度を確定することはさらに、テキストアイテムとベクトル表現との間の第２所定マッピング関係に基づいて、第１テキストに対応する第１テキストベクトル表現及び第２テキストに対応する第２テキストベクトル表現を決定することと、第１テキストベクトル表現の第３特徴及び第２テキストベクトル表現の第４特徴を抽出することと、さらに第３特徴及び第４特徴に基づいてテキスト相関度を確定することとを含む。

いくつかの実施形態では、第２所定マッピング関係は、テキストアイテムが知識ベースにおいて関連付けられる知識要素の主語、述語、目的語（ＳＰＯ）情報に基づいて決定される。

図７は、本開示の実施形態によるテキスト相関度を確定するための装置７００の概略ブロック図を示す。装置７００は、図２のコンピューティングデバイス２１０に含まれてもよく、又はコンピューティングデバイス２１０として実現されてもよい。図７に示すように、装置７００は、知識要素から構成される知識表現を含む予め定義された知識ベースから、第１テキストに関連付けられる第１組の知識要素と、第２テキストに関連付けられる第２組の知識要素とを識別するように構成された知識要素関連付けモジュール７１０を含む。装置７００は、第１組の知識要素と第２組の知識要素との間の知識要素相関度を確定するように構成された要素相関度確定モジュール７２０をさらに含む。装置７００は、少なくとも知識要素相関度に基づいて、第２テキストの第１テキストに対するテキスト相関度を確定するように構成されたテキスト相関度確定モジュール７３０をさらに含む。

いくつかの実施形態では、要素相関度確定モジュール７２０は、第１組の知識要素及び第２組の知識要素のうち、知識ベース内で同じ識別子を有する知識要素の数を決定するように構成された同じ識別子モジュールと、同じ識別子を有する知識要素の数に基づいて、知識要素相関度を確定するように構成されている識別子に基づく相関度確定モジュールとを含み、ここで、知識要素の識別子は知識ベース内において知識要素を一意に識別する。

いくつかの実施形態では、要素相関度確定モジュール７２０は、第１テキストにおいて第１組の知識要素に関連付けるための第１組のテキストアイテムと、第２テキストにおいて第２組の知識要素に関連付けるための第２組のテキストアイテムとのテキスト類似度を確定するように構成されるテキスト類似度確定モジュールと、テキスト類似度に基づいて知識要素相関度を確定するように構成される類似度に基づく相関度確定モジュールとを含む。

いくつかの実施形態では、要素相関度確定モジュール７２０はさらに、第１組の知識要素に対応する第１結合ベクトル表現と第２組の知識要素に対応する第２結合ベクトル表現とを決定するように構成された第１表現決定モジュールと、第１結合ベクトル表現の第１特徴及び第２結合ベクトル表現の第２特徴を抽出するように構成される第１特徴抽出モジュールと、さらに第１特徴及び第２特徴に基づいて知識要素相関度を確定するように構成される特徴に基づく相関度確定モジュールとを含む。

いくつかの実施形態では、表現決定モジュールは、知識要素とベクトル表現との間の第１所定マッピング関係に基づいて、第１組の知識要素の第１組のベクトル表現及び第２組の知識要素の第２組のベクトル表現を決定し、第１組の知識要素及び第２組の知識要素のうち知識ベース内の同じ識別子を有する知識要素が同じベクトル表現にマッピングされるように構成された個別表現決定モジュールと、第１組のベクトル表現を、第１組の知識要素が第１テキスト内で出現する順位で結合することによって、第１結合ベクトル表現を決定するように構成された第１結合モジュールと、第２組のベクトル表現を、第２組の知識要素が第２テキスト内で出現する順位で結合することによって、第２結合ベクトル表現を決定するように構成される第２結合モジュールとを含む。

いくつかの実施形態において、第１所定マッピング関係が知識ベース内の知識要素の主語、述語、目的語（ＳＰＯ）情報に基づいて決定される。

いくつかの実施形態では、テキスト相関度確定モジュール７３０はさらに、テキストアイテムとベクトル表現との第２所定マッピング関係に基づいて、第１テキストに対応する第１テキストベクトル表現、及び第２テキストに対応する第２テキストベクトル表現を決定するように構成される第２表現決定モジュールと、第１テキストベクトル表現の第３特徴と、第２テキストベクトル表現の第４特徴とを抽出するように構成される第２特徴抽出モジュールと、さらに第３特徴及び第４特徴に基づいて、テキスト相関度を確定するように構成される特徴に基づく相関度確定モジュールとを含む。

図８は、本開示の実施形態を実施するのに適用される例示的な機器８００の概略ブロック図を示す。機器８００は、図２のコンピューティングデバイス２１０を実現するのに適用され得る。図に示されるように、機器８００は、読み出し専用メモリ（ＲＯＭ）８０２に記憶されたコンピュータプログラム命令、又は記憶ユニット８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたコンピュータプログラム命令に基づいて、様々な適切な動作及び処理を実行することができるコンピューティングユニット８０１を備える。ＲＡＭ８０３には、機器８００の操作に必要な様々なプログラム及びデータがさらに記憶されてもよい。コンピューティングユニット８０１、ＲＯＭ８０２及びＲＡＭ８０３はバス８０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース８０５もバス８０４に接続されている。

機器８００中のＩ／Ｏインターフェース８０５に接続されている複数の部品として、キーボード、マウスなどの入力ユニット８０６と、様々なタイプの表示装置、スピーカーなどの出力ユニット８０７と、磁気ディスク、コンパクトディスクなどの記憶ユニット８０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット８０９が含まれる。通信ユニット８０９は、機器８００がインターネットなどのコンピュータネットワーク及び／又は各種の電気通信ネットワークを介して他の機器と情報／データを交換することを可能にする。

コンピューティングユニット８０１は、処理及び計算機能を有する様々な汎用及び／又は専用処理コンポーネントであってもよい。コンピューティングユニット８０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。コンピューティングユニット８０１は前述した各方法及び処理、例えば、方法６００を実行する。例えば、いくつかの実施形態において、方法６００はコンピュータソフトウェアプログラムとして実現されることができ、機械可読媒体、例えば、記憶ユニット８０８に有形に含まれている。一部の実施形態において、コンピュータプログラムの一部又は全部は、ＲＯＭ８０２、及び／又は通信ユニット８０９を経由して機器８００上にロード及び／又はインストールすることができる。コンピュータプログラムは、ＲＡＭ８０３にロードされてコンピューティングユニット８０１により実行されるとき、前述した方法６００の１つ又は複数のステップを実行することができる。選択可能に、その他実施形態において、コンピューティングユニット８０１はその他任意の適切な方法で（例えば、ファームウェアを介して）方法６００を実行するように構成することができる。

本明細書で上述された機能は、少なくとも部分的に１つ又は複数のハードウェアロジック部材で実行することができる。例えば、使用可能な模式的なタイプのハードウェアロジック部材は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）などを含むが、これらに限定されない。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラマブル言語の任意の組み合わせを利用してプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、特定用途向けコンピュータ又はその他のプログラマブルデータ処理装置のプロセッサ又は制御装置に提供されることができ、プログラムコードがプロセッサ又は制御装置により実行される場合には、フローチャート、及び／又はブロック図に規定された機能／操作が実施される。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、独立したソフトウェアパッケージとして部分的に機械上で実行されて、部分的にリモートマシン上で実行されたり、又は完全にリモートマシン又はサーバーで実行されることができる。

本開示の文脈において、機械可読媒体は、有形タイプの媒体であることができ、命令実行システム、装置又は機器によって使用されるか、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含む又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であることができる。機械可読媒体は、電子、磁気、光学、電磁、赤外線又は半導体システム、装置、又は機器、又は前述した内容の任意の適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例は、１本又は複数のワイヤによる電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光学記憶装置、磁気記憶装置、又は前述した内容の任意の適切な組み合わせを含むことができるが、これらに限定されない。

また、特定の順序で各動作を説明したが、これはこのような動作が図示された特定の順序又はシーケンスで実行されることを要求したり、所望の結果を取得するために図示されたすべての動作が実行されることを要求すると理解してはならない。一定の環境において、マルチタスクと並列処理は有利であることができる。同様に、上記説明に複数の具体的な実現の詳細が含まれているが、これらは本開示の範囲への限定と解釈してはならない。個別の実施形態の文脈で説明されたいくつかの特徴を組み合わせて単一の実現形態に実現されることができる。逆に、単一の実現形態の文脈で説明された各種の特徴も個別に又は任意の適切なサブセットの形式で複数の実現形態に実現されることもできる。

構造の特徴及び／又は方法のロジックの動作に固有の言語を使用して本主題を説明したが、特許請求の範囲に限定された主題は、必ずしも前述した特定の特徴又は動作に限定されるべきではないことを理解すべきである。逆に、前述した特定の特徴又は動作は、単に特許請求の範囲を実現する例示的な形式である。

Claims

知識要素からなる知識表現を含む予め定義された知識ベースから、第１テキストに関連付けられる第１組の知識要素と、第２テキストに関連付けられる第２組の知識要素とを識別するステップと、
前記第１組の知識要素及び第２組の知識要素のうち、前記知識ベースにおいて同じ識別子を有する知識要素の数を確定するステップであって、知識要素の識別子は前記知識ベースにおいて前記知識要素を一意に識別する、ステップと、
同じ識別子を有する前記知識要素の数に基づいて、前記第１組の知識要素と前記第２組の知識要素との間の知識要素相関度を確定するステップと、
少なくとも前記知識要素相関度に基づいて、前記第１テキストに対する前記第２テキストのテキスト相関度を確定するステップとを含む、テキスト相関度を確定するためのコンピュータ実施方法。
前記第１テキストは検索クエリを含み、前記第２テキストは候補文書の少なくとも一部を含み、前記知識要素相関度は、前記検索クエリに対するクエリ結果における前記候補文書の順位の決定に用いられる、請求項１に記載の方法。
前記第１組の知識要素又は前記第２組の知識要素は、前記知識ベースにおけるエンティティ、前記エンティティ間の関係、及び前記エンティティの属性のうちの少なくとも１つを含む、請求項１に記載の方法。
前記方法は、
前記第１テキストにおいて前記第１組の知識要素に関連付けるための第１組のテキストアイテムと、前記第２テキストにおいて前記第２組の知識要素に関連付けるための第２組のテキストアイテムとのテキスト類似度を確定するステップと、
前記テキスト類似度に基づいて前記知識要素相関度を確定するステップとをさらに含む、請求項１に記載の方法。
前記方法は、
前記第１組の知識要素に対応する第１結合ベクトル表現及び前記第２組の知識要素に対応する第２結合ベクトル表現を決定するステップと、
前記第１結合ベクトル表現の第１特徴及び前記第２結合ベクトル表現の第２特徴を抽出するステップと、
さらに前記第１特徴及び前記第２特徴に基づいて前記知識要素相関度を確定するステップとをさらに含む、請求項１に記載の方法。
前記第１結合ベクトル表現及び前記第２結合ベクトル表現を決定するステップは、
知識要素とベクトル表現との間の第１所定マッピング関係に基づいて、前記第１組の知識要素の第１組のベクトル表現、及び前記第２組の知識要素の第２組のベクトル表現を決定するステップであって、前記第１組の知識要素及び前記第２組の知識要素のうち、前記知識ベースにおける同じ識別子を有する知識要素が同じベクトル表現にマッピングされるステップと、
前記第１テキストで現れる前記第１組の知識要素の順位によって前記第１組のベクトル表現を組み合わせることにより、前記第１結合ベクトル表現を決定するステップと、
前記第２テキストで現れる前記第２組の知識要素の順位によって前記第２組のベクトル表現を組み合わせることにより、前記第２結合ベクトル表現を決定するステップとを含む、請求項５に記載の方法。
前記第１所定マッピング関係が前記知識ベースにおける知識要素の主語、述語、目的語（ＳＰＯ）情報に基づいて決定される、請求項６に記載の方法。
前記テキスト相関度を確定するステップはさらに、
テキストアイテムとベクトル表現との間の第２所定マッピング関係に基づいて、前記第１テキストに対応する第１テキストベクトル表現と、前記第２テキストに対応する第２テキストベクトル表現とを決定するステップと、
前記第１テキストベクトル表現の第３特徴及び前記第２テキストベクトル表現の第４特徴を抽出するステップと、
さらに前記第３特徴及び前記第４特徴に基づいて前記テキスト相関度を確定するステップとを含む、請求項１に記載の方法。
前記第２所定マッピング関係は、テキストアイテムが前記知識ベースにおいて関連付けられる知識要素の主語、述語、目的語（ＳＰＯ）情報に基づいて決定される、請求項８に記載の方法。
知識要素からなる知識表現を含む予め定義された知識ベースから、第１テキストに関連付けられる第１組の知識要素と、第２テキストに関連付けられる第２組の知識要素とを識別するように構成された知識要素関連付けモジュールと、
前記第１組の知識要素と前記第２組の知識要素との間の知識要素相関度を確定するように構成された要素相関度確定モジュールと、
少なくとも前記知識要素相関度に基づいて、前記第１テキストに対する前記第２テキストのテキスト相関度を確定するように構成されたテキスト相関度確定モジュールとを含み、
前記要素相関度確定モジュールは、
前記第１組の知識要素及び第２組の知識要素のうち、前記知識ベースにおいて同じ識別子を有する知識要素の数を確定するように構成された同識別子モジュールであって、知識要素の識別子は前記知識ベースにおいて前記知識要素を一意に識別する、同識別子モジュールと、
同じ識別子を有する前記知識要素の数に基づいて、前記知識要素相関度を確定するように構成された識別子に基づく相関度確定モジュールとを含む、テキスト相関度を確定するための装置。
前記第１テキストは検索クエリを含み、前記第２テキストは候補文書の少なくとも一部を含み、前記知識要素相関度は、前記検索クエリに対するクエリ結果における前記候補文書の順位の決定に用いられる、請求項１０に記載の装置。
前記第１組の知識要素又は前記第２組の知識要素は、前記知識ベースにおけるエンティティ、前記エンティティ間の関係、及び前記エンティティの属性のうちの少なくとも１つを含む、請求項１０に記載の装置。
前記要素相関度確定モジュールは、
前記第１テキストにおいて前記第１組の知識要素に関連付けるための第１組のテキストアイテムと、前記第２テキストにおいて前記第２組の知識要素に関連付けるための第２組のテキストアイテムとのテキスト類似度を確定するように構成されたテキスト類似度確定モジュールと、
前記テキスト類似度に基づいて前記知識要素相関度を確定するように構成された類似度に基づく相関度確定モジュールとをさらに含む、請求項１０に記載の装置。
前記要素相関度確定モジュールは、
前記第１組の知識要素に対応する第１結合ベクトル表現及び前記第２組の知識要素に対応する第２結合ベクトル表現を決定するように構成された第１表現決定モジュールと、
前記第１結合ベクトル表現の第１特徴及び前記第２結合ベクトル表現の第２特徴を抽出するように構成された第１特徴抽出モジュールと、
さらに前記第１特徴及び前記第２特徴に基づいて前記知識要素相関度を確定するように構成された特徴に基づく相関度確定モジュールとをさらに含む、請求項１０に記載の装置。
前記表現決定モジュールは、
知識要素とベクトル表現との間の第１所定マッピング関係に基づいて、前記第１組の知識要素の第１組のベクトル表現、及び前記第２組の知識要素の第２組のベクトル表現を決定するように構成された個別表現決定モジュールであって、前記第１組の知識要素及び前記第２組の知識要素のうち、前記知識ベースにおける同じ識別子を有する知識要素が同じベクトル表現にマッピングされている個別表現決定モジュールと、
前記第１テキストで現れる前記第１組の知識要素の順位によって前記第１組のベクトル表現を組み合わせることにより、前記第１結合ベクトル表現を決定するように構成される第１組み合わせモジュールと、
前記第２テキストで現れる前記第２組の知識要素の順位によって前記第２組のベクトル表現を組み合わせることにより、前記第２結合ベクトル表現を決定するように構成される第２組み合わせモジュールとを含む、請求項１４に記載の装置。
前記第１所定マッピング関係が、前記知識ベースにおける知識要素の主語、述語、目的語（ＳＰＯ）情報に基づいて決定される、請求項１５に記載の装置。
前記テキスト相関度確定モジュールは、
テキストアイテムとベクトル表現との間の第２所定マッピング関係に基づいて、前記第１テキストに対応する第１テキストベクトル表現と、前記第２テキストに対応する第２テキストベクトル表現とを決定するように構成される第２表現決定モジュールと、
前記第１テキストベクトル表現の第３特徴及び前記第２テキストベクトル表現の第４特徴を抽出するように構成された第２特徴抽出モジュールと、
さらに前記第３特徴及び前記第４特徴に基づいて前記テキスト相関度を確定するように構成される特徴に基づく相関度確定モジュールとをさらに含む、請求項１０に記載の装置。
１つ又は複数のプロセッサと、
１つ又は複数のプログラムを格納するための記憶装置であって、前記１つ又は複数のプログラムが前記１つ又は複数のプロセッサによって実行されるとき、前記１つ又は複数のプロセッサに請求項１〜９のいずれか１項に記載の方法を実現させる記憶装置とを含む、電子機器。
コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、
前記プログラムがプロセッサにより実行されるとき、請求項１〜９のいずれか１項に記載の方法を実現するコンピュータ可読記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１〜９のいずれか１項に記載の方法を実現する、コンピュータプログラム。