JP2020187419A - エンティティリンキング方法、情報処理装置およびエンティティリンキングプログラム - Google Patents

エンティティリンキング方法、情報処理装置およびエンティティリンキングプログラム Download PDF

Info

Publication number
JP2020187419A
JP2020187419A JP2019089939A JP2019089939A JP2020187419A JP 2020187419 A JP2020187419 A JP 2020187419A JP 2019089939 A JP2019089939 A JP 2019089939A JP 2019089939 A JP2019089939 A JP 2019089939A JP 2020187419 A JP2020187419 A JP 2020187419A
Authority
JP
Japan
Prior art keywords
node
edge
predicate
knowledge graph
edges
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019089939A
Other languages
English (en)
Inventor
成司 岡嶋
Seiji Okajima
成司 岡嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019089939A priority Critical patent/JP2020187419A/ja
Priority to US16/866,657 priority patent/US11625617B2/en
Publication of JP2020187419A publication Critical patent/JP2020187419A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Discrete Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】エンティティリンキングの精度を維持しつつ、ナレッジグラフの情報量を削減する。【解決手段】情報処理装置1は、ナレッジグラフのエンティティと、テキスト中の単語とを対応付けるエンティティリンキングを実行する際に、ナレッジグラフの中の遷移元の第1ノードに接続されるエッジの数と、遷移先の第2ノードに接続されるエッジの数とに基づいて、ナレッジグラフのうち予め設定された次数の第2ノードと接続されたエッジから削除すべきエッジを特定する。そして、情報処理装置1は、該特定したエッジを削除したナレッジグラフを生成し、生成したナレッジグラフについて、削除されたエッジで接続されていた第1ノードおよび第2ノードを、削除されていないエッジで接続された第3ノードを介して接続し、テキスト中の単語と、当該単語と対応付けたエンティティをユーザに提示する。【選択図】図11

Description

本発明は、エンティティリンキング方法などに関する。
自然言語処理では、単語を知識情報である知識ベースとリンクさせる手法としてエンティティリンキングという手法が知られている(例えば、特許文献1〜4)。エンティティリンキングの手法では、テキストの中の単語と、知識ベースであるナレッジグラフの中のエンティティとを対応付ける。
エンティティリンキングの手順の一例は以下のとおりである。エンティティリンキングを行う装置は、知識ベースの各エンティティ(ノード)を事前に何らかの方法でスコアリングする。装置は、入力される入力文から、単語を抽出する。装置は、知識ベースから、単語と各ノードとの組をスコアリングし、最もスコアの高い組の単語とノードとを対応付ける。
特開2012−43294号公報 特開2017−4097号公報 特開2014−229047号公報 特開2014−241122号公報
Knowledge-rich Word Sense Disambiguation Rivaling Supervised Systems[2010]
しかしながら、エンティティリンキングでは、ナレッジグラフのエッジが多いと、スコア計算の際に、参照すべき情報が多くなるため、計算量が増大する。そこで、計算量を減少させるために、ナレッジグラフから、スコアを利用してスコアの低い順からエッジを削除することが考えらえる。ところが、ナレッジグラフから、スコアを利用してエッジを削除すると、本来接続されているべきノード間のエッジが削除されてしまうことがある。次数の大きなノードに接続しているエッジは、スコアが低いため、削除されやすい。エッジが削除されると、他のノードを介した接続があれば、スコア計算への影響は軽微であるが、他のノードを介した接続がないと、スコア計算への影響は大きい。
本発明は、1つの側面では、エンティティリンキングの精度を維持しつつ、ナレッジグラフの情報量を削減することを目的とする。
1つの態様では、エンティティリンキング方法は、ナレッジグラフのエンティティと、テキスト中の単語とを対応付けるエンティティリンキング方法であって、前記ナレッジグラフの中の遷移元の第1ノード(主語)に接続されるエッジの数と、遷移先(目的語)の第2ノードに接続されるエッジの数とに基づいて、前記ナレッジグラフのうち予め設定された次数の第2ノードと接続されたエッジから削除すべきエッジを特定し、該特定したエッジを削除したナレッジグラフを生成し、削除されたエッジで接続されていた第1ノードおよび第2ノードを、削除されていないエッジで接続された第3ノードを介して、前記テキスト中の単語と、当該単語と対応付けたエンティティをユーザに提示する、処理をコンピュータが実行する。
1実施態様によれば、ナレッジグラフの情報量を削減するが、エンティティリンキングの精度を維持できる。
図1は、実施例に係る情報処理装置の機能構成を示すブロック図である。 図2は、述語削減の考え方を説明する図(1)である。 図3は、述語削減の考え方を説明する図(2)である。 図4は、実施例に係る述語スコア計算の一例を示す図である。 図5は、実施例に係る統合スコア計算の一例を示す図である。 図6は、実施例に係るクラスタリングの一例を示す図である。 図7Aは、実施例に係る削減数割当の一例を示す図(1)である。 図7Bは、実施例に係る削減数割当の一例を示す図(2)である。 図8は、実施例に係る削減対象選択の一例を示す図である。 図9は、実施例に係る削減した結果の一例を示す図である。 図10は、実施例に係るエンティティリンキング実行の一例を示す図である。 図11は、実施例に係る情報処理のフローチャートの一例を示す図である。 図12は、実施例に係る削減数割当処理のフローチャートの一例を示す図である。 図13は、クラスタリングしないでスコア順に削減した結果の参考例を示す図である。 図14は、クラスタリングしないでスコア順に削減した場合のエンティティリンキング実行の参考例を示す図である。 図15は、エンティティリンキングプログラムを実行するコンピュータの一例を示す図である。 図16は、エンティティリンキングの参考例を示す図である。 図17は、エンティティリンキングの課題の概念を示す図である。
以下に、本願の開示するエンティティリンキング方法、情報処理装置およびエンティティリンキングプログラムの実施例を図面に基づいて詳細に説明する。なお、本発明は、実施例により限定されるものではない。
まず、知識ベースを利用したエンティティリンキングの課題の概念を、図16および図17を参照して説明する。図16は、エンティティリンキングの参考例を示す図である。図16に示すように、入力文と知識ベースとが示されている。知識ベースは、ナレッジグラフで示されている。ナレッジグラフは、各エンティティをノードとし、エンティティ間のスコアをエッジの重みとして持つグラフのことをいう。つまり、エンティティリンキングでは、入力文の中のメンション(単語)と、知識ベースであるナレッジグラフのエンティティ(ノード)とを、エッジの重みを利用して対応付ける。
ここで、知識ベースでは、1つの情報は、主語、述語、目的語の3つの組で表現される。例えば、符号G0で示すように、主語として「武蔵中原」、述語として「locatedIn」、目的語として「川崎市」が1つの情報として表現される。そして、それぞれの情報は、グラフとして可視化される。なお、主語と目的語はノードで表わされ、述語はエッジで表わされる。
そして、エンティティリンキングでは、入力文が、例えば「友達と東横線で小杉に行って、グランツリーで買い物した」の場合には、入力文の中の「東横線」と、知識ベースの「東急東横線」のノードとがスコアを利用して対応付けられる。入力文の中の「小杉」と、知識ベースの「武蔵小杉」のノードとがスコアを利用して対応付けられる。入力文の中の「グランツリー」と、知識ベースの「グランツリー」のノードとがスコアを利用して対応付けられる。
図17は、エンティティリンキングの課題の概念を示す図である。図17に示すように、ナレッジグラフから、スコアを利用してエッジを削除すると、本来接続されているべきノード間のエッジが削除されてしまうことがある。特に、次数の大きいノードに接続されているエッジは、スコアが低いため、エッジが削除されやすい。例えば、図17では、「武蔵小杉」のノードは、他のノードと比べて次数が大きいとする。すると、「武蔵小杉」のノードに接続されている「南武線」、「武蔵中原」、「川崎市」に遷移するそれぞれのエッジが削除されやすい。また、「東急東横線」、「グランツリー」、「東急スクエア」や「タワープレイス」に遷移するそれぞれのエッジが削除されやすい。
スコアが小さいいずれかのエッジが削除される場合、ノード間が直接的ではないが間接的にエッジで接続される場合には、スコア計算への影響は軽微である。ところが、スコアが小さいいずれかのエッジが削除される場合、ノード間が直接的にも間接的にもエッジで接続されなくなる場合がある。かかる場合には、スコア計算への影響は大きい。すなわち、エンティティリンキングの精度が落ちてしまう。例えば、図17では、「武蔵小杉」のノードから「南武線」のノードに遷移するエッジが削除されても、「武蔵小杉」→「武蔵中原」→「南武線」とノード間が間接的にエッジで接続されるため、スコア計算への影響は軽微である。ところが、「武蔵小杉」のノードから「東急東横線」のノードに遷移するエッジが削除されると、ノード間が直接的にも間接的にもエッジで接続されなくなるので、スコア計算への影響は大きい。すなわち、エンティティリンキングの精度が落ちてしまう。つまり、ナレッジグラフの情報量を減少させるためにエッジを削除すると、エンティティリンキングの精度が落ちるという課題がある。
そこで、エンティティリンキングの精度を維持しつつ、ナレッジグラフの情報量を削減する情報処理装置について、以下に説明する。
[情報処理装置の構成]
図1は、実施例に係る情報処理装置の機能構成を示すブロック図である。図1に示すように、情報処理装置1は、述語スコア計算部11、統合スコア計算部12、クラスタリング部13、削減数割当部14、削減対象選択部15およびエンティティリンキング実行部16を有する。これらの機能部は、図示しない制御部に含まれる。制御部は、CPU(Central Processing Unit)などの電子回路に対応する。そして、制御部は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する。なお、述語スコア計算部11〜削減対象選択部15は、特定部の一例である。エンティティリンキング実行部16は、生成部および提示部の一例である。
また、情報処理装置1は、知識ベース21、述語スコア記憶部22、統合スコア記憶部23およびクラスタ情報記憶部24を有する。これらの機能部は、図示しない記憶部に含まれる。記憶部は、例えば、RAM、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。
知識ベース21は、ナレッジグラフの情報を示す。なお、知識ベース21は、予め記憶部に記憶される。
述語スコア記憶部22は、知識ベース21に含まれる述語のスコアを記憶する。なお、述語スコア記憶部22は、述語スコア計算部11によって生成される。
統合スコア記憶部23は、知識ベース21に含まれる述語(エッジ)の統合スコアを記憶する。なお、統合スコア記憶部23は、統合スコア計算部12によって生成される。
クラスタ情報記憶部24は、エンティティを述語の入次数に応じてクラスタリングした結果を示すクラスタ情報を記憶する。すなわち、クラスタ情報は、ナレッジグラフ内のノードをエッジの入力の次数に応じてクラスタリングした結果を示す情報である。なお、クラスタ情報記憶部24は、クラスタリング部13によって生成される。
述語スコア計算部11は、知識ベース21内の述語のスコアを計算する。すなわち、述語スコア計算部11は、目的語から見た場合の述語の重要度をスコアとして計算する。例えば、述語スコア計算部11は、述語pが目的語oへ遷移する確率をP(o)とすると、目的語oへ遷移する述語pのスコアHop(p)を、以下の式(1)のように計算する。なお、述語は、ナレッジグラフのエッジに対応する。
Figure 2020187419
すなわち、述語pのスコアHop(p)は、述語pが目的語oへの遷移が起こる場合の情報量として計算される。述語pが目的語oへ遷移する確率P(o)が高い程、情報量が低くなる。つまり、情報量が示す情報は曖昧となる。ここで、確率P(o)が高いとは、述語pがあったとき、述語pの遷移先を示す目的語は、oのことが多いことを表す。つまり、目的語oは、述語pの遷移元を示す主語を判別するための情報として役に立ちにくい。したがって、目的語から見た場合に、主語を判別するための情報として役に立ちにくい述語を、削除すべき述語とする。
図2は、述語削減の考え方を説明する図(1)である。図2に示すように、目的語oが「川崎市」である場合に、目的語としての「川崎市」へ述語pとしての「locatedIn」が遷移する確率が高い程、情報量が低くなる。すなわち、「川崎市」である目的語oは、「locatedIn」である述語pの遷移元を示すそれぞれのエンティティ(主語)を判別するための情報として役に立ちにくい。情報量が低く、情報量が示す情報が曖昧であるからである。そこで、目的語から見た場合の情報量が低い述語を削除するようにしたい。なお、かかる述語削減の考え方だけでノードが削除されても、ノード(エンティティ)間が直接的および間接的にエッジで接続されなくなる場合があるので、エンティティリンキングの精度が落ちてしまうという課題を解決するには、不十分である。
図1に戻って、統合スコア計算部12は、知識ベース21内の述語の統合スコアを計算する。すなわち、統合スコア計算部12は、主語から見た場合の述語の相対的な重要度を統合スコアとして計算する。例えば、統合スコア計算部12は、主語sの出次数をn、主語sの目的語oに対応する述語pのスコアをHopn(p)とし、sを主語とする述語pの統合スコアI(p)を、以下の式(2)のように計算する。ここでいう出次数とは、遷移元の主語のノードから遷移する(出る)エッジの次数のことをいう。
Figure 2020187419
すなわち、述語pの統合スコアI(p)は、主語から見た場合のそれぞれの述語の重要性を反映するために、述語pの重要度(スコア)の値を、述語pに対応する主語が持つn個の述語の重要度(スコア)の値の平均値で割ったものとして計算される。述語pの重要度(スコア)の値を、n個の述語の重要度(スコア)の平均値で割ることにより、n個の述語の中で、相対的に述語の重要度(スコア)の値が大きい述語pの統合スコアI(p)が大きくなる。つまり、n個の述語の中で、相対的に述語の重要度(スコア)の値が大きい述語pは、主語から見て主語が持つ他の述語よりも主語を判別するための情報として役に立ちやすい。主語から見た場合に相対的に重要度が高いからである。そこで、実施例では、主語から見た場合に、相対的に重要度が低い述語を削除すべき述語とする。
図3は、述語削減の考え方を説明する図(2)である。図3に示すように、主語sから述語p、p、p、pがそれぞれの目的語o、o,o、oに遷移しているとする。述語pの重要度(スコア)は、Hop1(p)であるとする。述語pの重要度(スコア)は、Hop2(p)であるとする。述語pの重要度(スコア)は、Hop3(p)であるとする。述語pの重要度(スコア)は、Hop4(p)であるとする。ここで、述語pの重要度(スコア)と、述語pの重要度(スコア)とが、他の述語pとpより低いとする。すると、述語pと、述語pは、主語sを特定するうえで、相対的に重要度が低い。そこで、主語から見た場合の相対的に重要度が低い述語を削除するようにしたい。なお、かかる述語削減の考え方だけでノードが削除されても、図2で説明した述語削減の考え方と同様に、ノード(エンティティ)間が直接的および間接的にエッジで接続されなくなる場合があるので、エンティティリンキングの精度が落ちてしまうという課題を解決するには、不十分である。
図1に戻って、クラスタリング部13は、目的語のエンティティを、当該目的語へ遷移する述語の入次数に応じてクラスタリングする。ここでいう入次数とは、遷移先(目的語)のノードに遷移する(入力する)エッジの次数のことをいう。
削減数割当部14は、各クラスタに遷移する述語集合に対して、全体の述語削減数に応じた削減数を割り当てる。すなわち、削減数割当部14は、クラスタごとに、クラスタに含まれる遷移先(目的語)のノードに遷移するエッジの集合に対して、エッジの削減数を割り当てる。
例えば、削減数割当部14は、削減数を割り当てるクラスタから、述語の入次数が0または1のクラスタを除外する。述語の入字数が0または1のクラスタにエッジの削減数が割り当てられると、本来接続されているべきノード間のエッジが確実に削除されることとなり、ノード間が直接的にも間接的にもエッジで接続されなくなるからである。また、削減数割当部14は、述語の入次数が2以上のクラスタに遷移する述語集合に対して、予め定められた全体の述語削減数に応じた削減数を割り当てる。一例として、まず、削減数割当部14は、各クラスタに対して、割り当て数として「1」を割り当てる。そして、削減数割当部14は、各クラスタに対して、割り当て数/クラスタに遷移する述語の数を計算する。そして、削減数割当部14は、計算した結果が最も小さいクラスタに対して、割り当て数を1加算する。そして、削減数割当部14は、全体の割り当て数が予め定められた全体の述語削減数になるまで、繰り返し、各クラスタに対する割り当ての計算を継続する。
削減対象選択部15は、削減対象の述語を選択する。例えば、削減対象選択部15は、クラスタごとのエッジの集合について、統合スコアの小さい順に、クラスタに割り当てられた削減数分のエッジを削減対象のエッジとして選択する。すなわち、削減対象選択部15は、クラスタごとのエッジの集合について、述語の重要度の低いエッジから順番に、クラスタに割り当てられた削減数分選択する。そして、削減対象選択部15は、ナレッジグラフ内の削減対象のエッジを削除する。
エンティティリンキング実行部16は、エンティティリンキングを実行する。例えば、エンティティリンキング実行部16は、入力文の中の単語と、新たに生成されたナレッジグラフのエンティティとを対応付ける。つまり、エンティティリンキング実行部16は、削除されたエッジで接続されていた主語のノードと述語のノードを、削除されていないエッジで接続されたノードを介して接続し、入力文中の単語と、生成したナレッジグラフのノードとを対応付ける。
また、エンティティリンキング実行部16は、入力文中の単語と、対応付けたエンティティとをユーザに提示する。
ここで、実施例に係るエンティティリンキングの一例を、図4〜図9を参照して説明する。なお、図4〜図9では、知識ベースとして「武蔵小杉」周辺の地域に関するナレッジグラフを用いて説明する。
[述語スコア計算の一例]
図4は、実施例に係る述語スコア計算の一例を示す図である。図4に示すように、述語スコア計算部11は、ナレッジグラフの全ての述語(エッジ)pについて、述語pが目的語oへ遷移する場合の情報量Hop(p)を計算する。例えば、述語pが「line」であり、目的語oが「東急東横線」である場合に、述語pが目的語oへ遷移する場合の情報量Hop(p)は、以下のように計算される。ナレッジグラフの中で、述語が「line」である総数は、7個である。目的語である「東急東横線」へ遷移する述語「line」は、2個である。述語pが「line」であり、目的語oが「東急東横線」である場合の述語pが目的語oへ遷移する確率P(o)は、2/7である。したがって、かかる場合の述語pが目的語oへ遷移する場合の情報量Hop(p)は、式(1)により、1.81と計算される。同様に、全ての述語pについて、述語pが目的語oへ遷移する場合の情報量Hop(p)が、式(1)により、計算される。計算された情報量Hop(p)は、それぞれ述語と対応付けて、「H」の横に記述されている。
[統合スコア計算の一例]
図5は、実施例に係る統合スコア計算の一例を示す図である。図5に示すように、統合スコア計算部12は、ナレッジグラフの全ての述語(エッジ)pについて、主語sの出次数をn、主語sの目的語oに対応する述語pのスコアをHopn(p)とし、sを主語とする述語pの統合スコアI(p)を計算する。例えば、主語sが「武蔵小杉」であり、目的語o(o)が「東急東横線」である場合に、sを主語とする述語pの統合スコアI(p)は、以下のように計算される。主語sが「武蔵小杉」である場合の主語sの出次数nは、目的語「東急東横線」(oまたはo)への遷移、目的語「新丸子」(o)への遷移、目的語「中原区」(o)への遷移、目的語「武蔵中原」(o)への遷移、目的語「南武線」(o)への遷移を示す「5」である。主語sが「武蔵小杉」である場合の主語sの目的語「東急東横線」(oまたはo)に対応する述語「line」(pまたはp)の情報量(スコア)は、「1.81」である。主語sが「武蔵小杉」である場合の主語sの目的語「新丸子」(o)に対応する述語「next」(p)の情報量(スコア)は、「2.32」である。主語sが「武蔵小杉」である場合の主語sの目的語「中原区」(o)に対応する述語「locatedIn」(p)の情報量(スコア)は、「0.58」である。主語sが「武蔵小杉」である場合の主語sの目的語「武蔵中原」(o)に対応する述語「next」(p)の情報量(スコア)は、「2.32」である。主語sが「武蔵小杉」である場合の主語sの目的語「南武線」(o)に対応する述語「line」(p)の情報量(スコア)は、「0.49」である。したがって、かかる場合の述語pの統合スコアI(p)は、式(2)により、1.20と計算される。すなわち、述語pの統合スコアI(p)は、述語pの情報量(スコア)の値を、主語sが持つn個の述語の情報量(スコア)の値の平均値で割った値と計算される。同様に、全ての述語pについて、統合スコアI(p)が、式(2)により、計算される。計算された統合スコアI(p)は、それぞれ述語と対応付けて、「I」の横に記述されている。
[クラスタリングの一例]
図6は、実施例に係るクラスタリングの一例を示す図である。図6に示すように、クラスタリング部13は、目的語のエンティティを、当該目的語へ遷移する述語の入次数に応じてクラスタリングする。ここでは、目的語としての「南武線」は、当該目的語へ遷移する述語の入次数として「5」を示す。目的語としての「中原区」は、当該目的語へ遷移する述語の入次数として「4」を示す。目的語としての「高津区」、「武蔵中原」、「新丸子」、「東急東横線」は、当該目的語へ遷移する述語の入次数として「2」を示す。目的語としての「津田山」、「武蔵溝の口」、「武蔵新城」、「武蔵小杉」は、当該目的語へ遷移する述語の入次数として「1」を示す。目的語としての「等々力競技場」は、当該目的語へ遷移する述語の入次数として「0」を示す。したがって、入次数が「5」を示す目的語「南武線」が1つのクラスタ(Aクラスタ)とされる。入次数が「4」を示す目的語「中原区」が1つのクラスタ(Bクラスタ)とされる。入次数が「2」を示す目的語「高津区」、「武蔵中原」、「新丸子」、「東急東横線」が1つのクラスタ(Cクラスタ)とされる。入次数が「1」を示す目的語「津田山」、「武蔵溝の口」、「武蔵新城」、「武蔵小杉」が1つのクラスタ(Dクラスタ)とされる。入次数が「0」を示す目的語「等々力競技場」が1つのクラスタ(Eクラスタ)とされる。
[削減数割当の一例]
図7Aおよび図7Bは、実施例に係る削減数割当の一例を示す図である。図7Aに示すように、全体の述語の削減数は、「10」であるとする。クラスタAに遷移する述語集合の数は「5」である。クラスタBに遷移する述語集合の数は「4」である。クラスタCに遷移する述語集合の数は「8」である。クラスタDに遷移する述語集合の数は「4」である。クラスタEに遷移する述語集合の数は「0」である。
このような状況の下、削減数割当部14は、削減数を割り当てるクラスタA〜Eから、述語の入次数が「0」または「1」のクラスタを除外する。ここでは、入次数が「1」のDクラスタが除外される。入次数が「0」のEクラスタが除外される。
クラスタを除外後、まず、削減数割当部14は、クラスタA〜Cに対して、割り当て数として「1」を割り当てる(a1)。残りの述語の削減数は、「7」となる。
そして、削減数割当部14は、各クラスタに対して、割り当て数/クラスタに遷移する述語の数を計算し、計算した結果が最も小さいクラスタに対して、割り当て数を1加算する。ここでは、Aクラスタが1/5、Bクラスタが1/4、Cクラスタが1/8であるので、最も小さいクラスタCに対して、割り当て数が1加算される(a2)。残りの述語の削減数は、「6」となる。
同様に、削減数割当部14は、各クラスタに対して、割り当て数/クラスタに遷移する述語の数を計算し、計算した結果が最も小さいクラスタに対して、割り当て数を1加算する。ここでは、Aクラスタが1/5、Bクラスタが1/4、Cクラスタが2/8であるので、最も小さいクラスタAに対して、割り当て数が1加算される(a3)。残りの述語の削減数は、「5」となる。
同様に、削減数割当部14は、各クラスタに対して、割り当て数/クラスタに遷移する述語の数を計算し、計算した結果が最も小さいクラスタに対して、割り当て数を1加算する。ここでは、Aクラスタが2/5、Bクラスタが1/4、Cクラスタが2/8であるので、最も小さいクラスタB,Cに対して、割り当て数が1加算される(a4)。残りの述語の削減数は、「3」となる。
同様に、削減数割当部14は、各クラスタに対して、割り当て数/クラスタに遷移する述語の数を計算し、計算した結果が最も小さいクラスタに対して、割り当て数を1加算する。ここでは、Aクラスタが2/5、Bクラスタが2/4、Cクラスタが3/8であるので、最も小さいクラスタCに対して、割り当て数が1加算される(a5)。残りの述語の削減数は、「2」となる。
同様に、削減数割当部14は、各クラスタに対して、割り当て数/クラスタに遷移する述語の数を計算し、計算した結果が最も小さいクラスタに対して、割り当て数を1加算する。ここでは、Aクラスタが2/5、Bクラスタが2/4、Cクラスタが4/8であるので、最も小さいクラスタAに対して、割り当て数が1加算される(a6)。残りの述語の削減数は、「1」となる。
同様に、削減数割当部14は、各クラスタに対して、割り当て数/クラスタに遷移する述語の数を計算し、計算した結果が最も小さいクラスタに対して、割り当て数を1加算する。ここでは、Aクラスタが3/5、Bクラスタが2/4、Cクラスタが4/8であるので、最も小さいクラスタB,Cのうち割り当て数が少ないクラスタに対して、割り当て数が1加算される(a7)。残りの述語の削減数は、「0」となる。
そして、削減数割当部14は、残りの述語の削減数が「0」になったので、削減数の割り当てを終了する。この結果、Aクラスタについて、割り当てられた削減数は「3」となる。Bクラスタについて、割り当てられた削減数は「3」となる。Cクラスタについて、割り当てられた削減数は「4」となる。
[削減対象選択の一例]
図8は、実施例に係る削減対象選択の一例を示す図である。図8に示すように、削減対象選択部15は、クラスタに遷移する述語集合(エッジの集合)ごとに、統合スコアが小さい順に、割り当てられた削減数に応じて述語集合に属する述語を削除する。ここでは、Aクラスタに割り当てられた削減数は「3」である。したがって、統合スコアが小さい順に、Aクラスタに遷移する述語集合の中から、「武蔵小杉」から「南武線」への述語、「武蔵溝の口」から「南武線」への述語、「武蔵中原」から「南武線」への述語が削除される。Bクラスタに割り当てられた削減数は「3」である。したがって、統合スコアが小さい順に、Bクラスタに遷移する述語集合の中から、「武蔵小杉」から「中原区」への述語、「新丸子」から「中原区」への述語、「武蔵新城」から「中原区」への述語が削除される。Cクラスタに割り当てられた削減数は「4」である。したがって、統合スコアが小さい順に、Cクラスタに遷移する述語集合の中から、「等々力競技場」から「新丸子」への述語、「等々力競技場」から「武蔵中原」への述語、「武蔵溝の口」から「高津区」への述語、「東急東横線」から「武蔵小杉」への述語が削除される。
[削減した結果の一例]
図9は、実施例に係る削減した結果の一例を示す図である。図9に示すように、削減対象選択部15は、削減対象の述語(エッジ)を削除したナレッジグラフを生成する。生成された新たなナレッジグラフが、図9に示されるグラフである。
[エンティティリンキング実行の一例]
図10は、実施例に係るエンティティリンキング実行の一例を示す図である。図10に示すように、入力文は、「南武線で中原駅に行った」であるとする。すると、エンティティリンキング実行部16は、入力文の中の単語と、新たに生成したナレッジグラフのエンティティとを対応付ける。なお、エンティティリンキングの方法は、どのような方法であっても構わない。例えば、入力文の中の単語(メンション)「南武線」は、ナレッジグラフ(知識ベース)の「南武線」と完全一致するので、入力文の中の単語「南武線」とナレッジグラフの「南武線」とが対応付けられる。入力文の中の単語(メンション)「中原駅」のナレッジグラフ(知識ベース)の中の対応候補として「武蔵中原」と「中原区」とがある。かかる場合には、「南武線」へのパスが短い「武蔵中原」が選択される。すなわち、入力文の中の単語「中原駅」とナレッジグラフの「武蔵中原」とが対応付けられる。つまり、エンティティリンキング実行部16は、例えば「武蔵中原」と「南武線」との間の削除されたエッジで接続されていた主語のノードと述語のノードを、削除されていない「武蔵新城」のノードを介して接続し、入力文中の単語と、生成したナレッジグラフのノードとを対応付ける。
[情報処理のフローチャート]
図11は、実施例に係る情報処理のフローチャートの一例を示す図である。図11に示すように、述語スコア計算部11は、知識ベースの情報を取得する(ステップS11)。述語スコア計算部11は、知識ベースのすべての述語について、スコアHを計算する(ステップS12)。例えば、述語スコア計算部11は、述語pが目的語oへ遷移する確率をP(o)とすると、目的語oへ遷移する述語pのスコアHop(p)を、式(1)に基づいて計算する。
そして、統合スコア計算部12は、知識べースのすべての述語について、(統合)スコアIを計算する(ステップS13)。例えば、統合スコア計算部12は、主語sの出次数をn、主語sの目的語oに対応する述語pのスコアをHopn(p)とし、sを主語とする述語pの統合スコアI(p)を、式(2)に基づいて計算する。
そして、クラスタリング部13は、知識ベースの目的語のエンティティを入次数によってクラスタリングする(ステップS14)。
そして、削減数割当部14は、各クラスタに遷移する述語集合に対して、予め定められた全体の述語削減数に応じた削減数を割り当てる(ステップS15)。なお、かかる削減数割当処理のフローチャートは、後述する。
そして、削減対象選択部15は、述語集合ごとに、(統合)スコアIの小さい順に、割り当てられた削減数に応じて、述語集合に属する述語を削除し、新たな知識ベース(ナレッジグラフ)を生成する(ステップS16)。そして、エンティティリンキング実行部16は、入力文の中の単語と、新たに生成された知識ベース(ナレッジグラフ)のエンティティとを対応付けるエンティティリンキングを実行する(ステップS17)。
[削減数割当処理のフローチャート]
図12は、実施例に係る削減数割当処理のフローチャートの一例を示す図である。図12に示すように、削減数割当部14は、予め定められた全体の述語削減数Nを取得する(ステップS21)。削減数割当部14は、述語の入次数が2以上のクラスタについて、そのクラスタに遷移する述語の数Mを取得する(ステップS22)。
そして、削減数割当部14は、複数のクラスタのうち[割り当て数]/Mが最も小さいクラスタに対して削減数を1割り当てる(ステップS23)。なお、削減数割当部14は、すべての値が同じである場合には、入次数が最も大きいクラスタに1割り当てる。また、削減数割当部14は、複数の値が同じである場合には、複数のクラスタに1割り当てる。
そして、削減数割当部14は、全体の述語削減数Nから割り当てた削減数分を減算する(ステップS24)。
そして、削減数割当部14は、全体の述語削減数Nが0より大きいか否かを判定する(ステップS25)。全体の述語削減数Nが0より大きいと判定した場合には(ステップS25;Yes)、削減数割当部14は、さらに削減数を割り当てるために、ステップS23に移行する。
一方、全体の述語削減数Nが0より大きくないと判定した場合には(ステップS25;No)、削減数割当部14は、削減数割当処理を終了する。
[クラスタリングしないで削減した場合の参考例]
なお、クラスタリングしないで削減した場合の参考例を、図13および図14を参照して説明する。図13は、クラスタリングしないでスコア順に削減した結果の参考例を示す図である。図13に示すように、統合スコアIの低いエッジから順番に、予め定められた全体の述語削減数分のエッジが、削減対象のエッジとして選択される。そして、ナレッジグラフ内の削減対象のエッジが削除される。生成された新たなナレッジグラフが、図13に示されるグラフである。ここでは、「南武線」に接続するエッジが失われている。「中原区」に接続するエッジが失われている。
図14は、クラスタリングしないでスコア順に削減した場合のエンティティリンキング実行の参考例を示す図である。図14に示すように、入力文は、「南武線で中原駅に行った」であるとする。すると、入力文の中の単語と、新たに生成したナレッジグラフのエンティティとを対応付けるエンティティリンキングが実行される。ここでは、入力文の中の単語(メンション)「南武線」は、ナレッジグラフ(知識ベース)の「南武線」と完全一致するので、入力文の中の単語「南武線」とナレッジグラフの「南武線」とが対応付けられる。入力文の中の単語(メンション)「中原駅」の、ナレッジグラフ(知識ベース)の中の対応候補として「武蔵中原」と「中原区」とがある。ところが、かかる場合には、「南武線」と「中原区」にそれぞれ接続するエッジが失われているため、入力文の「中原駅」が「武蔵中原」と対応付けられるのか、「中原区」と対応付けられるのかが不明である。すなわち、エンティティリンキングのために重要なエッジが失われているため、エンティティリンキングの精度が下がる。
[実施例の効果]
上記実施例によれば、情報処理装置1は、ナレッジグラフ内の遷移元の第1ノードに接続されるエッジの数と、遷移先の第2ノードに接続されるエッジの数とに基づいて、ナレッジグラフのうち予め設定された次数の第2ノードと接続されたエッジから削除すべきエッジを特定する。情報処理装置1は、該特定したエッジを削除したナレッジグラフを生成する。情報処理装置1は、削除されたエッジで接続されていた第1ノードおよび第2ノードを、削除されていないエッジで接続された第3ノードを介して接続し、テキスト中の単語と、当該単語と対応付けたエンティティをユーザに提示する。かかる構成によれば、情報処理装置1は、ナレッジグラフからエッジを削除することでナレッジグラフの情報量を削減するが、エンティティリンキングの精度を維持することが可能である。
また、上記実施例によれば、情報処理装置1は、遷移先の第2ノードに遷移するエッジの次数に応じて第2ノードをクラスタリングする。情報処理装置1は、該クラスタリングされた各クラスタに遷移するエッジの集合に対して、予め定められた全体のエッジの削減数に応じた削減数を割り当てる。そして、情報処理装置1は、エッジの集合ごとに、割り当てられた削減数分の削除すべきエッジを特定する。かかる構成によれば、情報処理装置1は、第2ノードへのエッジの入次数を用いて第2ノードをクラスタリングし、各クラスタに対してエッジの削減数を割り当てることで、スコアの小さい順に削除すべきエッジを特定する場合と比べて、エンティティリンキングの精度を維持しながら、ナレッジグラフの情報量を削減することが可能となる。
また、上記実施例によれば、情報処理装置1は、さらに、エッジの集合の中から、重要度の小さい順に、割り当てられた削減数分のエッジを削減すべきエッジとして特定する。かかる構成によれば、情報処理装置1は、ナレッジグラフ全体の中からスコアの小さい順に削除すべきエッジを特定する場合と比べて、エンティティリンキングの精度を維持しながら、ナレッジグラフの情報量を削減することが可能となる。
[その他]
なお、図示した情報処理装置1の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、情報処理装置1の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、削減数割当部14を、削減数を割り当てるクラスタを除外する除外部と、除外したクラスタ以外のクラスタに削減数を割り当てる割当部とに分離しても良い。また、述語スコア計算部11と、統合スコア計算部12とを統合してスコア計算部にしても良い。また、知識ベース21、述語スコア記憶部22、統合スコア記憶部23等を記憶する記憶部を情報処理装置1の外部装置としてネットワーク経由で接続するようにしても良い。
また、上記実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図1に示した情報処理装置1と同様の機能を実現するエンティティリンキングプログラムを実行するコンピュータの一例を説明する。図15は、エンティティリンキングプログラムを実行するコンピュータの一例を示す図である。
図15に示すように、コンピュータ200は、各種演算処理を実行するCPU203と、ユーザからのデータの入力を受け付ける入力装置215と、表示装置209を制御する表示制御部207とを有する。また、コンピュータ200は、記憶媒体からプログラムなどを読取るドライブ装置213と、ネットワークを介して他のコンピュータとの間でデータの授受を行う通信制御部217とを有する。また、コンピュータ200は、各種情報を一時記憶するメモリ201と、HDD(Hard Disk Drive)205を有する。そして、メモリ201、CPU203、HDD205、表示制御部207、ドライブ装置213、入力装置215、通信制御部217は、バス219で接続されている。
ドライブ装置213は、例えばリムーバブルディスク210用の装置である。HDD205は、エンティティリンキングプログラム205aおよびエンティティリンキング処理関連情報205bを記憶する。
CPU203は、エンティティリンキングプログラム205aを読み出して、メモリ201に展開し、プロセスとして実行する。かかるプロセスは、情報処理装置1の各機能部に対応する。エンティティリンキング処理関連情報205bは、知識ベース21、述語スコア記憶部22、統合スコア記憶部23およびクラスタ情報記憶部24に対応する。そして、例えばリムーバブルディスク210が、エンティティリンキングプログラム205aなどの各情報を記憶する。
なお、エンティティリンキングプログラム205aについては、必ずしも最初からHDD205に記憶させておかなくても良い。例えば、コンピュータ200に挿入されるフレキシブルディスク(FD)、CD−ROM(Compact Disk Read Only Memory)、DVD(Digital Versatile Disk)、光磁気ディスク、IC(Integrated Circuit)カードなどの「可搬用の物理媒体」に当該プログラムを記憶させておく。そして、コンピュータ200がこれらからエンティティリンキングプログラム205aを読み出して実行するようにしても良い。
1 情報処理装置
11 述語スコア計算部
12 統合スコア計算部
13 クラスタリング部
14 削減数割当部
15 削減対象選択部
16 エンティティリンキング実行部
21 知識ベース
22 述語スコア記憶部
23 統合スコア記憶部
24 クラスタ情報記憶部

Claims (5)

  1. ナレッジグラフのエンティティと、テキスト中の単語とを対応付けるエンティティリンキング方法であって、
    前記ナレッジグラフの中の遷移元の第1ノードに接続されるエッジの数と、遷移先の第2ノードに接続されるエッジの数とに基づいて、前記ナレッジグラフのうち予め設定された次数の第2ノードと接続されたエッジから削除すべきエッジを特定し、
    該特定したエッジを削除したナレッジグラフを生成し、
    削除されたエッジで接続されていた第1ノードおよび第2ノードを、削除されていないエッジで接続された第3ノードを介して接続し、前記テキスト中の単語と、当該単語と対応付けたエンティティをユーザに提示する、
    処理をコンピュータが実行することを特徴とするエンティティリンキング方法。
  2. 該特定する処理は、
    前記遷移先の第2ノードに遷移するエッジの次数に応じて前記第2ノードをクラスタリングし、
    該クラスタリングされた各クラスタに遷移するエッジの集合に対して、予め定められた全体のエッジの削減数に応じた削減数を割り当て、
    前記エッジの集合ごとに、割り当てられた削減数分の削除すべきエッジを特定する
    処理を実行することを特徴とする請求項1に記載のエンティティリンキング方法。
  3. 該特定する処理は、さらに、エッジの集合の中から、重要度の小さい順に、割り当てられた削減数分のエッジを削減すべきエッジとして特定する
    処理を実行することを特徴とする請求項2に記載のエンティティリンキング方法。
  4. ナレッジグラフのエンティティと、テキスト中の単語とを対応付けるエンティティリンキングを実行する情報処理装置であって、
    前記ナレッジグラフの中の遷移元の第1ノードに接続されるエッジの数と、遷移先の第2ノードに接続されるエッジの数とに基づいて、前記ナレッジグラフのうち予め設定された次数の第2ノードと接続されたエッジから削除すべきエッジを特定する特定部と、
    前記特定部によって特定されたエッジを削除したナレッジグラフを生成する生成部と、
    削除されたエッジで接続されていた第1ノードおよび第2ノードを、削除されていないエッジで接続された第3ノードを介して接続し、前記テキスト中の単語と、当該単語と対応付けたエンティティをユーザに提示する提示部と、
    を有することを特徴とする情報処理装置。
  5. ナレッジグラフのエンティティと、テキスト中の単語とを対応付けるエンティティリンキングプログラムであって、
    前記ナレッジグラフの中の遷移元の第1ノードに接続されるエッジの数と、遷移先の第2ノードに接続されるエッジの数とに基づいて、前記ナレッジグラフのうち予め設定された次数の第2ノードと接続されたエッジから削除すべきエッジを特定し、
    該特定したエッジを削除したナレッジグラフを生成し、
    削除されたエッジで接続されていた第1ノードおよび第2ノードを、削除されていないエッジで接続された第3ノードを介して接続し、前記テキスト中の単語と、当該単語と対応付けたエンティティをユーザに提示する、
    処理をコンピュータに実行させることを特徴とするエンティティリンキングプログラム。
JP2019089939A 2019-05-10 2019-05-10 エンティティリンキング方法、情報処理装置およびエンティティリンキングプログラム Pending JP2020187419A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019089939A JP2020187419A (ja) 2019-05-10 2019-05-10 エンティティリンキング方法、情報処理装置およびエンティティリンキングプログラム
US16/866,657 US11625617B2 (en) 2019-05-10 2020-05-05 Reduction of edges in a knowledge graph for entity linking

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019089939A JP2020187419A (ja) 2019-05-10 2019-05-10 エンティティリンキング方法、情報処理装置およびエンティティリンキングプログラム

Publications (1)

Publication Number Publication Date
JP2020187419A true JP2020187419A (ja) 2020-11-19

Family

ID=73046759

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019089939A Pending JP2020187419A (ja) 2019-05-10 2019-05-10 エンティティリンキング方法、情報処理装置およびエンティティリンキングプログラム

Country Status (2)

Country Link
US (1) US11625617B2 (ja)
JP (1) JP2020187419A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528046A (zh) * 2020-12-25 2021-03-19 网易(杭州)网络有限公司 新的知识图谱的构建方法、装置和信息检索方法、装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11829726B2 (en) * 2021-01-25 2023-11-28 International Business Machines Corporation Dual learning bridge between text and knowledge graph

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178270A (ja) * 2002-11-27 2004-06-24 Fujitsu Ltd 有向グラフ解析方法、解析装置及びそのプログラム
JP2016212838A (ja) * 2015-04-30 2016-12-15 富士通株式会社 発見情報学システム、方法、及びコンピュータプログラム
JP2017219929A (ja) * 2016-06-03 2017-12-14 ヤフー株式会社 生成装置、生成方法、及び生成プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5504097B2 (ja) 2010-08-20 2014-05-28 Kddi株式会社 意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置
WO2013181222A2 (en) * 2012-05-29 2013-12-05 Battelle Memorial Institute Method of analyzing a graph with a covariance-based clustering algorithm using a modified laplacian pseudo-inverse matrix
JP6103766B2 (ja) 2013-05-17 2017-03-29 日本電信電話株式会社 行動プロセス抽出方法及び行動プロセス抽出装置
US10083250B2 (en) * 2013-05-22 2018-09-25 International Business Machines Corporation Simplification of large networks and graphs
JP6018545B2 (ja) 2013-05-22 2016-11-02 日本電信電話株式会社 イベント情報抽出装置、その動作方法およびコンピュータプログラム
US10776965B2 (en) * 2013-07-26 2020-09-15 Drisk, Inc. Systems and methods for visualizing and manipulating graph databases
US9875561B2 (en) * 2014-05-20 2018-01-23 Jeffrey C. Mohr Method and system for dynamically creating and exploring graph structures
JP6523799B2 (ja) 2015-06-05 2019-06-05 株式会社日立システムズ 情報分析システム、情報分析方法
US9710544B1 (en) * 2016-05-19 2017-07-18 Quid, Inc. Pivoting from a graph of semantic similarity of documents to a derivative graph of relationships between entities mentioned in the documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178270A (ja) * 2002-11-27 2004-06-24 Fujitsu Ltd 有向グラフ解析方法、解析装置及びそのプログラム
JP2016212838A (ja) * 2015-04-30 2016-12-15 富士通株式会社 発見情報学システム、方法、及びコンピュータプログラム
JP2017219929A (ja) * 2016-06-03 2017-12-14 ヤフー株式会社 生成装置、生成方法、及び生成プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528046A (zh) * 2020-12-25 2021-03-19 网易(杭州)网络有限公司 新的知识图谱的构建方法、装置和信息检索方法、装置
CN112528046B (zh) * 2020-12-25 2023-09-15 网易(杭州)网络有限公司 新的知识图谱的构建方法、装置和信息检索方法、装置

Also Published As

Publication number Publication date
US20200356867A1 (en) 2020-11-12
US11625617B2 (en) 2023-04-11

Similar Documents

Publication Publication Date Title
CN106774975B (zh) 输入方法和装置
US10474355B2 (en) Input pattern detection over virtual keyboard for candidate word identification
US20160217410A1 (en) Worker Task Assignment Based on Correlation and Capacity Information
CN108573355B (zh) 模型更新后替换运行的方法、装置、及业务服务器
US8091073B2 (en) Scaling instruction intervals to identify collection points for representative instruction traces
EP1687738A2 (en) Clustering of text for structuring of text documents and training of language models
JP2020135207A (ja) 経路探索方法、経路探索プログラム、経路探索装置および経路探索のデータ構造
JP2018045537A (ja) 検索プログラム、検索装置および検索方法
JP2020501232A (ja) リスク制御イベント自動処理の方法および装置
CN112687266B (zh) 语音识别方法、装置、计算机设备和存储介质
WO2017058447A1 (en) Managing a database of patterns used to identify subsequences in logs
JP2020187419A (ja) エンティティリンキング方法、情報処理装置およびエンティティリンキングプログラム
CN105630763A (zh) 用于提及检测中的消歧的方法和系统
CN111242319A (zh) 模型预测结果的解释方法和装置
CN114168318A (zh) 存储释放模型的训练方法、存储释放方法及设备
CN110334104B (zh) 一种榜单更新方法、装置、电子设备及存储介质
CN108459965A (zh) 一种结合用户反馈和代码依赖的软件可追踪生成方法
JP2019095968A (ja) 印象推定モデル学習装置、印象推定装置、印象推定モデル学習方法、印象推定方法、およびプログラム
JP2022105454A (ja) 情報処理プログラム、情報処理方法及び情報処理装置
WO2020059136A1 (ja) 決定リスト学習装置、決定リスト学習方法および決定リスト学習プログラム
JP2023115926A (ja) データ処理装置、学習装置、データ処理方法、学習方法、データ処理プログラム及び学習プログラム
CN114115878A (zh) 一种工作流节点推荐方法及装置
CN114676168A (zh) 一种数据追踪方法、装置、电子设备及存储介质
CN109389157B (zh) 一种用户群识别方法和装置及对象群识别方法和装置
CN114239793A (zh) 一种飞蛾扑火算法的优化方法、系统、终端以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230330

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230711