JP2021101361A - イベントトピックの生成方法、装置、機器及び記憶媒体 - Google Patents

イベントトピックの生成方法、装置、機器及び記憶媒体 Download PDF

Info

Publication number
JP2021101361A
JP2021101361A JP2021045400A JP2021045400A JP2021101361A JP 2021101361 A JP2021101361 A JP 2021101361A JP 2021045400 A JP2021045400 A JP 2021045400A JP 2021045400 A JP2021045400 A JP 2021045400A JP 2021101361 A JP2021101361 A JP 2021101361A
Authority
JP
Japan
Prior art keywords
event
information
event information
topic
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021045400A
Other languages
English (en)
Inventor
クイユン ハン,
Cuiyun Han
クイユン ハン,
ユグァン チェン,
Yuguang Chen
ユグァン チェン,
ジャヤン ファン,
Jiayan Huang
ジャヤン ファン,
ファユアン リー,
Fayuan Li
ファユアン リー,
ユアンツェン リュウ,
Yuanzhen Liu
ユアンツェン リュウ,
ルー パン,
Lu Pan
ルー パン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021101361A publication Critical patent/JP2021101361A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】テキストからのトピックの生成効率及び自動化程度を向上させるイベントトピックの生成方法、装置、機器及び記憶媒体を提供する。【解決手段】イベントトピックの生成方法は、関連関係を有する複数のイベント情報を取得し、各イベント情報からエンティティ情報とイベントタイプを抽出し、前記複数のイベント情報から、代表的な属性を有するターゲットイベント情報をスクリーニングし、トピックテンプレートライブラリから、ターゲットイベント情報のイベントタイプにマッチングするトピックテンプレートを選択し、ターゲットイベント情報のエンティティ情報とイベントタイプをトピックテンプレートに充填して、複数のイベントトピックを生成する。【選択図】図1

Description

本出願は、コンピュータ技術に関し、特に知識グラフ技術の分野に関する。
インターネット及びコンピュータ技術の発展に伴い、ユーザに大量のニュース情報をリアルタイムにプッシュすることができるようになった。ニュース情報の整理を容易にして、ユーザに良好な閲覧体験を提供するためには、一般に、同じイベントを記述するニュース情報を収集してから、同じトピックの異なるイベントを収集することにより、ユーザが興味を持つトピックやイベントを容易に選択でき、さらに、ニュース情報を1層ずつ開いて閲覧することができる。
従来技術において、イベントのトピックは、ほとんどが手動で整理され、即ち、人が各イベント及び各イベントのニュース情報を読み、各イベントのテーマとして頭の中で1つのタイトルを作成する。このため、明らかに、イベントトピックを手動で生成する方式では、多くの人的資源を必要とするので、時効性もあまり高くない。
本出願の実施例は、複数のイベントのトピックを自動的に生成するイベントトピックの生成方法、装置、機器及び記憶媒体を提供する。
第1態様において、本出願の実施例は、イベントトピックの生成方法を提供し、この方法は、関連関係を有する複数のイベント情報、及び各イベント情報のエンティティ情報とイベントタイプを取得するステップと、前記複数のイベント情報から、代表的な属性を有するターゲットイベント情報をスクリーニングするステップと、トピックテンプレートライブラリから、前記ターゲットイベント情報のイベントタイプにマッチングするトピックテンプレートを選択するステップと、前記ターゲットイベント情報のエンティティ情報とイベントタイプを前記トピックテンプレートに充填して、前記複数のイベント情報のトピックを生成するステップと、を含む。
本出願の実施例では、関連関係を有する複数のイベント情報のエンティティ情報とイベントタイプを取得することで、トピックの生成に必要なデータを取得し、イベント情報から代表的な属性を有するターゲットイベント情報をスクリーニングして、ターゲットイベント情報に基づいてトピックを生成することにより、複数のイベント情報に対するトピックの要約性を向上させることができる。本実施例のトピックテンプレートは、イベントタイプにマッチングするので、異なるイベントタイプに対して異なるトピックテンプレートを用いることにより、トピックを人々の言語論理により合致させて、トピックテンプレートライブラリからイベントタイプにマッチングするトピックテンプレートを選択して、エンティティ情報とイベントタイプを充填する。これにより、テンプレートネストの方法を採用してトピックを生成し、トピックの生成効率及び自動化程度を向上させることができる。
選択可能に、前記関連関係を有する複数のイベント情報、及び各イベント情報のエンティティ情報とイベントタイプを取得するステップは、イベント知識グラフから、関連関係を有する複数のイベントノードを含むサブグラフを抽出し、各々の前記イベントノードにイベント情報の識別子が記憶され、各々のイベントノードの属性は前記イベント情報のエンティティ情報とイベントタイプとを含むステップを含む。
上記出願の選択可能な一実施形態では、各イベント情報のエンティティ情報とイベントタイプがいずれもイベント知識グラフに予め記憶され、知識グラフから構造化されたデータを直接抽出することにより、データの抽出速度を向上させ、さらに、トピックの生成の時効性を向上させる。
選択可能に、イベント知識グラフからサブグラフを抽出するステップは、イベント知識グラフから、前記関連関係を有する複数のイベントノードを含む候補サブグラフを抽出するステップと、前記候補サブグラフが2つ以上のアウトディグリー又は2つ以上のインディグリーを有するイベントノードを含む場合、前記候補サブグラフからシングルチェーン状の構造を抽出して、前記サブグラフを取得するステップと、を含む。
上記出願の選択可能な一実施形態では、候補サブグラフに2つ以上のアウトディグリー又は2つ以上のインディグリーのイベントノードが存在する可能性を考慮し、これらのイベントノードが1つのテーマに属さない場合には、1つのトピックを生成すべきではないため、候補サブグラフからシングルチェーン状の構造を抽出し、同一テーマの複数のイベントについてトピックを生成することを保証し、トピックの知能性及びユーザの閲覧体験を向上させる。
選択可能に、イベント知識グラフからサブグラフを抽出するステップは、前記イベントグラフから抽出対象の前記サブグラフを決定するステップと、前記サブグラフのノードの数が設定された数に達し、及び/又は、前記サブグラフに含まれるイベントノードの総熱が設定された熱値に達する場合、前記サブグラフを抽出するステップと、含む。
上記出願の選択可能な一実施形態では、ノードの数が多い場合及び/又は熱が高い場合こそサブグラフを抽出するので、数及び熱が十分であるイベントに対するトピックを生成する。
選択可能に、イベント知識グラフからサブグラフを抽出するステップの前に、イベントタイトル及び記事内容を含む、前記関連関係を有する複数のイベント情報を取得するステップと、前記複数のイベント情報の各々のイベント情報におけるイベントタイトルに対して名付け・エンティティ認識を行って、各イベント情報のエンティティ情報を取得するステップと、前記複数のイベント情報の各々のイベント情報における記事内容をイベントタイプ別に分類して、各イベント情報のイベントタイプを取得するステップと、各イベント情報、及び各イベント情報のエンティティ情報とイベントタイプを用いて、イベントノードを構築し、かつ、前記イベント知識グラフを形成するように、前記イベント情報間の関連関係を用いて前記イベントノード間のエッジを構築するステップと、をさらに含む。
上記出願の選択可能な一実施形態では、イベント知識グラフの生成過程を提供し、トピックの生成のためにエンティティ情報、イベントタイプ及び関連関係を予め提供する。
選択可能に、前記ターゲットイベント情報のエンティティ情報とイベントタイプを前記トピックテンプレートに充填して、前記複数のイベントのトピックを生成するステップは、前記ターゲットイベント情報のエンティティ情報を前記トピックテンプレートの主語位置に充填し、前記ターゲットイベント情報のイベントタイプを前記トピックテンプレートの述語位置に充填して、前記複数のイベントのトピックを生成するステップを含む。
上記出願の選択可能な一実施形態では、トピックテンプレートのネスト方法を提供し、エンティティ情報とイベントタイプをトピックテンプレートの設定位置に直接充填することにより、トピックを直接生成する。
選択可能に、前記複数のイベント情報から、代表的な属性を有するターゲットイベント情報をスクリーニングするステップは、イベントの発生時間の早い順に、前記複数のイベント情報をソートするステップと、ソートされた複数のイベント情報から、先頭位置又は末尾位置に配置されたターゲットイベント情報を選択するステップと、を含む。
上記出願の選択可能な一実施形態では、最初に発生したイベントは複数のイベントに起因するものであり、最後に発生したイベントは複数のイベントの最終発酵結果であり、いずれも複数のイベントを代表するため、先頭位置又は末尾位置に配置されたイベント情報は複数のイベント情報をよりよく代表できる。
選択可能に、イベントの発生時間の早い順に、前記複数のイベント情報をソートするステップの前に、複数のイベント情報から、任意の2つのイベント情報の類似度を計算するステップと、類似度が設定された類似度閾値を超える2つのイベント情報から、いずれか一方のイベント情報を削除するステップと、をさらに含む。
上記出願の選択可能な一実施形態では、類似するイベント情報を削除することにより、イベントが冗長になることを回避し、冗長なイベントを削除してからイベントをソートすることで、ターゲットイベント情報の正確性を向上させる。
選択可能に、前記ターゲットイベント情報のエンティティ情報とイベントタイプを前記トピックテンプレートに充填して、前記複数のイベント情報のトピックを生成するステップの前に、前記複数のイベント情報中の異なるエンティティ情報及び異なるイベントタイプに対してそれぞれ数量統計を行うステップと、前記異なるエンティティ情報の数が設定された数の閾値を超える場合、前記異なるエンティティ情報に対応するトピック修飾語彙を決定するステップと、前記異なるイベントタイプの数が設定された数の閾値を超える場合、前記異なるイベントタイプに対応するトピック修飾語彙を決定するステップと、をさらに含む。
前記ターゲットイベント情報のエンティティ情報とイベントタイプを前記トピックテンプレートに充填して、前記複数のイベントトピックを生成するステップは、前記ターゲットイベント情報のエンティティ情報、イベントタイプ及び前記トピック修飾語彙を前記トピックテンプレートに充填して、前記複数のイベント情報のトピックを生成するステップを含む。
上記出願の選択可能な一実施形態では、異なるエンティティ情報の数又は異なるイベントタイプの数が多い場合には、ターゲットイベント情報は、全てのイベント情報を代表するのに不十分である。したがって、エンティティ情報とイベントタイプを充填してからトピック修飾語彙を充填することで、トピックの内容が豊富になり、複数のイベントに対するトピックの要約性も向上した。
第2態様では、本出願の実施例は、イベントトピックの生成装置をさらに提供し、当該装置は、関連関係を有する複数のイベント情報、及び各イベント情報のエンティティ情報とイベントタイプを取得するための取得モジュールと、前記複数のイベント情報から、代表的な属性を有するターゲットイベント情報をスクリーニングするためのスクリーニングモジュールと、トピックテンプレートライブラリから、前記ターゲットイベント情報のイベントタイプにマッチングするトピックテンプレートを選択するための選択モジュールと、前記ターゲットイベント情報のエンティティ情報とイベントタイプを前記トピックテンプレートに充填して、前記複数のイベント情報のトピックを生成するための充填モジュールと、を含む。
第3態様では、本出願の実施例は、電子機器をさらに提供し、前記電子機器は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが第1態様の実施例にて提供されるイベントトピックの生成方法を実行できる。
第4態様では、本出願の実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、前記コンピュータ命令は、前記コンピュータに第1態様の実施例にて提供されるイベントトピックの生成方法を実行させる。
第5態様では、本出願の実施例は、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに第1態様の実施例にて提供されるイベントトピックの生成方法を実行させる。
上記選択可能な方式が有する他の効果を、以下で具体的な実施例と組み合わせて説明する。
図面は、本技術案をよりよく理解するために使用され、本出願を限定するものではない。
本出願の実施例1のイベントトピックの生成方法のフローチャートである。 本出願の実施例2のイベントトピックの生成方法のフローチャートである。 本出願の実施例3のイベントトピックの生成方法のフローチャートである。 本出願の実施例4のイベントトピックの生成方法のフローチャートである。 本出願の実施例5のイベントトピックの生成装置の構造図である。 本出願の実施例のイベントトピックの生成方法を実施するための電子機器のブロック図である。
以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれているが、それらは単なる例示と見なすべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、明確かつ簡潔のため、以下の説明では、周知の機能及び構造の説明を省略する。
図1は、本出願の実施例1のイベントトピックの生成方法のフローチャートであり、本出願の実施例は、複数のイベントに対して自動的にトピックを生成する場合に適用する。この方法は、イベントトピックの生成装置によって実行され、この装置はソフトウェア及び/又はハードウェアで実現され、具体的には、一定のデータ演算能力を備えている電子機器に配置される。
図1に示すイベントトピックの生成方法は、S110〜S140を含む。
S110、関連関係を有する複数のイベント情報、及び各イベント情報のエンティティ情報とイベントタイプを取得する。
イベント間の関係には、連続関係、因果関係などが含まれる。本実施例の関連関係は、連続関係であってもよい。即ち、複数のイベントの発生時間が先後関係を有し、後で発生したイベントが前のイベントの継続又は発酵である。
イベント情報はイベントタイトル及び記事内容を含む。具体的には、各イベント情報のイベントタイトルに対して、姓名などの名付け・エンティティ認識を行って、各イベント情報のエンティティ情報を取得する。各イベント情報の記事内容を、離婚タイプ、会議タイプ及び取引タイプなどのイベントタイプ別に分類して、各イベント情報のイベントタイプを取得する。記事内容をイベント別に分類する際に、記事内容のキーワード、文、段落に対して、ディープラーニングを用いてイベントトリガーワードを認識し、イベントの分類をさらに実現することもできる。イベントトリガーワードは、イベントの発生を直接トリガーするワードであり、例えば、「高校の同級生が1か月前に義理の娘と結婚した」のトリガーワードは「義理の娘と結婚した」であり、トリガーされたイベントタイプは結婚タイプである。
もちろん、イベント情報は、例えばイベントの発生時間及びイベントの発生場所などのイベント発生情報をさらに含む。
S120、複数のイベント情報から、代表的な属性を有するターゲットイベント情報をスクリーニングする。
代表的な属性とは、複数のイベント情報を代表できる属性を指す。選択可能に、公式に公開されたイベント情報を代表的な属性を有するターゲットイベント情報としてスクリーニングする。
S130、トピックテンプレートライブラリから、ターゲットイベント情報のイベントタイプにマッチングするトピックテンプレートを選択する。
S140、ターゲットイベント情報のエンティティ情報とイベントタイプをトピックテンプレートに充填して、複数のイベント情報のトピックを生成する。
トピックテンプレートライブラリは、イベントタイプに対応するトピックテンプレートを含み、トピックテンプレートは、エンティティ情報を充填するための主語位置及び時間タイプを充填するための述語位置を含む。もちろん、トピックテンプレートは、イベント発生情報を充填するための叙述語位置をさらに含んでもよい。例えば、会議タイプのテンプレートは、(主語位置)が(叙述語位置)(述語位置)にある主な会議内容である。例えば、離婚タイプのテンプレートは、(主語位置)の(述語位置)騒動である。
続いて、ターゲットイベント情報のエンティティ情報をトピックテンプレートの主語位置に充填し、ターゲットイベント情報のイベントタイプをトピックテンプレートの述語位置に充填して、複数のイベントのトピックを生成する。さらに、ターゲットイベント情報のイベント発生情報をトピックテンプレートの叙述語位置に充填する。例えば、エンティティ情報が張さんと呉さんであり、イベントタイプが離婚である場合、充填後のトピックテンプレートは、張さんと呉さんの離婚騒動である。
本出願の実施例では、関連関係を有する複数のイベント情報のエンティティ情報とイベントタイプを取得することにより、トピックの生成に必要なデータを取得し、イベント情報から代表的な属性を有するターゲットイベント情報をスクリーニングして、ターゲットイベント情報に基づいてトピックを生成することにより、複数のイベント情報に対するトピックの要約性を向上させることができる。本実施例におけるトピックテンプレートは、イベントタイプにマッチングし、異なるイベントタイプに対して異なるトピックテンプレートを用いることにより、トピックを人々の言語論理により合致させ、トピックテンプレートライブラリからイベントタイプにマッチングするトピックテンプレートを選択して、エンティティ情報とイベントタイプを充填することにより、テンプレートネストの方法を用いてトピックを生成して、トピックの生成効率及び自動化程度を向上させることができる。
さらに、エンティティ情報とイベントタイプをトピックテンプレートの設定位置に直接充填することにより、トピックを直接生成する。
図2は、本出願の実施例2のイベントトピックの生成方法のフローチャートであり、本出願の実施例は、上記の各実施例の技術的解決手段を基に最適化される。
選択可能に、「関連関係を有する複数のイベント情報を取得し、各イベント情報からエンティティ情報とイベントタイプを抽出する」操作を、「イベント知識グラフから、関連関係を有する複数のイベントノードを含むサブグラフを抽出し、各イベントノードはエンティティ情報とイベントタイプを含む」ステップに細分化して、トピック生成効率を向上させる。
図2に示すイベントトピックの生成方法は、S210〜S250を含む。
S210、イベント知識グラフから、関連関係を有する複数のイベントノードを含むサブグラフを抽出し、各々のイベントノードにイベント情報の識別子が記憶される。各イベントノードの属性は、イベント情報のエンティティ情報とイベントタイプとを含む。
イベント知識グラフは、複数のイベントノードを含み、イベントノード間は、イベント間の関連関係を代表する有向エッジによって接続される。イベントノードには、イベントタイトル及び記事内容を識別するためのイベント情報の識別子が記憶される。エンティティ情報とイベントタイプを、イベントノードの属性とする。
イベント知識グラフに含まれるイベントノードの全てが必ずしも関連関係を有するとは限らず、関連関係を有しないイベントノードでは、1つのトピックを生成するべきではない。したがって、1つの共通のトピックを生成するために、イベント知識グラフから関連関係を有する複数のイベントノードを抽出する。
選択可能に、S210の前に、知識グラフの生成操作をさらに含み、トピックの生成のために、エンティティ情報、イベントタイプ及び関連関係を予め提供する。具体的には、関連関係を有する複数のイベント情報を取得し、複数のイベント情報の各々のイベント情報におけるイベントタイトルに対して名付け・エンティティ認識を行って、各イベント情報のエンティティ情報を取得し、複数のイベント情報の各々のイベント情報における記事内容をイベントタイプ別に分類して、各イベント情報のイベントタイプを取得し、各イベント情報、及び各イベント情報のエンティティ情報とイベントタイプを用いて、イベントノードを構築し、イベント知識グラフを形成するように、イベント情報間の関連関係を用いてイベントノード間のエッジを構築する。エンティティ情報の識別及びイベントタイプの分類は、上記実施例の説明を参照し、ここでは詳細な説明を省略する。
イベントノードにイベント識別子が記憶され、エンティティ情報とイベントタイプがイベントノードの属性として記憶される。さらに、正規表現を用いて、各イベント情報のイベントタイトルからイベント発生情報を抽出する。イベント発生情報も、イベントノードの属性として記憶される。
選択可能に、イベント知識グラフから、関連関係を有する複数のイベントノードを含む候補サブグラフを抽出し、候補サブグラフが2つ以上のアウトディグリー又は2つ以上のインディグリーを有するイベントノードを含む場合、候補サブグラフからシングルチェーン状の構造を抽出して、サブグラフを取得する。
本実施例は、まず、イベント知識グラフからサブグラフを抽出し、次に、このサブグラフからサブグラフを再抽出する。説明と区別を容易にするために、1回目に抽出されたサブグラフを候補サブグラフと呼ぶ。
候補サブグラフに2つ以上のアウトディグリー又は2つ以上のインディグリーのイベントノードが存在する可能性を考慮して、これらのイベントノードが1つのテーマに属さない場合、1つのトピックが生成されるべきではないため、候補サブグラフからシングルチェーン状の構造を抽出する。シングルチェーン状の構造のイベントノードには、アウトディグリー又はインディグリーが1つだけであるため、分岐がない。このため、同一テーマの複数のイベントについてトピックを生成することを保証し、トピックの知能性及びユーザの閲覧体験を向上させることができる。
S220、複数のイベント情報から、代表的な属性を有するターゲットイベント情報をスクリーニングする。
S230、トピックテンプレートライブラリから、ターゲットイベント情報のイベントタイプにマッチングするトピックテンプレートを選択する。
S240、ターゲットイベント情報のエンティティ情報とイベントタイプをトピックテンプレートに充填して、複数のイベント情報のトピックを生成する。
本実施例では、各イベント情報のエンティティ情報とイベントタイプがいずれもイベント知識グラフに予め記憶され、知識グラフから構造化されたデータを直接抽出することで、データの抽出速度を向上させ、さらに、トピックの生成の時効性を向上させる。
図3は、本出願の実施例3のイベントトピックの生成方法のフローチャートであり、本出願の実施例は、上記の各実施例の技術的解決手段を基として最適化される。
選択可能に、「イベント知識グラフからサブグラフを抽出する」操作を、「イベントグラフから抽出対象のサブグラフを決定し、サブグラフのノードの数が設定された数に達し、及び/又は、サブグラフに含まれるイベントノードの総熱が設定された熱値に達する場合、サブグラフを抽出する」ステップに細分化して、サブグラフの抽出条件を限定する。
選択可能に、「複数のイベント情報から、代表的な属性を有するターゲットイベント情報をスクリーニングする」操作を、「イベントの発生時間の早い順に、複数のイベント情報をソートし、ソートされた複数のイベント情報から、先頭位置又は末尾位置に配置されたターゲットイベント情報を選択する」ステップに細分化して、代表するターゲットイベント情報を取得する。
図3に示すイベントトピックの生成方法は、S310〜S350を含む。
S310、イベントグラフから抽出対象のサブグラフを決定する。
本実施例は、サブグラフを抽出する前に、先に,抽出対象のサブグラフの範囲を画定し、サブグラフがS320に示す条件を満たしてから、抽出する。
S320、サブグラフのノードの数が設定された数に達し、及び/又は、サブグラフに含まれるイベントノードの総熱が設定された熱値に達すると、サブグラフを抽出する。
設定された数及び設定された熱値を自律的に設定してもよい。設定された数は10であってもよく、設定された熱値は200であってもよい。
サブグラフに含まれるイベントノードの総熱は、サブグラフに含まれる各イベントノードの熱の和である。各イベントノードの熱は、ユーザが設定時間帯内に、イベントノードが識別したイベント情報をトリガーする回数によって決定できる。設定時間帯は1日であってもよいし、6時間であってもよい。
時間の経過とともに、イベントノードがますます多くなるので、サブグラフに含まれるイベントノードの総熱もますます大きくなる。サブグラフのノードの数が設定された数に達し、及び/又は、サブグラフに含まれるイベントノードの総熱が設定された熱値に達すると、サブグラフを抽出し、それにより、数及び熱が十分であるイベント情報についてのトピックを生成する。
S330、複数のイベント情報から、代表的な属性を有するターゲットイベント情報をスクリーニングする。
イベントの発生時間の早い順に、複数のイベント情報をソートし、ソートされた複数のイベント情報から、先頭位置又は末尾位置に配置されたターゲットイベント情報を選択する。
例えば、イベントの発生時間の早い順に、ソートされたイベント情報1、イベント情報2、イベント情報3及びイベント情報4を取得する。先頭位置に配置されたイベント情報は最初に発生したイベント、即ちイベント情報1であり、末尾位置に配置されたイベント情報は最後に発生したイベント、即ちイベント情報4である。
選択可能に、イベントの発生時間の早い順に、複数のイベント情報をソートする前に、複数のイベント情報から、任意の2つのイベント情報の類似度を計算するステップと、類似度が設定された類似度閾値を超える2つのイベント情報から、いずれか一方のイベント情報を削除するステップと、をさらに含む。
具体的には、正のサンプル及び負のサンプルを含むトレーニングセットを構築する。正のサンプルは、類似する2つのイベント情報であり、負のサンプルは類似しない2つのイベント情報である。トレーニングセットを用いてニューラルネットワークモデルをトレーニングする。ここでのイベント情報は、イベントタイトルであってもよいし、記事内容の最初の文であってもよい。
任意の2つのイベント情報のいずれもニューラルネットワークモデルに入力して、入力された2つのイベント情報の類似度を取得する。類似度が、50%などの設定された類似度閾値を超えるか否かを判断する。入力された2つのイベント情報の類似度が類似度閾値を超え、入力された2つのイベント情報が類似すると判定した場合、いずれか一方のイベント情報を削除する。複数のイベント情報の任意の2つのイベント情報をいずれもニューラルネットワークモデルに入力して類似度を判断し、類似するイベント情報を削除した後、残りのイベント情報は互いに類似しない。続いて、残りの互いに類似しないイベント情報をソートする。
S340、トピックテンプレートライブラリから、ターゲットイベント情報のイベントタイプにマッチングするトピックテンプレートを選択する。
S350、ターゲットイベント情報のエンティティ情報とイベントタイプをトピックテンプレートに充填して、複数のイベント情報のトピックを生成する。
本実施例では、最初に発生したイベントは複数のイベントに起因するものであり、最後に発生したイベントは複数のイベントの最終発酵結果であり、いずれも複数のイベントを代表するため、先頭位置又は末尾位置に配置されたイベント情報は、複数のイベント情報をよりよく代表できる。
さらに、類似するイベント情報を削除することによりイベントが冗長になることを回避し、そして、冗長なイベントを削除してからイベントをソートすることにより、ターゲットイベント情報の正確性を向上させる。
図4は、本出願の実施例4のイベントトピックの生成方法のフローチャートである。本出願の実施例は、上記の各実施例の技術的解決手段を基として最適化される。
選択可能に、「ターゲットイベント情報のエンティティ情報とイベントタイプをトピックテンプレートに充填して、複数のイベント情報のトピックを生成する」操作の前に、「複数のイベント情報中の異なるエンティティ情報及び異なるイベントタイプに対してそれぞれ数量統計を行い、異なるエンティティ情報の数が設定された数の閾値を越える場合、異なるエンティティ情報に対応するトピック修飾語彙を決定し、異なるイベントタイプの数が設定された数の閾値を超える場合、異なるイベントタイプに対応するトピック修飾語彙を決定する」ステップを追加し、「ターゲットイベント情報のエンティティ情報とイベントタイプをトピックテンプレートに充填して、複数のイベントのトピックを生成する」操作を「ターゲットイベント情報のエンティティ情報、イベントタイプ及びトピック修飾語彙を、トピックテンプレートに充填して、複数のイベント情報のトピックを生成する」ステップに細分化する。
図4に示すイベントトピックの生成方法は、S410〜S470を含む。
S410、関連関係を有する複数のイベント情報、及び各イベント情報のエンティティ情報とイベントタイプを取得する。
S420、複数のイベント情報から、代表的な属性を有するターゲットイベント情報をスクリーニングする。
S430、トピックテンプレートライブラリから、ターゲットイベント情報のイベントタイプにマッチングするトピックテンプレートを選択する。
S440、複数のイベント情報の異なるエンティティ情報及び異なるイベントタイプに対してそれぞれ数量統計を行う。
イベント情報間に関連関係がある場合、一部のイベント情報のエンティティ情報が同じであるが、一部のイベント情報のエンティティ情報が異なり、同様に、一部のイベント情報のイベントタイプが同じあるが、一部のイベント情報のイベントタイプが異なるため、異なるエンティティ情報及び異なるイベントタイプを統計する。
エンティティ情報を例とすると、複数のイベント情報は、イベント情報1、イベント情報2、イベント情報3及びイベント情報4を含む。イベント情報1及びイベント情報2のエンティティ情報は李さんで、イベント情報3のエンティティ情報は趙さんで、イベント情報4のエンティティ情報は王さんである。統計によると、異なるエンティティ情報の数は3つである。
S450、異なるエンティティ情報の数が設定された数の閾値を越える場合、異なるエンティティ情報に対応するトピック修飾語彙を決定する。
S460、異なるイベントタイプの数が設定された数の閾値を超える場合、異なるイベントタイプに対応するトピック修飾語彙を決定する。
設定された数の閾値は、2であっても、3であってもよい。異なるエンティティ情報の数が設定された数の閾値を越える場合には、複数の人が複数のイベントに参加していることを説明する。マルチパーティー応答などを含む、異なるエンティティ情報に対応するトピック修飾語彙を決定する。
異なるイベントタイプの数が設定された数の閾値を超えると、イベントタイプが多いことを説明する。影響、騒動などを含む、異なるイベントタイプに対応するトピック修飾語彙を決定する。
S470、ターゲットイベント情報のエンティティ情報、イベントタイプ及びトピック修飾語彙をトピックテンプレートに充填して、複数のイベント情報のトピックを生成する。
具体的には、ターゲットイベント情報のエンティティ情報をトピックテンプレートの主語位置に充填し、ターゲットイベント情報のイベントタイプをトピックテンプレートの述語位置に充填し、トピック修飾語彙をトピックテンプレートの最後に充填して、複数のイベントのトピックを生成する。
例えば、主語位置及び述語位置を充填した後、鄭さんと王さんが離婚したという結果を取得し、トピック修飾語彙が騒動である場合、複数のイベントのトピックは、鄭さんと王さんの離婚騒動である。
なお、S440〜S460は、S470の前、S410の後に実行さればよい。
本実施例では、異なるエンティティ情報の数又は異なるイベントタイプの数が多い場合には、ターゲットイベント情報が全てのイベント情報を代表するのには不十分である。したがって、エンティティ情報とイベントタイプを充填してからトピック修飾語彙を充填することで、トピックの内容が豊富になり、複数のイベントに対するトピックの要約性を向上させることができる。
図5は、本出願の実施例5のイベントトピックの生成装置の構造図である。本出願の実施例は、エントリペアの同義判別証拠を探して、同義判別証拠に基づいて同義判断を行う場合に適用される。この装置は、ソフトウェア及び/又はハードウェアで実現され、具体的には、データ演算能力を備えた電子機器に配置される。
図5に示すイベントトピックの生成装置500は、取得モジュール501と、スクリーニングモジュール502と、選択モジュール503と、充填モジュール504と、を含む。
取得モジュール501は、関連関係を有する複数のイベント情報、及び各イベント情報のエンティティ情報とイベントタイプを取得するために用いられる。
スクリーニングモジュール502は、複数のイベント情報から、代表的な属性を有するターゲットイベント情報をスクリーニングするために用いられる。
選択モジュール503は、トピックテンプレートライブラリから、ターゲットイベント情報のイベントタイプにマッチングするトピックテンプレートを選択するために用いられる。
充填モジュール504は、ターゲットイベント情報のエンティティ情報とイベントタイプをトピックテンプレートに充填して、複数のイベント情報のトピックを生成するために用いられる。
本出願の実施例では、関連関係を有する複数のイベント情報のエンティティ情報とイベントタイプを取得することにより、トピックの生成に必要なデータを取得し、イベント情報から代表的な属性を有するターゲットイベント情報をスクリーニングし、ターゲットイベント情報に基づいてトピックを生成することにより、複数のイベント情報に対するトピックの要約性を向上させる。本実施例のトピックテンプレートは、イベントタイプにマッチングし、異なるイベントタイプに対して異なるトピックテンプレートを用いることで、トピックを人々の言語論理により合致させ、トピックテンプレートライブラリからイベントタイプにマッチングするトピックテンプレートを選択して、エンティティ情報とイベントタイプを充填することにより、テンプレートネストの方法を採用してトピックを生成し、トピックの生成効率及び自動化程度を向上させることができる。
さらに、取得モジュール501は、具体的には、イベント知識グラフから、関連関係を有する複数のイベントノードを含むサブグラフを抽出するために用いられる。各々のイベントノードにイベント情報の識別子が記憶され、各イベントノードの属性はイベント情報のエンティティ情報とイベントタイプとを含む。
さらに、取得モジュール501は、イベント知識グラフからサブグラフを抽出する場合、具体的には、イベント知識グラフから、関連関係を有する複数のイベントノードを含む候補サブグラフを抽出し、候補サブグラフが2つ以上のアウトディグリー又は2つ以上のインディグリーを有するイベントノードを含む場合、候補サブグラフからシングルチェーン状の構造を抽出して、サブグラフを取得するために用いられる。
さらに、取得モジュール501は、イベント知識グラフからサブグラフを抽出する場合、具体的には、イベントグラフから抽出対象のサブグラフを決定し、サブグラフのノードの数が設定された数に達し、及び/又は、サブグラフに含まれるイベントノードの総熱が設定された熱値に達する場合、サブグラフを抽出するために用いられる。
さらに、この装置は、イベントタイトル及び記事内容を含む、関連関係を有する複数のイベント情報を取得し、複数のイベント情報の各々のイベント情報におけるイベントタイトルに対して名付け・エンティティ認識を行って、各イベント情報のエンティティ情報を取得し、複数のイベント情報の各々のイベント情報における記事内容をイベントタイプ別に分類して、各イベント情報のイベントタイプを取得し、各イベント情報、及び各イベント情報のエンティティ情報とイベントタイプを用いて、イベントノードを構築し、イベント知識グラフを形成するように、イベント情報間の関連関係を用いてイベントノード間のエッジを構築するためのグラフ構築モジュールをさらに含む。
さらに、充填モジュール504は、具体的には、ターゲットイベント情報のエンティティ情報をトピックテンプレートの主語位置に充填し、ターゲットイベント情報のイベントタイプをトピックテンプレートの述語位置に充填して、複数のイベントのトピックを生成するために用いられる。
さらに、スクリーニングモジュール502は、具体的には、イベントの発生時間の早い順に、複数のイベント情報をソートし、ソートされた複数のイベント情報から、先頭位置又は末尾位置に配置されたターゲットイベント情報を選択するために用いられる。
さらに、この装置は、複数のイベント情報から、任意の2つのイベント情報の類似度を計算し、類似度が設定された類似度閾値を超える2つのイベント情報から、いずれか一方のイベント情報を削除するための削除モジュールをさらに含む。
さらに、この装置は、複数のイベント情報中の異なるエンティティ情報及び異なるイベントタイプに対してそれぞれ数量統計を行い、異なるエンティティ情報の数が設定された数の閾値を越える場合、異なるエンティティ情報に対応するトピック修飾語彙を決定し、異なるイベントタイプの数が設定された数の閾値を超える場合、異なるイベントタイプに対応するトピック修飾語彙を決定するためのトピック修飾語彙決定モジュールをさらに含む。対応する充填モジュール504は、具体的には、ターゲットイベント情報のエンティティ情報、イベントタイプ及びトピック修飾語彙を、トピックテンプレートに充填して、複数のイベント情報のトピックを生成するために用いられる。
上記イベントトピックの生成装置は、本出願の任意の実施例にて提供されるイベントトピックの生成方法を実行することができ、イベントトピックの生成方法を実行することに対応する機能モジュール及び有益な効果を有している。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供されるイベントトピックの生成方法を実行させる。
図6には、本出願の実施例のイベントトピックの生成方法を実現する電子機器のブロック図が示されている。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表す。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図しない。
図6に示すように、この電子機器は、1つ又は複数のプロセッサ601と、メモリ602と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けられる。プロセッサは、電子機器内で実行される命令を処理することができ、命令は、外部入力/出力装置(例えば、インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリ内又はメモリに記憶された命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリと一緒に使用することができる。同様に、複数の電子機器を接続でき、各電子機器は、一部の必要な操作(例えば、サーバアレイ、1グループのブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図6では、1つのプロセッサ601を例とする。
メモリ602は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。メモリには、少なくとも1つのプロセッサが本出願により提供されるイベントトピックの生成方法を実行するように、少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願により提供されるイベントトピックの生成方法を実行させるためのコンピュータ命令が記憶されている。
メモリ602は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例におけるイベントトピックの生成方法に対応するプログラム命令/モジュール(例えば、図5に示す取得モジュール501、スクリーニングモジュール502、選択モジュール503及び充填モジュール504を含む)のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ601は、メモリ602に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、上記方法の実施例におけるイベントトピックの生成方法を実現する。
メモリ602は、ストレージプログラムエリアとストレージデータエリアとを含むことができ、ストレージプログラムエリアは、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶し、ストレージデータエリアは、イベントトピックの生成方法を実施する電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ602は、高速ランダムアクセスメモリを含むことができ、例えば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの、非一時的なメモリをさらに含むことができる。いくつかの実施例では、メモリ602は、プロセッサ601に対して遠隔に設定されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介してイベントトピックの生成方法を実行する電子機器に接続される。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
イベントトピックの生成方法を実行する電子機器は、入力装置603と出力装置604とをさらに含んでもよい。プロセッサ601、メモリ602、入力装置603、及び出力装置604は、バス又は他の方式を介して接続することができ、図6では、バスを介して接続することを例とする。
入力装置603は、入力された数字又は文字情報を受信し、イベントトピックの生成方法を実行する電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができる。例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置604は、ディスプレイデバイス、補助照明装置(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態で、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施され、1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈される。プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含むことができ、高レベルのプロセス及び/又は対象指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用される、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するため、コンピュータ上で、ここで説明されているシステム及び技術を実施することができ、コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、キーボード及びポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、グラフィカルユーザインタフェース又はウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェンネットワークとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント−サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。
上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定しない。
上記具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本出願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (13)

  1. 関連関係を有する複数のイベント情報、及び各イベント情報のエンティティ情報とイベントタイプを取得するステップと、
    前記複数のイベント情報から、代表的な属性を有するターゲットイベント情報をスクリーニングするステップと、
    トピックテンプレートライブラリから、前記ターゲットイベント情報のイベントタイプにマッチングするトピックテンプレートを選択するステップと、
    前記ターゲットイベント情報のエンティティ情報とイベントタイプを前記トピックテンプレートに充填して、前記複数のイベント情報のトピックを生成するステップと、を含むことを特徴とする、イベントトピックの生成方法。
  2. 前記関連関係を有する複数のイベント情報、及び各イベント情報のエンティティ情報とイベントタイプを取得するステップは、
    イベント知識グラフから、関連関係を有する複数のイベントノードを含むサブグラフを抽出し、各々の前記イベントノードにイベント情報の識別子が記憶され、各々のイベントノードの属性は前記イベント情報のエンティティ情報とイベントタイプとを含むステップを含むことを特徴とする、請求項1に記載の方法。
  3. 前記イベント知識グラフからサブグラフを抽出するステップは、
    イベント知識グラフから、前記関連関係を有する複数のイベントノードを含む候補サブグラフを抽出するステップと、
    前記候補サブグラフが2つ以上のアウトディグリー又は2つ以上のインディグリーを有するイベントノードを含む場合、前記候補サブグラフからシングルチェーン状の構造を抽出して、前記サブグラフを取得するステップと、を含むことを特徴とする、請求項2に記載の方法。
  4. 前記イベント知識グラフからサブグラフを抽出するステップは、
    前記イベントグラフから抽出対象の前記サブグラフを決定するステップと、
    前記サブグラフのノードの数が設定された数に達し、及び/又は、前記サブグラフに含まれるイベントノードの総熱が設定された熱値に達する場合、前記サブグラフを抽出するステップと、を含むことを特徴とする、請求項2に記載の方法。
  5. 前記イベント知識グラフからサブグラフを抽出するステップの前に、
    イベントタイトル及び記事内容を含む、前記関連関係を有する複数のイベント情報を取得するステップと、
    前記複数のイベント情報の各々のイベント情報における前記イベントタイトルに対して名付け・エンティティ認識を行って、各イベント情報のエンティティ情報を取得するステップと、
    前記複数のイベント情報の各々のイベント情報における前記記事内容をイベントタイプ別に分類して、各イベント情報のイベントタイプを取得するステップと、
    各イベント情報、及び各イベント情報のエンティティ情報とイベントタイプを用いて、イベントノードを構築し、かつ、前記イベント知識グラフを形成するように、前記イベント情報間の関連関係を用いて前記イベントノード間のエッジを構築するステップと、をさらに含むことを特徴とする、請求項2に記載の方法。
  6. 前記ターゲットイベント情報のエンティティ情報とイベントタイプを前記トピックテンプレートに充填して、前記複数のイベントのトピックを生成するステップは、
    前記ターゲットイベント情報のエンティティ情報を前記トピックテンプレートの主語位置に充填し、前記ターゲットイベント情報のイベントタイプを前記トピックテンプレートの述語位置に充填して、前記複数のイベントのトピックを生成するステップを含むことを特徴とする、請求項1に記載の方法。
  7. 前記複数のイベント情報から、代表的な属性を有するターゲットイベント情報をスクリーニングするステップは、
    イベントの発生時間の早い順に、前記複数のイベント情報をソートするステップと、
    ソートされた複数のイベント情報から、先頭位置又は末尾位置に配置されたターゲットイベント情報を選択するステップと、を含むことを特徴とする、請求項1に記載の方法。
  8. 前記イベントの発生時間の早い順に、前記複数のイベント情報をソートするステップの前に、
    複数のイベント情報から、任意の2つのイベント情報の類似度を計算するステップと、
    類似度が設定された類似度閾値を超える2つのイベント情報から、いずれか一方のイベント情報を削除するステップと、をさらに含むことを特徴とする、請求項7に記載の方法。
  9. 前記ターゲットイベント情報のエンティティ情報とイベントタイプを前記トピックテンプレートに充填して、前記複数のイベント情報のトピックを生成するステップの前に、
    前記複数のイベント情報中の異なるエンティティ情報及び異なるイベントタイプに対してそれぞれ数量統計を行うステップと、
    前記異なるエンティティ情報の数が設定された数の閾値を超える場合、前記異なるエンティティ情報に対応するトピック修飾語彙を決定するステップと、
    前記異なるイベントタイプの数が設定された数の閾値を超える場合、前記異なるイベントタイプに対応するトピック修飾語彙を決定するステップと、をさらに含み、
    前記ターゲットイベント情報のエンティティ情報とイベントタイプを前記トピックテンプレートに充填して、前記複数のイベントトピックを生成するステップは、
    前記ターゲットイベント情報のエンティティ情報、イベントタイプ及び前記トピック修飾語彙を前記トピックテンプレートに充填して、前記複数のイベント情報のトピックを生成するステップを含むことを特徴とする、請求項1から8のいずれかに記載の方法。
  10. 関連関係を有する複数のイベント情報、及び各イベント情報のエンティティ情報とイベントタイプを取得するための取得モジュールと、
    前記複数のイベント情報から、代表的な属性を有するターゲットイベント情報をスクリーニングするためのスクリーニングモジュールと、
    トピックテンプレートライブラリから、前記ターゲットイベント情報のイベントタイプにマッチングするトピックテンプレートを選択するための選択モジュールと、
    前記ターゲットイベント情報のエンティティ情報とイベントタイプを前記トピックテンプレートに充填して、前記複数のイベント情報のトピックを生成するための充填モジュールと、を含むことを特徴とする、イベントトピックの生成装置。
  11. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1から9のいずれかに記載のイベントトピックの生成方法を実施できることを特徴とする、電子機器。
  12. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、前記コンピュータに請求項1から9のいずれかに記載のイベントトピックの生成方法を実行させることを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体。
  13. コンピュータプログラムであって、
    前記コンピュータプログラムは、コンピュータに請求項1から9のいずれかに記載のイベントトピックの生成方法を実行させることを特徴とする、コンピュータプログラム。
JP2021045400A 2020-03-20 2021-03-19 イベントトピックの生成方法、装置、機器及び記憶媒体 Pending JP2021101361A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010203397.XA CN111428049B (zh) 2020-03-20 2020-03-20 一种事件专题的生成方法、装置、设备和存储介质
CN202010203397.X 2020-03-20

Publications (1)

Publication Number Publication Date
JP2021101361A true JP2021101361A (ja) 2021-07-08

Family

ID=71553574

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021045400A Pending JP2021101361A (ja) 2020-03-20 2021-03-19 イベントトピックの生成方法、装置、機器及び記憶媒体

Country Status (5)

Country Link
US (1) US20210209416A1 (ja)
EP (1) EP3832488A3 (ja)
JP (1) JP2021101361A (ja)
KR (1) KR20210038467A (ja)
CN (1) CN111428049B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967268B (zh) * 2020-06-30 2024-03-19 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
CN112101013A (zh) * 2020-09-27 2020-12-18 北京百度网讯科技有限公司 地点抽取方法、装置、设备以及存储介质
CN112733516B (zh) * 2020-12-31 2024-04-09 京东科技控股股份有限公司 快讯处理方法、装置、设备及存储介质
CN113343687B (zh) * 2021-05-25 2023-09-05 北京奇艺世纪科技有限公司 事件名称的确定方法、装置、设备及存储介质
CN113204690B (zh) * 2021-05-28 2023-09-26 抖音视界有限公司 一种信息展示的方法、装置以及计算机存储介质
CN114444463A (zh) * 2022-02-08 2022-05-06 河南护加家健康科技有限公司 医疗安全事件描述的生成方法、装置、设备及存储介质
CN114357197B (zh) * 2022-03-08 2022-07-26 支付宝(杭州)信息技术有限公司 事件推理方法和装置
CN114707004B (zh) * 2022-05-24 2022-08-16 国网浙江省电力有限公司信息通信分公司 基于图像模型和语言模型的事理关系抽取处理方法及系统
CN114817575B (zh) * 2022-06-24 2022-09-02 国网浙江省电力有限公司信息通信分公司 基于扩展模型的大规模电力事理图谱处理方法
CN117035087B (zh) * 2023-10-09 2023-12-26 北京壹永科技有限公司 用于医疗推理的事理图谱生成方法、装置、设备及介质
CN117236330B (zh) * 2023-11-16 2024-01-26 南京邮电大学 一种基于互信息和对抗神经网络的增强主题多样性方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008203964A (ja) * 2007-02-16 2008-09-04 Nec Corp 因果関係分析装置、因果関係分析方法及びプログラム
JP2011204107A (ja) * 2010-03-26 2011-10-13 Nomura Research Institute Ltd リスク情報提供システム及びプログラム
JP2019212292A (ja) * 2018-06-01 2019-12-12 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド イベント発見方法、装置、機器及びプログラム
CN110633406A (zh) * 2018-06-06 2019-12-31 北京百度网讯科技有限公司 事件专题的生成方法、装置、存储介质和终端设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7584114B2 (en) * 2003-01-22 2009-09-01 International Business Machines Corporation System and method for integrating projects events with personal calendar and scheduling clients
US8396813B2 (en) * 2009-09-22 2013-03-12 Xerox Corporation Knowledge-based method for using social networking site content in variable data applications
US20120137367A1 (en) * 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
US11893543B2 (en) * 2018-05-15 2024-02-06 International Business Machines Corporation Optimized automatic consensus determination for events
CN108846028A (zh) * 2018-05-24 2018-11-20 网易传媒科技(北京)有限公司 文章投放方法、介质、装置和计算设备
CN110162632B (zh) * 2019-05-17 2021-04-09 北京百分点科技集团股份有限公司 一种新闻专题事件发现的方法
CN110162796B (zh) * 2019-05-31 2023-07-18 创新先进技术有限公司 新闻专题创建方法和装置
CN110297904B (zh) * 2019-06-17 2022-10-04 北京百度网讯科技有限公司 事件名的生成方法、装置、电子设备及存储介质
CN110489520B (zh) * 2019-07-08 2023-05-16 平安科技(深圳)有限公司 基于知识图谱的事件处理方法、装置、设备和存储介质
CN110413784A (zh) * 2019-07-23 2019-11-05 国家计算机网络与信息安全管理中心 基于知识图谱的舆情关联分析方法及系统
CN110543574B (zh) * 2019-08-30 2022-05-17 北京百度网讯科技有限公司 一种知识图谱的构建方法、装置、设备及介质
CN110765265B (zh) * 2019-09-06 2023-04-11 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008203964A (ja) * 2007-02-16 2008-09-04 Nec Corp 因果関係分析装置、因果関係分析方法及びプログラム
JP2011204107A (ja) * 2010-03-26 2011-10-13 Nomura Research Institute Ltd リスク情報提供システム及びプログラム
JP2019212292A (ja) * 2018-06-01 2019-12-12 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド イベント発見方法、装置、機器及びプログラム
CN110633406A (zh) * 2018-06-06 2019-12-31 北京百度网讯科技有限公司 事件专题的生成方法、装置、存储介质和终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
野畑 周、関根 聡: "複数記事に対する要約や情報抽出に関する一考察", 言語処理学会第8回年次大会発表論文集 PROCEEDINGS OF THE EIGHTH ANNUAL MEETING OF THE ASSOCIATION FO, JPN6022021659, 20 March 2002 (2002-03-20), JP, pages 547 - 550, ISSN: 0004937947 *

Also Published As

Publication number Publication date
EP3832488A3 (en) 2021-08-18
US20210209416A1 (en) 2021-07-08
CN111428049A (zh) 2020-07-17
KR20210038467A (ko) 2021-04-07
CN111428049B (zh) 2023-07-21
EP3832488A2 (en) 2021-06-09

Similar Documents

Publication Publication Date Title
JP2021101361A (ja) イベントトピックの生成方法、装置、機器及び記憶媒体
JP7127106B2 (ja) 質問応答処理、言語モデルの訓練方法、装置、機器および記憶媒体
CN110717339B (zh) 语义表示模型的处理方法、装置、电子设备及存储介质
CN112507715B (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
KR102565659B1 (ko) 정보 생성 방법 및 장치
US11521603B2 (en) Automatically generating conference minutes
CN111783468B (zh) 文本处理方法、装置、设备和介质
US9406020B2 (en) System and method for natural language querying
JP2021114291A (ja) 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体
JP7080300B2 (ja) ビデオタグの生成方法、装置、電子機器及び記憶媒体
CN110516073A (zh) 一种文本分类方法、装置、设备和介质
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
JP2021111415A (ja) テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム
JP2022013600A (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
CN111091006B (zh) 一种实体意图体系的建立方法、装置、设备和介质
JP2021131528A (ja) ユーザ意図認識方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
JP2021174516A (ja) ナレッジグラフ構築方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP2021099890A (ja) 因果関係の判別方法、装置、電子機器及び記憶媒体
JP7397903B2 (ja) インテリジェント対話方法、装置、電子機器及び記憶媒体
JP2022040026A (ja) エンティティリンキング方法、装置、電子デバイス及び記憶媒体
CN112417090A (zh) 利用未提交的用户输入数据来提高任务性能
JP2021131858A (ja) エンティティワードの認識方法と装置
WO2022095892A1 (zh) 推送信息的生成方法、装置
CN111177462B (zh) 视频分发时效的确定方法和装置
CN111984774B (zh) 搜索方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220831

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221206