JP2019212289A - 情報を生成するための方法及び装置 - Google Patents

情報を生成するための方法及び装置 Download PDF

Info

Publication number
JP2019212289A
JP2019212289A JP2019052668A JP2019052668A JP2019212289A JP 2019212289 A JP2019212289 A JP 2019212289A JP 2019052668 A JP2019052668 A JP 2019052668A JP 2019052668 A JP2019052668 A JP 2019052668A JP 2019212289 A JP2019212289 A JP 2019212289A
Authority
JP
Japan
Prior art keywords
triplet
target
event information
determining
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019052668A
Other languages
English (en)
Other versions
JP6849723B2 (ja
Inventor
ユグァン・チェン
Yuguang Chen
ルゥ・パン
Lu Pan
ウェンハオ・チェン
Wenhao Chen
ホイ・シュウ
Hui Zhou
ウェイナ・チェン
Weina Chen
ユホン・チェン
Yuhong Zheng
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2019212289A publication Critical patent/JP2019212289A/ja
Application granted granted Critical
Publication of JP6849723B2 publication Critical patent/JP6849723B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Probability & Statistics with Applications (AREA)

Abstract

【課題】情報を生成するための方法及び装置を提供する。【解決手段】オブジェクト及びオブジェクトに対する記述情報を含むターゲットテキストを受信するステップと、ターゲットテキストに対して依存構文解析を行ってターゲットテキストの依存関係ツリーを生成するステップと、予め設定された少なくとも1つの構文構造ツリーと依存関係ツリーをマッチングさせて、主語、述語及び目的語からなる少なくとも1つのトリプレットを取得するステップと、少なくとも1つのトリプレットにおける1つのトリプレットに含まれる単語及びトリプレットを取得するためにマッチングされる構文構造ツリーの事前設定重みに基づいて、少なくとも1つのトリプレットから1つのターゲットトリプレットを決定するステップと、を実行することにより、ターゲットトリプレットの抽出正確率が向上される。【選択図】図2

Description

本発明の実施例は、コンピュータ技術分野に関し、具体的には、情報を生成するための方法及び装置に関する。
現在、通常は、固有表現抽出(Named Entity Recognition,NER)技術及びエンティティ・リンキング(Entity Linking,EL)技術を用いてテキストの中のエンティティをマイニングすることができる。なお、NERは、人物、企業等の固有名詞を認識することができる。ELは、テキストの中の単語と知識図鑑の中のエンティティをリンクさせてエンティティの同一指示という問題を解決することができる。しかしながら、現在は、イベントを認識してリンクすることができない。
本発明の実施例は、情報を生成するための方法及び装置を提供する。
第1の態様において、本発明の実施例は、情報を生成するための方法を提供する。前記方法は、オブジェクト及び前記オブジェクトに対する記述情報を含むターゲットテキストを受信するステップと、ターゲットテキストに対して依存構文解析を行ってターゲットテキストの依存関係ツリーを生成するステップと、予め設定された少なくとも1つの構文構造ツリーと前記依存関係ツリーをマッチングさせて、主語、述語及び目的語からなる少なくとも1つのトリプレット(三つ組)を取得するステップと、前記少なくとも1つのトリプレットのうちのトリプレットに含まれる単語及び前記トリプレットを取得するためにマッチングされる前記構文構造ツリーの事前設定重みに基づいて、前記少なくとも1つのトリプレットから1つのターゲットトリプレットを決定するステップと、を含む。
いくつかの実施例においては、前記少なくとも1つのトリプレットのうちのトリプレットに含まれる単語及び前記トリプレットを取得するためにマッチングされる前記構文構造ツリーの事前設定重みに基づいて、前記少なくとも1つのトリプレットから1つのターゲットトリプレットを決定するステップは、前記依存関係ツリーに基づいてターゲットテキストの中の数量詞及び連体修飾語を決定するステップと、前記数量詞が修飾するオブジェクト及び前記連体修飾語が修飾するオブジェクトを決定するステップと、決定された数量詞、連体修飾語及びオブジェクトに基づいて、前記少なくとも1つのトリプレットを更新するステップと、更新された少なくとも1つのトリプレットから1つのターゲットトリプレットを決定するステップと、を含む。
いくつかの実施例においては、前記決定された数量詞、連体修飾語及びオブジェクトに基づいて、前記少なくとも1つのトリプレットを更新するステップは、前記少なくとも1つのトリプレットのうちのトリプレットに対して、決定されたオブジェクトが前記トリプレットの主語又は目的語と一致するか否かを判定するステップと、決定されたオブジェクトが前記トリプレットの主語と一致することが判定されたことに応答して、決定されたオブジェクトを修飾する数量詞、連体修飾語及び前記トリプレットの主語を結合し、結合後のテキストを前記トリプレットの主語として決定するステップと、決定されたオブジェクトが前記トリプレットの目的語と一致することが判定されたことに応答して、決定されたオブジェクトを修飾する数量詞、連体修飾語及び前記トリプレットの目的語を結合し、結合後のテキストを前記トリプレットの目的語として決定するステップと、を含む。
いくつかの実施例においては、前記少なくとも1つのトリプレットのうちのトリプレットに含まれる単語及び前記トリプレットを取得するためにマッチングされる前記構文構造ツリーの事前設定重みに基づいて、前記少なくとも1つのトリプレットから1つのターゲットトリプレットを決定するステップは、前記少なくとも1つのトリプレットのうちのトリプレットに対して、前記トリプレットを取得するためにマッチングされる前記構文構造ツリーの事前設定重みを決定し、前記トリプレットに含まれる単語の文字数を決定するステップと、前記トリプレットに含まれる単語の共起度を決定し、決定された重み、文字数及び共起度に基づいて前記トリプレットの得点を決定するステップと、前記少なくとも1つのトリプレットのうちの、得点が最も高いトリプレットをターゲットトリプレットとして決定するステップと、を含む。
いくつかの実施例においては、前記方法は、少なくとも1つの履歴ターゲットトリプレットを取得するステップと、前記少なくとも1つの履歴ターゲットトリプレットのうちの、所定の構文構造ツリーをマッチングさせることによって取得された履歴ターゲットトリプレットの数を統計するステップと、統計結果に基づいて前記少なくとも1つの構文構造ツリーの重みを決定するステップと、を更に含む。
いくつかの実施例においては、前記方法は、前記ターゲットトリプレットに基づいて予め設定された履歴イベント情報集合中のターゲットテキストと関連する少なくとも1つの履歴イベント情報を決定するステップと、ターゲットテキストと前記少なくとも1つの履歴イベント情報の類似度を決定するステップと、ターゲットテキストとの類似度が最も高い履歴イベント情報を出力するステップと、を更に含む。
いくつかの実施例においては、履歴イベント情報は、参加者情報及びトリガーワード情報を含む。前記ターゲットトリプレットに基づいて予め設定された履歴イベント情報集合中のターゲットテキストと関連する少なくとも1つの履歴イベント情報を取得するステップは、前記ターゲットトリプレットの主語又は目的語が前記履歴イベント情報集合の中の履歴イベント情報の参加者情報と一致する条件、及び、前記ターゲットトリプレットの述語が前記履歴イベント情報集合の中の履歴イベント情報のトリガーワード情報と一致する条件を満たすか否かを判定するステップと、履歴イベント情報が、ターゲットテキストと関連している上述した各条件のうちの少なくとも1つを満たすことを決定するステップと、を含む。
いくつかの実施例においては、履歴イベント情報は、キーワードを含む。前記ターゲットテキストと前記少なくとも1つの履歴イベント情報の類似度を決定するステップは、ターゲットテキストを分割することによって、第1の単語集合を取得するステップと、前記少なくとも1つの履歴イベント情報のうちの履歴イベント情報に対して、前記履歴イベント情報に含まれる各キーワードを連結し、連結されたテキストを分割することによって、第2の単語集合を取得するステップと、前記第1の単語集合及び前記第2の単語集合に基づいてターゲットテキストと前記履歴イベント情報の類似度を決定するステップと、を含む。
第2の態様において、本発明の実施例は、情報を生成するための装置を提供する。前記装置は、オブジェクト及び前記オブジェクトに対する記述情報を含むターゲットテキストを受信するように構成されるターゲットテキスト受信ユニットと、ターゲットテキストに対して依存構文解析を行ってターゲットテキストの依存関係ツリーを生成するように構成される依存関係ツリー生成ユニットと、予め設定された少なくとも1つの構文構造ツリーと前記依存関係ツリーをマッチングさせて、主語、述語及び目的語からなる少なくとも1つのトリプレットを取得するように構成されるトリプレット決定ユニットと、前記少なくとも1つのトリプレットにおける1つのトリプレットに含まれる単語及び前記トリプレットを取得するためにマッチングされる前記構文構造ツリーの事前設定重みに基づいて、前記少なくとも1つのトリプレットから1つのターゲットトリプレットを決定するように構成されるターゲットトリプレット決定ユニットとを含む。
いくつかの実施形態においては、前記ターゲットトリプレット決定ユニットは、前記依存関係ツリーに基づいてターゲットテキストの中の数量詞及び連体修飾語を決定するように構成される連体修飾語決定モジュールと、前記数量詞が修飾するオブジェクト及び前記連体修飾語が修飾するオブジェクトを決定するように構成されるオブジェクト決定モジュールと、決定された数量詞、連体修飾語及びオブジェクトに基づいて、前記少なくとも1つのトリプレットを更新するように構成されるトリプレット更新モジュールと、更新された少なくとも1つのトリプレットから1つのターゲットトリプレットを決定するように構成されるターゲットトリプレット決定モジュールとを含む。
いくつかの実施形態においては、前記トリプレット更新モジュールは、更に、前記少なくとも1つのトリプレットのうちのトリプレットに対して、決定されたオブジェクトが前記トリプレットの主語又は目的語と一致するか否かを判定し、決定されたオブジェクトが前記トリプレットの主語と一致することが判定されたことに応答して、決定されたオブジェクトを修飾する数量詞、連体修飾語及び前記トリプレットの主語を結合し、結合後のテキストを前記トリプレットの主語として決定し、決定されたオブジェクトが前記トリプレットの目的語と一致することが判定されたことに応答して、決定されたオブジェクトを修飾する数量詞、連体修飾語及び前記トリプレットの目的語を結合し、結合後のテキストを前記トリプレットの目的語として決定するように構成される。
いくつかの実施例においては、前記ターゲットトリプレット決定ユニットは、更に、前記少なくとも1つのトリプレットのうちのトリプレットに対して、前記トリプレットを取得するためにマッチングされる前記構文構造ツリーの事前設定重みを決定し、前記トリプレットに含まれる単語の文字数を決定し、前記トリプレットに含まれる単語の共起度を決定し、決定された重み、文字数及び共起度に基づいて前記トリプレットの得点を決定し、前記少なくとも1つのトリプレットのうちの、得点が最も高いトリプレットをターゲットトリプレットとして決定するように構成される。
いくつかの実施例においては、前記装置は、少なくとも1つの履歴ターゲットトリプレットを取得するように構成される履歴ターゲットトリプレットモジュールと、前記少なくとも1つの履歴ターゲットトリプレットのうちの、所定の構文構造ツリーをマッチングさせることによって取得された履歴ターゲットトリプレットの数を統計するように構成されるトリプレット数量統計モジュールと、統計結果に基づいて前記少なくとも1つの構文構造ツリーの重みを決定するように構成される重み決定モジュールと、からなる重み設置ユニットを更に含む。
いくつかの実施例においては、前記装置は、前記ターゲットトリプレットに基づいて予め設定された履歴イベント情報集合中のターゲットテキストと関連する少なくとも1つの履歴イベント情報を決定するように構成される履歴イベント情報決定ユニットと、ターゲットテキストと前記少なくとも1つの履歴イベント情報の類似度を決定するように構成される類似度決定ユニットと、ターゲットテキストとの類似度が最も高い履歴イベント情報を出力するように構成される履歴イベント情報出力ユニットとを更に含む。
いくつかの実施例においては、履歴イベント情報は、参加者情報及びトリガーワード情報を含む。前記履歴イベント情報決定ユニットは、更に、前記ターゲットトリプレットの主語又は目的語が前記履歴イベント情報集合の中の履歴イベント情報の参加者情報と一致する条件、及び、前記ターゲットトリプレットの述語が前記履歴イベント情報集合の中の履歴イベント情報のトリガーワード情報と一致する条件を満たすか否かを判定し、履歴イベント情報が、ターゲットテキストと関連している上述した各条件のうちの少なくとも1つを満たすことを決定するように構成される。
いくつかの実施例においては、履歴イベント情報は、キーワードを含む。前記類似度決定ユニットは、更に、ターゲットテキストを分割することによって、第1の単語集合を取得し、前記少なくとも1つの履歴イベント情報のうちの履歴イベント情報に対して、前記履歴イベント情報に含まれる各キーワードを連結し、連結されたテキストを分割することによって、第2の単語集合を取得し、前記第1の単語集合及び前記第2の単語集合に基づいて、ターゲットテキストと前記履歴イベント情報の類似度を決定するように構成される。
第3の態様においては、本発明の実施例は、設備であって、1つ又は複数のプロセッサと、1つ又は複数のプログラムが格納されている記憶装置とを備え、前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサーにより実行される場合の、第1の態様のいずれかの実施例に記載の方法を前記1つ又は複数のプロセッサに実現させる設備を提供する。
第4の態様においては、本発明の実施例は、コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、前記プログラムがプロセッサにより実行される場合の、第1の態様のいずれかの実施例に記載の方法を実現するコンピュータ可読記憶媒体を提供する。
本発明の前記実施例による情報を生成するための方法及び装置は、ターゲットテキストが受信された後、ターゲットテキストに対して依存構文解析を行ってターゲットテキストの依存関係ツリーを生成することができる。そして、予め設定された少なくとも1つの構文構造ツリーを前記依存関係ツリーとマッチングさせることによって、少なくとも1つのトリプレットを取得する。最後に、前記少なくとも1つのトリプレットにおける各トリプレットに含まれる単語及び前記トリプレットを取得するためにマッチングされる前記構文構造ツリーの事前設定重みに基づいて、前記少なくとも1つのトリプレットから1つのターゲットトリプレットを決定する。本実施例の方法及び装置は、ターゲットテキストに含まれるイベントと最も関連するトリプレットを選択することができるので、ターゲットトリプレットの抽出正確率が向上される。
本発明の他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施例に係る詳細な説明を読むことにより、より明らかになるであろう。
本発明の一実施例を適用可能な例示的なシステムアーキテクチャを示す図である。 本発明に係る情報を生成するための方法の一実施例を示すフローチャートである。 本発明に係る情報を生成するための方法の一実施例の依存関係ツリーを示す構造模式図である。 本発明に係る情報を生成するための方法の一実施例の構文構造ツリーを示す構造模式図である。 本発明に係る情報を生成するための方法において、図2aに示す依存関係ツリーと図2bに示す構文構造ツリーとをマッチングさせることで取得された1つの候補トリプレットを示す構造模式図である。 本発明に係る情報を生成するための方法において、図2aに示す依存関係ツリーと図2bに示す構文構造ツリーとをマッチングさせることで取得されたもう1つの候補トリプレットを示す構造模式図である。 本発明に係る情報を生成するための方法において、図2aに示す依存関係ツリーと図2bに示す構文構造ツリーとをマッチングさせることで取得されたもう1つの候補トリプレットを示す構造模式図である。 本発明に係る情報を生成するための方法の1つの応用シナリオを示す模式図である。 本発明に係る情報を生成するための方法においてターゲットトリプレットを決定するフローチャートである。 本発明に係る情報を生成するための方法のもう1つの実施例を示すフローチャートである。 本発明に係る情報を生成するための装置の1つの実施例の構造模式図である。 本発明の実施例を達成するための設備に適用されるコンピュータシステムの構造模式図である。
以下、図面及び実施例を参照しながら本発明をより詳細に説明する。理解すべきステップは、ここで説明する具体的な実施例は、関連する発明を説明するためのものに過ぎず、前記発明を限定するものではない。なお、説明の便宜上、図面には発明に関連する部分のみが示されている。
なお、本発明の実施例及び実施例における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面及び実施例を参照しながら本発明を詳細に説明する。
図1は、本発明に係る情報を生成するための方法又は情報を生成するための装置の実施例が適用可能な例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104及びサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105の間で通信リンクの媒体を提供するために使用される。ネットワーク104は、有線、無線通信リンク又は光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
ユーザは、メッセージを送受信するために、端末装置101、102、103を使用してネットワーク104を介してサーバ105と情報のやり取りをすることができる。端末装置101、102、103には、テキスト入力アプリケーション、ウェブブラウザアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントコミュニケーションツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションをインストールすることができる。
端末装置101、102、103は、ハードウェアでも、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、ディスプレイスクリーンを有し、テキスト入力がサポートされた様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子書籍リーダ、MP3(Moving Picture Experts Group Audio Layer III,ムービング・ピクチャー・エクスパーツ・グループ・オーディオ・レイヤー3)プレーヤー、MP4(Moving Picture Experts Group Audio Layer IV,ムービング・ピクチャー・エクスパーツ・グループ・オーディオ・レイヤー4)プレーヤー、ラップトップポータブルコンピュータ及びデスクトップコンピュータ等を含むが、これらに限定されない。端末装置101、102、103がソフトウェアである場合、上述した電子機器にインストールされてもよい。それは、複数のソフトウェア又はソフトウェアモジュール(例えば、分散式サービスを提供するために用いられる)として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは、特に限定されない。
サーバ105は、様々なサービスを提供するサーバであってもよく、例えば、端末装置101、102、103上で入力されたテキストをサポートするバックエンドサーバであってもよい。バックエンドサーバは、受信されたターゲットテキスト等のデータに対して解析等の処理を行い、さらに処理結果(例えば、ターゲットトリプレット)を端末装置101、102、103にフィードバックすることができる。
サーバ105は、ハードウェアでも、ソフトウェアであってもよい。サーバ105がハードウェアである場合、複数のサーバから構成される分散式サーバークラスタとして実現されてもよいし、単一のサーバとして実現されてもよい。サーバ105がソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュールとして実現されてもよいし(例えば、分散式サービスを提供するために用いられる)、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは特に限定されない。
なお、本発明の実施例による情報を生成するための方法は、端末装置101、102、103によって実行されてもよく、サーバ105によって実行されてもよい。相応的には、情報を生成するための装置は、端末装置101、102、103に設置されてもよく、サーバ105に設置されてもよい。
本発明の実施例による情報を生成するための方法が端末装置101、102、103によって実行される場合、前記システムアーキテクチャ100は、ネットワーク104とサーバ105を含まなくてもよいことを理解されたい。
図1の端末装置、ネットワーク及びサーバの数は例示的なものに過ぎないことを理解されたい。必要に応じて、端末装置、ネットワーク及びサーバの数を任意に加減してもよい。
次に、本発明による情報を生成するための方法の一実施例のフロー200を示す図2を参照する。前記実施例の情報を生成するための方法は、ステップ201、ステップ202、ステップ203及びステップ204を含む。
ステップ201においては、ターゲットテキストを受信する。
本発明の実施例において、情報を生成するための方法の実行主体(例えば、図1に示す端末装置101、102、103又はサーバ105)は、ターゲットテキストを受信することができる。情報を生成するための方法の実行主体が端末装置である場合、ユーザが前記端末装置を介して入力したターゲットテキストを直接受信することができる。情報を生成するための方法の実行主体がサーバである場合、有線接続の方式又は無線接続の方式でユーザが使っている端末装置からターゲットテキストを受信することができる。前記ターゲットテキストは、オブジェクト及び前記オブジェクトに対する記述情報を含んでもよい。前記オブジェクトは、NER技術又はEL技術により認識された任意のエンティティであってもよく、例えば、人物、企業等が挙げられる。前記記述情報は、前記オブジェクトを説明するための情報であってもよく、オブジェクトの状態を説明するための情報、前記オブジェクトの動作を説明するための情報等を含むが、これらに限定されない。
なお、前記無線接続の方式は、3G/4G接続、WiFi接続、ブルートォース接続、WiMAX接続、Zigbee接続、UWB(ultra wideband)接続及び他の現在知られている、又は将来開発する無線接続の方式を含んでもよいが、これらに限定されない。
ステップ202においては、ターゲットテキストに対して依存構文解析を行うことによって、ターゲットテキストの依存関係ツリーを生成する。
実行主体は、ターゲットテキストを受信した後に、ターゲットテキストに対して依存構文解析を行うことができる。依存構文は、従属関係構文とも言われ、フランスの言語学者であるL.Tesniereによって20世紀の50年代に最初に提出された。依存構文は、単語間で形成される依存関係を使用して文の言語構造を記述する構造的構文である。依存構文の構造上の特徴を分かりやすく説明するために、依存関係ツリーを用いて表すことができる。依存関係ツリーの各ノードは、文中の単語に対応する。依存関係ツリーは、単語間の依存関係を表すだけではなく、単語の品詞(例えば、数量詞、助詞等)を表すこともでき、テキストにおける単語の機能(例えば、連体修飾語、副詞的修飾語等)を更に表すこともできる。実際の応用においては、実行主体は、様々なオープンソースツールキットによりターゲットテキストに対して依存構文解析を行うことができる。前記オープンソースツールキットは、米国スタンフォード大学のStanford NLPグループにより提供されたオープンソースツールキットであるStandfordParser、中国復旦大学のコンピュータサイエンス学院により開発されたオープンソースツールキットであるFudanNLP等を含んでもよい。
ステップ203においては、予め設定された少なくとも1つの構文構造ツリーと依存関係ツリーとをマッチングさせることによって、少なくとも1つのトリプレットを取得する。
ターゲットテキストの依存関係ツリーが生成されると、実行主体は、予め設定された構文構造ツリーを依存関係ツリーとマッチングさせることができる。なお、構文構造ツリーのツリー状構造には、複数のノードを含み、構文構造ツリーには、各ノードに位置する単語の品詞を含むことができる。前記構文構造ツリーを依存関係ツリーとマッチングさせると、依存関係ツリーにおける構文構造ツリーと同じ依存関係を有する単語を取得することができる。同時に、取得された各単語の品詞は、構文構造ツリーにおける対応するノードの単語の品詞と同じである。
一例として、図2aは、ターゲットテキストの依存関係ツリーの構造を示しており、図2bは、構文構造ツリーの構造を示している。図2bに示す構文構造ツリーは、各ノードの単語の品詞を示しており、ただし、v.は、動詞を表し、n.は、名詞を表す。いくつかの選択的な実施態様では、次のように構文構造ツリーと依存関係ツリーとをマッチングさせることができる。まずは、単語の品詞を考慮せずに構文構造ツリーと依存関係ツリーの構造のみを考慮して、図2c、図2d及び図2eにおいて破線ノードに位置する単語からなる候補トリプレットを決定することができる。次に、図2c、図2d及び図2eに示す候補トリプレットにおける各ノードの単語の品詞と構文構造ツリーにおける各ノードの単語の品詞とをマッチングさせ、図2cに示すトリプレットの各単語の品詞と構文構造ツリーにおける各ノードの単語の品詞が同じであることを決定することができる。よって、図2cに示すトリプレットは、依存関係ツリーと構文構造ツリーとをマッチングした結果である。
トリプレットは、主語、述語及び目的語を含んでもよく、ここでのトリプレットは、広い意味でのトリプレットであってもよい。例えば、いくつかの語句に目的語が存在しないと、得られたトリプレットの中の目的語は、「ヌル」である。例えば、いくつかの語句は、並列述語を含むと、得られたトリプレットの中の述語は、2つの単語を含んでもよい。トリプレットにおける主語、述語及び目的語は、ターゲットテキストの主語、述語及び目的語と同一でも、異なっていてもよい。一例としては、ターゲットテキストが、「シェアサイクル業界は、2016年及び2017年の上半期において急速に拡張した後、2017年の下半期において徐々に減少傾向を示している」である場合、得られたトリプレットは、「シェアサイクル業界・拡張する・ヌル、シェアサイクル業界・減少傾向・示している」を含む可能性がある。ターゲットテキストは、その主語が「シェアサイクル業界」で、述語が「示している」で、目的語が「減少傾向」である。なお、第1のトリプレットにおける述語「拡張する」は、ターゲットテキストの述語「示している」とは異なる。第2のトリプレットにおける主語、述語及び目的語は、ターゲットテキストの主語、述語及び目的語と同じである。
ステップ204においては、少なくとも1つのトリプレットにおける1つのトリプレットに含まれる単語及びマッチングによって得られたトリプレットの構文構造ツリーの事前設定重みに基づいて、少なくとも1つのトリプレットから1つのターゲットトリプレットを決定する。
前記少なくとも1つのトリプレットが得られると、前記少なくとも1つのトリプレットの各トリプレットに対して、実行主体は、前記トリプレットに含まれる単語及びマッチングによって得られた前記トリプレットの構文構造ツリーの事前設定重みに基づいて、少なくとも1つのトリプレットから1つのターゲットトリプレットを決定することができる。なお、構文構造ツリーの重みは、技術者によって具体的な応用シナリオに応じて設定することができる。例えば、技術者は、前記少なくとも1つの構文構造ツリーから毎回1つの構文構造ツリーを選択してトリプレットのマッチングを行い、過去の時間範囲内において、構文構造ツリーがトリプレットマッチングのために選択された回数に基づいて重みを設定することができる。又は、技術者は、構文構造ツリーに含まれるノードの数に基づいて重みを設定することもできる。
次に、本実施例による情報を生成するための方法の応用シナリオの模式図である図3を参照する。図3の応用シナリオにおいては、ユーザが端末から入力したターゲットテキストは、ビデオタイトルであり、端末は、前記ビデオタイトルをサーバに送信する。サーバは、前記ビデオタイトルを受信すると、まずは、ビデオタイトルの依存関係ツリーを生成することができる。次に、構文構造ツリーとマッチングさせることで、少なくとも1つのトリプレットを取得する。次に、少なくとも1つのトリプレットから1つのターゲットトリプレットを決定する。最後に、ターゲットトリプレットは、ユーザが見えるように、端末に出力される。
本発明の前記実施例による情報を生成するための方法では、ターゲットテキストが受信されると、ターゲットテキストに対して依存構文解析を行ってターゲットテキストの依存関係ツリーを生成することができる。そして、予め設定された少なくとも1つの構文構造ツリーを前記依存関係ツリーとマッチングさせることによって、少なくとも1つのトリプレットを取得する。最後に、前記少なくとも1つのトリプレットにおける各トリプレットに含まれる単語及び前記トリプレットを取得するためにマッチングされる前記構文構造ツリーの事前設定重みに基づいて、前記少なくとも1つのトリプレットから1つのターゲットトリプレットを決定する。本実施例の方法では、ターゲットテキストに含まれるイベントと最も関連するトリプレットを選出することができるので、ターゲットトリプレットの抽出正確率が向上された。
本実施例のいくつかの所望による実施態様では、実行主体は、図2に示されていない次のステップに従って構文構造ツリーの重みを決定することができる。まずは、少なくとも1つの履歴ターゲットトリプレットを取得する。次に、前記少なくとも1つの履歴ターゲットトリプレットのうちの、所定の構文構造ツリーのマッチングによって得られた履歴ターゲットトリプレットの数を統計する。最後に、統計の結果に基づいて少なくとも1つの構文構造ツリーの重みを決定する。
本実施形態では、実行主体は、まずは、少なくとも1つの履歴ターゲットトリプレットを取得することができる。ここでは、履歴ターゲットトリプレットとは、実行主体が過去の時間範囲内において受信したターゲットテキストを処理することによって得られたターゲットトリプレットを指す。そして、実行主体は、前記少なくとも1つの履歴ターゲットトリプレットのうちの、所定の構文構造ツリーのマッチングによって得られた履歴ターゲットトリプレットの数を統計することができる。ある構文構造ツリーのマッチングによって得られた履歴ターゲットトリプレットの数が多ければ多いほど、前記構文構造ツリーの正確率がより高いことを意味し、よって、前記構文構造ツリーの重みがより大きいことが理解すべきである。最後に、実行主体は、前記統計の結果に基づいて各構文構造ツリーの重みを決定することができる。一例として、実行主体は、100個の履歴ターゲットトリプレットを取得し、統計の結果から、50個の履歴ターゲットトリプレットは、構文構造ツリーaから得られ、30個の履歴ターゲットトリプレットは、構文構造ツリーbから得られ、残った20個の履歴ターゲットトリプレットは、構文構造ツリーcから得られたことが分かる。実行主体は、前記統計の結果に基づいて構文構造ツリーaの重みが50/100=0.5であり、構文構造ツリーbの重みが30/100=0.3であり、構文構造ツリーcの重みが20/100=0.2であることを決定することができる。
本実施形態の情報を生成するための方法では、履歴ターゲットトリプレットと組み合わせて構文構造ツリーの重みを適時に調整することができるので、ターゲットトリプレットの決定正確率が向上された。
次に、本発明による情報を生成するための方法においてターゲットトリプレットを決定するフロー400を示している図4を参照する。図4に示すように、本発明は、ステップ401、ステップ402、ステップ403及びステップ404に基づいてターゲットトリプレットを決定することができる。
ステップ401においては、依存関係ツリーに基づいてターゲットテキストの中の数量詞及び連体修飾語を決定する。
本実施例においては、依存関係ツリーは、単語の品詞及び機能を表しているので、実行主体は、生成されたターゲットテキストの依存関係ツリーに基づいてターゲットテキストの中の数量詞及び連体修飾語を決定することができる。連体修飾語は、主語及び目的語を修飾するために用いられ、名詞、代名詞及び形容詞を含んでもよい。
ステップ402においては、前記数量詞が修飾するオブジェクト及び前記連体修飾語が修飾するオブジェクトを決定する。
数量詞及び連体修飾語が決定されると、実行主体は、前記数量詞が修飾するオブジェクト及び前記連体修飾語が修飾するオブジェクトを決定することができる。前記オブジェクトは、トリプレットの中の主語であってもよく、トリプレットの中の目的語であってもよい。一例として、テキスト「一個のリンゴ」においては、「一個」は、数量詞であり、「リンゴ」は、数量詞である「一個」が修飾するオブジェクトである。テキスト「赤リンゴ」においては、「赤」は、連体修飾語であり、「リンゴ」は、連体修飾語である「赤」が修飾するオブジェクトである。
ステップ403においては、決定された数量詞、連体修飾語、オブジェクトに基づいて少なくとも1つのトリプレットを更新する。
実行主体は、前記数量詞、連体修飾語及びその修飾対象であるオブジェクトが決定された後、少なくとも1つのトリプレットを更新することができる。例えば、決定されたオブジェクトがトリプレットの目的語である場合、実行主体は、前記オブジェクトを修飾する数量詞及び/又は連体修飾語を、前記オブジェクトと結合させ、結合後のテキストをトリプレットの新たな目的語とすることによって、前記トリプレットを更新する。前記更新により、各トリプレットにおける単語を増やすことができ、更新されたトリプレットに含まれる文字数でターゲットトリプレットを決定することができるので、ターゲットトリプレットの決定正確率が向上されることができる。一例として、ターゲットテキストは、「張三さんは、深センの誕生日会に出席する」であり、実行主体は、依存関係ツリーを生成した後に、構文構造ツリーとマッチングさせることでトリプレット「張三さん・深セン・出席する」及びトリプレット「張三さん・誕生日会・出席する」を取得することができる。依存関係ツリーに基づいて、「深セン」が「誕生日会」の連体修飾語であることを決定でき、実行主体は、更新によってトリプレット「張三さん・深センの誕生日会・出席する」を取得することができる。
本実施例のいくつかの選択的な実施態様では、前記ステップ403は、図4に示されていない次の内容を更に含んでもよい。前記少なくとも1つのトリプレットにおいて目的語とターゲットテキストの連体修飾語とがマッチングされたトリプレットを削除する。
本実施形態においては、実行主体は、得られた少なくとも1つのトリプレットにおいて目的語がターゲットテキストの連体修飾語であるトリプレットが存在するか否かを判定することができる。存在すれば、実行主体は、前記トリプレットを削除することができる。例えば、トリプレット「張三さん・深セン・出席する」に対し、実行主体は、連体修飾語である「深セン」をトリプレットの目的語としてはならないと判定することができる。よって、実行主体は、トリプレット「張三さん・深セン・出席する」が誤っていると判定し、前記トリプレットを削除することができる。従って、計算量を効果的に低減することができるので、計算の効率が向上可能である。
本実施例のいくつかの選択的な実施態様では、実行主体は、図4に示されていない次のステップに従ってトリプレットを更新することができる。まずは、少なくとも1つのトリプレットのうちのトリプレットに対して、決定されたオブジェクトが前記トリプレットの主語又は目的語と一致するか否かを判定する。次に、決定されたオブジェクトが前記トリプレットの主語と一致すると判定された後、前記決定されたオブジェクトを修飾する数量詞、連体修飾語及び前記トリプレットの主語を結合し、結合後のテキストを前記トリプレットの主語として決定する。その後、決定されたオブジェクトが前記トリプレットの目的語と一致すると判定された後、前記決定されたオブジェクトを修飾する数量詞、連体修飾語及び前記トリプレットの目的語を結合し、結合後のテキストを前記トリプレットの目的語として決定する。
前記少なくとも1つのトリプレットのうちの各トリプレットに対して、実行主体は、まずは、決定されたオブジェクトが前記トリプレットの主語又は目的語と一致するか否かを判定することができる。ここで、一致とは、前記オブジェクトにおける少なくとも1つの文字がトリプレットの主語又は目的語における少なくとも1つの文字と同じであることを指してもよいことを理解されたい。例えば、オブジェクトが「張さん」であり、トリプレットの主語が「張三さん」である場合、前記オブジェクトが前記トリプレットの主語と一致していると判定することができる。
決定されたオブジェクトが前記トリプレットの主語と一致すると判定された後、実行主体は、前記オブジェクトを修飾する数量詞、連体修飾語及び前記トリプレットの主語を結合し、結合後のテキストを前記トリプレットの主語とすることができる。例えば、オブジェクトが「張さん」であり、前記オブジェクトを修飾する連体修飾語が「すがすがしい」であり、トリプレットの主語が「張三さん」である場合、結合後のテキストは、「すがすがしい張三さん」であってもよい。その後、「すがすがしい張三さん」を前記トリプレットの主語とする。こうすると、トリプレットの主語に対する更新が実現された。
決定されたオブジェクトが前記トリプレットの目的語と一致すると判定された後、実行主体は、前記オブジェクトを修飾する数量詞、連体修飾語及び前記トリプレットの目的語を結合し、結合後のテキストを前記トリプレットの目的語とすることができる。こうすると、トリプレットの目的語に対する更新が実現された。
トリプレットに対して更新を行うときに、トリプレットの主語のみを更新してもよく、トリプレットの目的語のみを更新してもよく、トリプレットの主語及び目的語を同時に更新してもよいことを理解されたい。また、前記結合の操作を行う際、数量詞と連体修飾語のうちの何れかをトリプレットの主語又はトリプレットの目的語と結合してもよい。
ステップ404においては、更新された少なくとも1つのトリプレットから1つのターゲットトリプレットを決定する。
トリプレットが更新された後、更新された少なくとも1つのトリプレットから1つのターゲットトリプレットを決定することができる。具体的には、実行主体は、サブステップ4041及びサブステップ4042に従ってターゲットトリプレットを決定することができる。
サブステップ4041においては、少なくとも1つのトリプレットのうちのトリプレットに対して、マッチングによって得られた前記トリプレットの構文構造ツリーの事前設定重みを決定し、前記トリプレットに含まれる単語の文字数を決定し、前記トリプレットにおける単語の共起度を決定し、決定された重み、文字数及び共起度に基づいて前記トリプレットの得点を決定する。
前記少なくとも1つのトリプレットのうちの各トリプレットに対して、実行主体は、まずは、マッチングによって得られた前記トリプレットの構文構造ツリーの重みを決定することができる。次に、前記トリプレットに含まれる単語に基づいて前記トリプレットに含まれる単語の文字数を決定する。次に、前記トリプレットにおける単語の共起度を決定する。最後に、決定された重み、文字数及び共起度に基づいて前記トリプレットの得点を計算する。なお、ここでの共起とは、トリプレットにおける単語が同一の語句、同一の段落又は同一の文章の中に現れることを指してもよい。前記共起度は、トリプレットの中の一番目の単語が現れる確率と、一番目の単語が現れた上で二番目の単語が現れる確率と、一番目の単語及び二番目の単語が現れた上で三番目の単語が現れる確率との三者の積であってもよい。
例えば、トリプレットが「張三さん・新生児・見舞う」である場合、実行主体は、まずは、予め設定された情報の集合中の「張三さん」が現れる確率を決定することができる。前記情報の集合は、ホームページのタイトルの集合、多数の文章の集合等であってもよい。前記情報の集合は、10000のメーセッジを含み、その中、「張三さん」が含まれるメーセッジは、100であると仮定すると、「張三さん」が現れる確率は、1%である。そして、実行主体は、前記情報の集合における「張三さん」が含まれるメーセッジから、「見舞う」が現れる確率を決定することができる。前記「張三さん」が含まれる100のメーセッジのうち、20のメーセッジには「見舞う」が含まれると仮定すると、「張三さん」が現れた上で、「見舞う」が現れる確率は、20%である。その後、実行主体は、同じ方法で「張三」及び「見舞う」が現れた上で、「新生児」が「見舞う」の目的語として現れる確率は、50%であることを決定することができる。よって、前記共起度は、1%×20%×50%=0.1%である。
実行主体は、重み、文字数及び共起度を取得した後、次の式に従って前記トリプレットの得点を決定することができる。得点=a×重み+b×文字数+c×共起度。式中、a、b、cは、予め設定された係数である。
サブステップ4042においては、少なくとも1つのトリプレットのうちの、得点が最も高いトリプレットをターゲットトリプレットとして決定する。
各トリプレットの得点が得られた後、実行主体は、前記少なくとも1つのトリプレットのうちの、得点が最も高いトリプレットをターゲットトリプレットとすることができる。トリプレットの得点が高ければ高いほど、前記トリプレットの正確率が高くなり、ターゲットテキストに含まれるオブジェクトとオブジェクトの記述情報をよりよく表現できることを理解されたい。
本発明の前記実施例による情報を生成するための方法では、複数のトリプレットからターゲットテキストと最も関連する1つのトリプレットを決定することができるので、トリプレットの抽出正確率が向上された。
次に、本発明の情報を生成するための方法のもう1つの実施例のフロー500を示している図5を参照する。図5に示すように、本実施例の情報を生成するための方法は、ターゲットトリプレットが得られた後、ステップ501、ステップ502及びステップ503を更に含むことができる。
ステップ501においては、ターゲットトリプレットに基づいて、予め設定された履歴イベント情報集合中のターゲットテキストと関連する少なくとも1つの履歴イベント情報を決定する。
ターゲットトリプレットが決定された後、前記ターゲットトリプレットに基づいて予め設定された履歴イベント情報集合中のターゲットテキストと関連する少なくとも1つの履歴イベント情報を決定することができる。前記履歴イベント情報は、オブジェクト及びオブジェクトの記述情報を含んでもよい。本実施例においては、履歴イベント情報におけるオブジェクトがターゲットトリプレットの主語と同じである場合、又は、履歴イベント情報には、ターゲットトリプレットの主語、述語又は目的語が含まれる場合、履歴イベント情報は、ターゲットテキストと関連していると見なすことが可能である。
本実施例のいくつかの選択的な実施態様では、履歴イベント情報は、参加者情報及びトリガーワード情報を含んでもよい。実行主体は、図5に示されていない次のステップに従って履歴イベント情報とターゲットテキストが関連しているか否かを判定することができる。まずは、ターゲットトリプレットの主語又は目的語と履歴イベント情報集合における履歴イベント情報の参加者情報とが一致する条件、及び、ターゲットトリプレットの述語と履歴イベント情報集合における履歴イベント情報のトリガーワード情報とが一致する条件を満たすか否かを判定する。次に、履歴イベント情報が、ターゲットテキストと関連している上述した各条件のうちの少なくとも1つを満たすと決定する。
本実施形態においては、前記参加者情報は、履歴イベントにおける関連人物の情報であってもよい。トリガーワード情報は、前記参加者情報の動作情報であってもよい。例えば、履歴イベント情報は、「小明さんと小紅さんは、一緒に第1の食堂に昼ご飯を食べに行く」であれば、参加者情報は、「小明さん」及び「小紅さん」を含んでもよく、トリガーワード情報は、「食べる」である。ターゲットトリプレットの主語又は目的語と参加者情報とをマッチングし、一致であれば、トリプレットの主語又は目的語が履歴イベントにおける参加者と同じであると考えられる。ターゲットトリプレットの述語とトリガーワード情報とをマッチングさせ、一致であれば、トリプレットの述語が履歴イベントにおけるトリガーワードと同じであると考えられる。前記2つの条件のうちの少なくとも1つが満たされると、実行主体は、前記履歴イベントとターゲットテキストが関連していると見なすことができる。
ステップ502においては、ターゲットテキストと少なくとも1つの履歴イベント情報の類似度を決定する。
ターゲットトリプレットに基づいて少なくとも1つの履歴イベント情報が決定された後、更にターゲットテキストと最も関連する履歴イベント情報を取得するために、実行主体は、ターゲットテキストと前記少なくとも1つの履歴イベント情報のうちの各履歴イベント情報との類似度を決定することができる。実行主体は、ターゲットテキストと履歴イベント情報における同じ文字又は単語の数に基づいて、ターゲットテキストと履歴イベント情報の類似度を決定することができる。又は、実行主体は、更に履歴イベント情報における前記条件を満たす項目の数に対して類似度を決定することができる。
本実施例のいくつかの選択的な実施態様では、前記履歴イベント情報は、キーワードを含んでもよい。前記キーワードは、イベント名称、イベント発生時間等であってもよい。なお、前記イベント名称は、履歴イベントの主語、述語及び目的語を含んでもよい。実行主体は、図5に示されていない次のステップに従ってターゲットテキストと履歴イベント情報の類似度を決定することができる。まずは、ターゲットテキストを分割することによって、第1の単語集合を取得する。次に、前記少なくとも1つの履歴イベント情報のうちの各履歴イベント情報に対して、前記履歴イベント情報に含まれる各キーワードを連結し、連結されたテキストを分割することによって、第2の単語集合を取得する。第1の単語集合及び第2の単語集合に基づいてターゲットテキストと前記履歴イベント情報の類似度を決定する。
本実施形態においては、実行主体は、まずは、ターゲットテキストを分割することによって、第1の単語集合を取得することができる。分割時、意味に基づいて分割してもよく、文字数に基づいて分割してもよい。次に、前記少なくとも1つの履歴イベント情報のうちの各履歴イベント情報に対して、実行主体は、前記履歴イベント情報に含まれる各キーワードを連結し、連結されたテキストを分割することによって、第2の単語集合を取得する。類似度の正決性を決保するために、同じ粒度で分割することができる。即ち、ターゲットテキスト及び結合されたテキストを分割する際、何れもbigram又はtrigramの方法を用いて分割し、得られた単語に含まれる文字数が同じである。例えば、ターゲットテキストは、「私は中国人」である場合、bigramの方法を用いて分割すると、「私は」「は中」「中国」「国人」が得られるが、trigramの方法を用いて分割すると、「私は中」「は中国)」「中国人」が得られる。
実行主体は、第1の単語集合及び第2の単語集合が得られた後、第1の単語集合及び第2の単語集合における単語の全てを列挙することができる。その後、前記各単語がターゲットテキストに現れる回数を統計し、得られた各回数を組み合わせて第1の単語ベクトルAが得られる。次に、前記各単語が結合されたテキストに現れる回数を統計し、得られた各回数を組み合わせて第2の単語ベクトルBが得られる。次に、実行主体は、ベクトルの余弦の公式に基づいてターゲットテキストと結合されたテキストの類似度を計算する。
式中、A=(A,A,…,A)、B=(B,B,…,B)。ただし、Aは、第1の単語ベクトルAのうちのi番目の値であり、Bは、第2の単語ベクトルBのうちのi番目の値である。
ステップ503においては、ターゲットテキストとの類似度が最も高い履歴イベント情報を出力する。
ターゲットテキストと関連する各履歴イベント情報とターゲットテキストの類似度が決定された後、実行主体は、ターゲットテキストとの類似度が最も高い履歴イベント情報を出力することができる。
本発明の前記実施例による情報を生成するための方法では、ユーザの情報量を充実するために、履歴イベント情報集合中のターゲットテキストと最も関連する履歴イベント情報を決定することができる。本実施例の方法は、ビデオを選別するために応用することができる。ビデオのタイトルをターゲットテキストとし、ビデオタイトルのターゲットトリプレットを決定し、その後、前記ビデオタイトルと関連する履歴イベントを選別することによって、そのビデオが古いビデオであるか否かを判断することができる。
更に、図6に示すように、前記各図面に示される方法の実現として、本発明は、情報を生成するための装置の一実施形態を提供する。前記装置の実施例は、図2に示される方法の実施例に対応し、前記装置は、具体的に様々な電子機器に応用することができる。
図6に示すように、本実施例の情報を生成するための装置600は、ターゲットテキスト受信ユニット601、依存関係ツリー生成ユニット602、トリプレット決定ユニット603及びターゲットトリプレット決定ユニット604を含む。
ここで、ターゲットテキスト受信ユニット601は、ターゲットテキストを受信するように構成されている。ターゲットテキストは、オブジェクト及びオブジェクトに対する記述情報を含む。
依存関係ツリー生成ユニット602は、ターゲットテキストに対して依存構文解析を行い、ターゲットテキストの依存関係ツリーを生成するように構成されている。
トリプレット決定ユニット603は、予め設定された少なくとも1つの構文構造ツリーと依存関係ツリーとをマッチングさせることで、主語、述語及び目的語からなる少なくとも1つのトリプレットを取得するように構成されている。
ターゲットトリプレット決定ユニット604は、少なくとも1つのトリプレットにおける1つのトリプレットに含まれる単語及びトリプレットを取得するためにマッチングされる前記構文構造ツリーの事前設定重みに基づいて、少なくとも1つのトリプレットから1つのターゲットトリプレットを決定するように構成されている。
本実施例のいくつかの選択的な実施態様では、前記ターゲットトリプレット決定ユニット604は、図6に示されていない連体修飾語決定モジュール、オブジェクト決定モジュール、トリプレット更新モジュール及びターゲットトリプレット決定モジュールを更に含んでもよい。
連体修飾語決定モジュールは、依存関係ツリーに基づいてターゲットテキストの中の数量詞及び連体修飾語を決定するように構成されている。
オブジェクト決定モジュールは、数量詞が修飾するオブジェクト及び連体修飾語が修飾するオブジェクトを決定するように構成されている。
トリプレット更新モジュールは、決定された数量詞、連体修飾語及びオブジェクトに基づいて少なくとも1つのトリプレットを更新するように構成されている。
ターゲットトリプレット決定モジュールは、更新された少なくとも1つのトリプレットから1つのターゲットトリプレットを決定するように構成されている。
本実施例のいくつかの選択的な実施態様では、前記トリプレット更新モジュールは、少なくとも1つのトリプレットのうちのトリプレットに対して、決定されたオブジェクトが前記トリプレットの主語又は目的語と一致するか否かを判定し、決定されたオブジェクトが前記トリプレットの主語と一致すると判定されたことに応答し、決定されたオブジェクトを修飾する数量詞、連体修飾語及び前記トリプレットの主語を結合し、結合後のテキストを前記トリプレットの主語として決定し、決定されたオブジェクトが前記トリプレットの目的語と一致すると判定されたことに応答し、決定されたオブジェクトを修飾する数量詞、連体修飾語及び前記トリプレットの目的語を結合し、結合後のテキストを前記トリプレットの目的語として決定するように更に構成されてもよい。
本実施例のいくつかの選択的な実施態様では、前記ターゲットトリプレット決定モジュールは、少なくとも1つのトリプレットのうちのトリプレットに対して、前記トリプレットを取得するためにマッチングされる前記構文構造ツリーの事前設定重みを決定し、前記トリプレットに含まれる単語の文字数を決定し、前記トリプレットにおける単語の共起度を決定し、決定された重み、文字数及び共起度に基づいて前記トリプレットの得点を決定し、少なくとも1つのトリプレットのうちの、得点が最も高いトリプレットをターゲットトリプレットとして決定するように更に構成されてもよい。
本実施例のいくつかの選択的な実施態様では、前記装置600は、図6に示されていない重み設置ユニットを更に含んでもよい。前記重み設置ユニットは、履歴ターゲットトリプレットモジュール、トリプレット数量統計モジュール及び重み決定モジュールを含んでもよい。
履歴ターゲットトリプレットモジュールは、少なくとも1つの履歴ターゲットトリプレットを取得するように構成されている。
トリプレット数量統計モジュールは、前記少なくとも1つの履歴ターゲットトリプレットのうちの、所定の構文構造ツリーからマッチングされて得られた履歴ターゲットトリプレットの数を統計するように構成されている。
重み決定モジュールは、統計の結果に基づいて前記少なくとも1つの構文構造ツリーの重みを決定するように構成されている。
本実施例のいくつかの選択的な実施態様においては、前記装置600は、図6に示されていない履歴イベント情報決定ユニット、類似度決定ユニット及び履歴イベント情報出力ユニットを更に含んでもよい。
ここで、履歴イベント情報決定ユニットは、ターゲットトリプレットに基づいて予め設定された履歴イベント情報集合中のターゲットテキストと関連する少なくとも1つの履歴イベント情報を決定するように構成されている。
類似度決定ユニットは、ターゲットテキストと少なくとも1つの履歴イベント情報の類似度を決定するように構成されている。
履歴イベント情報出力ユニットは、ターゲットテキストとの類似度が最も高い履歴イベント情報を出力するように構成されている。
本実施例のいくつかの選択的な実施態様においては、前記履歴イベント情報は、参加者情報及びトリガーワード情報を含んでもよい。前記履歴イベント情報決定ユニットは更に、ターゲットトリプレットの主語又は目的語が履歴イベント情報集合における履歴イベント情報の参加者情報と一致する条件、及び、ターゲットトリプレットの述語が履歴イベント情報集合における履歴イベント情報のトリガーワード情報と一致する条件を満たすか否かを判定し、履歴イベント情報が、ターゲットテキストと関連している上述した各条件のうちの少なくとも1つを満たすと決定するように構成されている。
本実施例のいくつかの選択的な実施態様においては、前記履歴イベント情報は、キーワードを含んでもよい。前記類似度決定ユニットは更に、ターゲットテキストを分割することによって、第1の単語集合を取得し、少なくとも1つの履歴イベント情報のうちの履歴イベント情報に対して、前記履歴イベント情報に含まれる各キーワードを連結し、連結されたテキストを分割することによって、第2の単語集合を取得し、第1の単語集合及び第2の単語集合に基づいてターゲットテキストと前記履歴イベント情報の類似度を決定するように構成されている。
本発明の前記実施例による情報を生成するための装置は、ターゲットテキストが受信された後、ターゲットテキストに対して依存構文解析を行ってターゲットテキストの依存関係ツリーを生成することができる。次に、予め設定された少なくとも1つの構文構造ツリーと前記依存関係ツリーとをマッチングさせることによって、少なくとも1つのトリプレットを取得する。最後に、前記少なくとも1つのトリプレットにおける各トリプレットに含まれる単語及び前記トリプレットを取得するためにマッチングされる前記構文構造ツリーの事前設定重みに基づいて、前記少なくとも1つのトリプレットから1つのターゲットトリプレットを決定する。本実施例の装置は、ターゲットテキストに含まれるイベントと最も関連するトリプレットを選択することができるので、ターゲットトリプレットの抽出正確率が向上された。
情報を生成するための装置600に記載のユニット601〜ユニット604は、それぞれ図2に示されている方法の中の各ステップに対応していることを理解されたい。従って、以上、情報を生成するための方法について説明した操作及び特徴は、同様に装置600及びその中に含まれるユニットにも適しているので、ここではこれ以上くどくど述べない。
以下、本発明の実施例を実現するための設備に適用されるコンピュータシステム700を示す構造模式図である図7を参照する。図7に示す設備は、一例に過ぎず、本発明の実施例の機能及び使用範囲を限定するものではない。
図7に示すように、コンピュータシステム700は、読み出し専用メモリ(ROM)702に記憶されているプログラム又は記憶部708からランダムアクセスメモリ(RAM)703にロードされたプログラムによって様々な適当な動作及び処理を実行することができる中央処理装置(CPU)701を備える。RAM703には、システム700の動作に必要な様々なプログラム及びデータが更に格納されている。CPU701、ROM702及びRAM703は、バス704を介して互いに接続されている。入力/出力(I/O)インターフェース705もバス704に接続されている。
キーボード、マウスなどを含む入力部706、陰極線管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む出力部707、ハードディスクなどを含む記憶部708、並びにLANカード、モデムなどを含むネットワークインターフェースカードの通信部709は、I/Oインターフェース705に接続されている。通信部709は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ710は、必要に応じてI/Oインターフェース705に接続される。リムーバブルメディア711は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ710に取り付けられ、それによって、リムーバブルメディア711から読み出されたコンピュータプログラムが必要に応じて記憶部708にインストールされる。
特に、本発明の実施例によれば、上記のフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本発明の実施例は、機械可読記憶媒体に具現化されるコンピュータプログラムを含むコンピュータプログラム製品を備え、前記コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施例では、前記コンピュータプログラムは、通信部709を介してネットワークからダウンロードされてインストールされてもよく、及び/又はリムーバブルメディア711からインストールされてもよい。前記コンピュータプログラムが中央処理装置(CPU)701によって実行される場合の、本発明の方法で限定された上記の機能を実行する。
なお、本発明の前記コンピュータ可読記憶媒体は、コンピュータ可読信号記憶媒体又はコンピュータ可読記憶媒体、又はこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置もしくはデバイス、又はこれらの任意の組み合わせであることができるが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例としては、1本以上の導線を有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMもしくはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD−ROM)、光メモリ、磁気メモリ、又はこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。
本発明において、コンピュータ可読記憶媒体は、命令実行システム、装置もしくはデバイスによって使用可能な、又はそれらに組み込まれて使用可能なプログラムを包含又は格納する任意の有形の記憶媒体であってもよい。本発明において、コンピュータ可読信号記憶媒体は、ベースバンド内で、又はキャリアの一部として伝搬される、コンピュータ可読プログラムコードが担持されたデータ信号を含んでもよい。このような伝搬されたデータ信号は、様々な形態をとることができ、電磁信号、光信号、又はこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。コンピュータ可読信号記憶媒体は、更にコンピュータ可読記憶媒体以外の任意のコンピュータ可読記憶媒体であってもよい。前記コンピュータ可読記憶媒体は、命令実行システム、装置もしくはデバイスによって使用されるか、又はそれらに組み込まれて使用されるプログラムを、送信、伝搬又は転送することができる。コンピュータ可読記憶媒体に含まれるプログラムコードは任意の適切な媒体で送信することができ、無線、有線、光ケーブル、RFなど、又はこれらの任意の適切な組み合わせを含むが、これらに限定されない。
本発明の動作を実行するためのコンピュータプログラムコードは、1種以上のプログラミング言語、又はそれらの組み合わせで作成されることができ、前記プログラミング言語は、Java(登録商標)、Smalltalk、C++などのオブジェクト指向プログラミング言語と、「C」言語又は同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む。プログラムコードは、完全にユーザのコンピュータ上で実行され、部分的にユーザのコンピュータ上で実行され、独立したソフトウェアパッケージとして実行され、一部がユーザのコンピュータ上で一部がリモートコンピュータ上で実行され、又は完全にリモートコンピュータ又はサーバ上で実行されてもよい。リモートコンピュータに関わる場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続されることができ、又は外部のコンピュータに接続されることができる(例えばインターネットサービスプロバイダによりインターネットで接続される)。
図面におけるフローチャート及びブロック図は、本発明の各実施例に係るシステム、方法及びコンピュータプログラム製品により実現可能なアーキテクチャ、機能及び操作を示す。ここで、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメントもしくはコードの一部を表してもよく、前記モジュール、プログラムセグメントもしくはコードの一部は、規定されたロジック機能を達成するための1つ以上の実行可能な命令を含む。なお、いくつかの代替実施態様において、ブロック内に示された機能は、図面に示された順番とは異なるもので実行されてもよい。例えば、連続して示された2つのブロックは、実際には関連する機能に応じて、ほぼ並行に実行されてもよく、逆の順番で実行されてもよい。なお、ブロック図及び/又はフローチャートにおける各ブロック、並びに、ブロック図および/又はフローチャートにおけるブロックの組み合わせは、規定された機能もしくは動作を実行する、ハードウェアに基づく専用システムで実現されてもよく、又は、専用ハードウェアとコンピュータ命令との組み合わせで実行されてもよい。
本発明の実施例に記載されたユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設けられてもよく、例えば、「プロセッサは、ターゲットテキスト受信ユニット、依存関係ツリー生成ユニット、トリプレット決定ユニット及びターゲットトリプレット決定ユニットを備える」ように記載されてもよい。ここで、これらのユニットの名称は、ある場合において前記ユニット自体を限定するものではなく、例えば、ターゲットテキスト受信ユニットは、「ターゲットテキストを受信するユニット」として記載されてもよい。
一方、本発明は、コンピュータ可読記憶媒体を更に提供し、前記コンピュータ可読記憶媒体は、前記実施例に記載された装置に含まれるものであってもよく、独立に存在して前記装置に組み立てられていないものであってもよい。前記コンピュータ可読記憶媒体は、一つ又は複数のプログラムを担持しており、前記一つ又は複数のプログラムが前記装置によって実行される場合に、前記装置は、オブジェクト及び前記オブジェクトに対する記述情報を含むターゲットテキストを受信し、ターゲットテキストに対して依存構文解析を行ってターゲットテキストの依存関係ツリーを生成し、予め設定された少なくとも1つの構文構造ツリーと依存関係ツリーとをマッチングさせて、主語、述語及び目的語からなる少なくとも1つのトリプレットを取得し、少なくとも1つのトリプレットにおける1つのトリプレットに含まれる単語及びトリプレットを取得するためにマッチングされる前記構文構造ツリーの事前設定重みに基づいて、少なくとも1つのトリプレットから1つのターゲットトリプレットを決定する。
以上の記載は、本発明の好ましい実施例、及び使用された技術的原理の説明に過ぎない。本発明に係る発明の範囲が、上記の技術的特徴の特定な組み合わせからなる技術案に限定されるものではなく、上記の本発明の趣旨を逸脱しない範囲で、上記の技術的特徴又はそれらの同等の特徴を任意に組み合わせたものからなる他の技術案も含むべきであることを、当業者は理解すべきである。例えば、上記の特徴と、本発明に開示された(これらに限定されない)類似の機能を持っている技術的特徴とを互いに置き換えてなる技術案が挙げられる。

Claims (18)

  1. オブジェクト及び前記オブジェクトに対する記述情報を含むターゲットテキストを受信するステップと、
    前記ターゲットテキストに対して依存構文解析を行って前記ターゲットテキストの依存関係ツリーを生成するステップと、
    予め設定された少なくとも1つの構文構造ツリーと前記依存関係ツリーとをマッチングさせて、主語、述語及び目的語からなる少なくとも1つのトリプレットを取得するステップと、
    前記少なくとも1つのトリプレットにおける1つのトリプレットに含まれる単語及び前記トリプレットを取得するためにマッチングされる前記構文構造ツリーの事前設定重みに基づいて、前記少なくとも1つのトリプレットから1つのターゲットトリプレットを決定するステップと、
    を含む情報を生成するための方法。
  2. 前記少なくとも1つのトリプレットにおける1つのトリプレットに含まれる単語及び前記トリプレットを取得するためにマッチングされる前記構文構造ツリーの事前設定重みに基づいて、前記少なくとも1つのトリプレットから1つのターゲットトリプレットを決定するステップは、
    前記依存関係ツリーに基づいて前記ターゲットテキストの中の数量詞及び連体修飾語を決定するステップと、
    前記数量詞が修飾するオブジェクト及び前記連体修飾語が修飾するオブジェクトを決定するステップと、
    前記決定された数量詞、連体修飾語及びオブジェクトに基づいて、前記少なくとも1つのトリプレットを更新するステップと、
    前記更新された少なくとも1つのトリプレットから前記1つのターゲットトリプレットを決定するステップと、
    を含む請求項1に記載の方法。
  3. 前記決定された数量詞、連体修飾語及びオブジェクトに基づいて、前記少なくとも1つのトリプレットを更新するステップは、
    前記少なくとも1つのトリプレットのうちの前記トリプレットに対して、前記決定されたオブジェクトが、前記トリプレットの前記主語又は前記目的語と一致するか否かを判定するステップと、
    前記決定されたオブジェクトが前記トリプレットの前記主語と一致することが判定されたことに応答して、前記決定されたオブジェクトを修飾する前記数量詞、前記連体修飾語及び前記トリプレットの前記主語を結合し、結合されたテキストを、前記トリプレットの前記主語として決定するステップと、
    前記決定されたオブジェクトが、前記トリプレットの前記目的語と一致することが判定されたことに応答して、前記決定されたオブジェクトを修飾する前記数量詞、前記連体修飾語及び前記トリプレットの前記目的語を結合し、結合されたテキストを、前記トリプレットの前記目的語として決定するステップと、
    を含む請求項2に記載の方法。
  4. 前記少なくとも1つのトリプレットにおける1つのトリプレットに含まれる単語及び前記トリプレットを取得するためにマッチングされる前記構文構造ツリーの事前設定重みに基づいて、前記少なくとも1つのトリプレットから1つのターゲットトリプレットを決定するステップは、
    前記少なくとも1つのトリプレットのうちの前記トリプレットに対して、前記トリプレットを取得するためにマッチングされる前記構文構造ツリーの前記事前設定重みを決定し、前記トリプレットに含まれる前記単語の文字数を決定し、前記トリプレットに含まれる前記単語の共起度を決定し、前記決定された重み、文字数及び共起度に基づいて前記トリプレットの得点を決定するステップと、
    前記少なくとも1つのトリプレットのうちの、得点が最も高いトリプレットをターゲットトリプレットとして決定するステップと、
    を含む請求項1〜3の何れか1項に記載の方法。
  5. 前記方法は、
    少なくとも1つの履歴ターゲットトリプレットを取得するステップと、
    前記少なくとも1つの履歴ターゲットトリプレットのうちの、所定の構文構造ツリーをマッチングさせることによって取得された履歴ターゲットトリプレットの数を統計するステップと、
    前記統計結果に基づいて前記少なくとも1つの構文構造ツリーの重みを決定するステップと、
    を更に含む請求項1〜3の何れか1項に記載の方法。
  6. 前記方法は、
    前記ターゲットトリプレットに基づいて、予め設定された履歴イベント情報集合中の前記ターゲットテキストと関連する少なくとも1つの履歴イベント情報を決定するステップと、
    前記ターゲットテキストと前記少なくとも1つの履歴イベント情報の類似度を決定するステップと、
    前記ターゲットテキストとの類似度が最も高い履歴イベント情報を出力するステップと、
    を更に含む請求項1に記載の方法。
  7. 前記履歴イベント情報は、参加者情報及びトリガーワード情報を含み、
    前記ターゲットトリプレットに基づいて、予め設定された履歴イベント情報集合中の前記ターゲットテキストと関連する少なくとも1つの履歴イベント情報を決定するステップは、
    前記ターゲットトリプレットの主語又は目的語が、前記履歴イベント情報集合における前記履歴イベント情報の前記参加者情報と一致する条件、又は、前記ターゲットトリプレットの述語が、前記履歴イベント情報集合における前記履歴イベント情報の前記トリガーワード情報と一致する条件、を満たすか否かを判定するステップと、
    前記履歴イベント情報が、前記ターゲットテキストと関連している上述した各条件のうちの少なくとも1つを満たすことを決定するステップと、
    を含む請求項6に記載の方法。
  8. 前記履歴イベント情報は、キーワードを含み、
    前記ターゲットテキストと前記少なくとも1つの履歴イベント情報の類似度を決定するステップは、
    前記ターゲットテキストを分割して、第1の単語集合を取得するステップと、
    前記少なくとも1つの履歴イベント情報のうちの前記履歴イベント情報に対して、前記履歴イベント情報に含まれる各キーワードを連結し、前記連結されたテキストを分割することによって、第2の単語集合を取得するステップと、
    前記第1の単語集合及び前記第2の単語集合に基づいて、前記ターゲットテキストと前記履歴イベント情報の類似度を決定するステップと、
    を含む請求項6に記載の方法。
  9. オブジェクト及び前記オブジェクトに対する記述情報を含むターゲットテキストを受信するように構成されるターゲットテキスト受信ユニットと、
    前記ターゲットテキストに対して依存構文解析を行って前記ターゲットテキストの依存関係ツリーを生成するように構成される依存関係ツリー生成ユニットと、
    予め設定された少なくとも1つの構文構造ツリーと前記依存関係ツリーとをマッチングして、主語、述語及び目的語からなる少なくとも1つのトリプレットを取得するように構成されるトリプレット決定ユニットと、
    前記少なくとも1つのトリプレットにおける1つのトリプレットに含まれる単語及び前記トリプレットを取得するためにマッチングされる前記構文構造ツリーの事前設定重みに基づいて、前記少なくとも1つのトリプレットから1つのターゲットトリプレットを決定するように構成されるターゲットトリプレット決定ユニットと、
    を含む情報を生成するための装置。
  10. 前記ターゲットトリプレット決定ユニットは、
    前記依存関係ツリーに基づいて前記ターゲットテキストの中の数量詞及び連体修飾語を決定するように構成される連体修飾語決定モジュールと、
    前記数量詞が修飾するオブジェクト及び前記連体修飾語が修飾するオブジェクトを決定するように構成されるオブジェクト決定モジュールと、
    前記決定された数量詞、連体修飾語及びオブジェクトに基づいて、前記少なくとも1つのトリプレットを更新するように構成されるトリプレット更新モジュールと、
    前記更新された少なくとも1つのトリプレットから前記1つのターゲットトリプレットを決定するように構成されるターゲットトリプレット決定モジュールと、
    を含む請求項9に記載の装置。
  11. 前記トリプレット更新モジュールは、更に
    前記少なくとも1つのトリプレットのうちの前記トリプレットに対して、前記決定されたオブジェクトが前記トリプレットの前記主語又は前記目的語と一致するか否かを判定し、
    前記決定されたオブジェクトが前記トリプレットの前記主語と一致することが判定されたことに応答して、前記決定されたオブジェクトを修飾する前記数量詞、前記連体修飾語及び前記トリプレットの前記主語を結合し、結合されたテキストを、前記トリプレットの前記主語として決定し、
    前記決定されたオブジェクトが、前記トリプレットの前記目的語と一致することが判定されたことに応答して、前記決定されたオブジェクトを修飾する前記数量詞、前記連体修飾語及び前記トリプレットの前記目的語を結合し、結合されたテキストを、前記トリプレットの前記目的語として決定するように構成される、
    請求項10に記載の装置。
  12. 前記ターゲットトリプレット決定ユニットは、更に
    前記少なくとも1つのトリプレットのうちの前記トリプレットに対して、前記トリプレットを取得するためにマッチングされる前記構文構造ツリーの前記事前設定重みを決定し、前記トリプレットに含まれる前記単語の文字数を決定し、前記トリプレットに含まれる前記単語の共起度を決定し、前記決定された重み、文字数及び共起度に基づいて前記トリプレットの得点を決定し、
    前記少なくとも1つのトリプレットのうちの、得点が最も高いトリプレットをターゲットトリプレットとして決定するように構成される、
    請求項9〜11の何れか1項に記載の装置。
  13. 前記装置は、
    少なくとも1つの履歴ターゲットトリプレットを取得するように構成される履歴ターゲットトリプレットモジュールと、
    前記少なくとも1つの履歴ターゲットトリプレットのうちの、所定の構文構造ツリーをマッチングさせることによって取得された履歴ターゲットトリプレットの数を統計するように構成されるトリプレット数量統計モジュールと、
    前記統計結果に基づいて前記少なくとも1つの構文構造ツリーの重みを決定するように構成される重み決定モジュールと、
    からなる重み設置ユニットを更に含む、
    請求項9〜11の何れか1項に記載の装置。
  14. 前記装置は、
    前記ターゲットトリプレットに基づいて、予め設定された履歴イベント情報集合中の前記ターゲットテキストと関連する少なくとも1つの履歴イベント情報を決定するように構成される履歴イベント情報決定ユニットと、
    前記ターゲットテキストと前記少なくとも1つの履歴イベント情報の類似度を決定するように構成される類似度決定ユニットと、
    前記ターゲットテキストとの類似度が最も高い履歴イベント情報を出力するように構成される履歴イベント情報出力ユニットとを更に備える、
    請求項9に記載の装置。
  15. 前記履歴イベント情報は、参加者情報及びトリガーワード情報を含み、
    前記履歴イベント情報決定ユニットは、更に
    前記ターゲットトリプレットの主語又は目的語が、前記履歴イベント情報集合における前記履歴イベント情報の前記参加者情報と一致する条件、又は、前記ターゲットトリプレットの述語が、前記履歴イベント情報集合における前記履歴イベント情報の前記トリガーワード情報と一致する条件、を満たすか否かを判定し、
    前記履歴イベント情報が、前記ターゲットテキストと関連している上述した各条件のうちの少なくとも1つを満たすことを決定するように構成される、
    請求項14に記載の装置。
  16. 前記履歴イベント情報は、キーワードを含み、
    前記類似度決定ユニットは、更に
    前記ターゲットテキストを分割して、第1の単語集合を取得し、
    前記少なくとも1つの履歴イベント情報のうちの前記履歴イベント情報に対して、前記履歴イベント情報に含まれる各キーワードを連結し、前記連結されたテキストを分割することによって、第2の単語集合を取得し、前記第1の単語集合及び前記第2の単語集合に基づいて、前記ターゲットテキストと前記履歴イベント情報の類似度を決定するように構成される、
    請求項14に記載の装置。
  17. 設備であって、
    1つ又は複数のプロセッサと、
    1つ又は複数のプログラムが格納されている記憶装置と、を備え、
    前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサにより実行される場合の、請求項1〜8のいずれか1項に記載の方法を前記1つ又は複数のプロセッサに実行させる、
    設備。
  18. コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、
    前記プログラムがプロセッサにより実行される場合の、請求項1〜8のいずれか1項に記載の前記方法を実現する、
    コンピュータ可読記憶媒体。
JP2019052668A 2018-06-05 2019-03-20 情報を生成するための方法及び装置 Active JP6849723B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810567936.0A CN110569494B (zh) 2018-06-05 2018-06-05 用于生成信息的方法、装置、电子设备及可读介质
CN201810567936.0 2018-06-05

Publications (2)

Publication Number Publication Date
JP2019212289A true JP2019212289A (ja) 2019-12-12
JP6849723B2 JP6849723B2 (ja) 2021-03-24

Family

ID=65817830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019052668A Active JP6849723B2 (ja) 2018-06-05 2019-03-20 情報を生成するための方法及び装置

Country Status (5)

Country Link
US (1) US11494420B2 (ja)
EP (1) EP3579119A1 (ja)
JP (1) JP6849723B2 (ja)
KR (1) KR102290767B1 (ja)
CN (1) CN110569494B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021111417A (ja) * 2020-01-15 2021-08-02 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド Spoの抽出方法、装置、電子機器及び記憶媒体

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027312B (zh) * 2019-12-12 2024-04-19 中金智汇科技有限责任公司 文本扩充方法、装置、电子设备及可读存储介质
CN113128200B (zh) * 2019-12-31 2023-07-21 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN113761919A (zh) * 2020-06-04 2021-12-07 国家计算机网络与信息安全管理中心 一种口语化短文本的实体属性提取方法及电子装置
CN113094469B (zh) * 2021-04-02 2022-07-05 清华大学 文本数据分析方法、装置、电子设备及存储介质
CN113245734B (zh) * 2021-05-11 2023-06-16 无锡先导智能装备股份有限公司 配置参数推荐方法、系统、仪器和存储介质
CN116679889B (zh) * 2023-07-31 2023-11-03 苏州浪潮智能科技有限公司 Raid设备配置信息的确定方法及装置、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4625535B1 (ja) * 2009-12-14 2011-02-02 株式会社野村総合研究所 情報抽出システム及び情報抽出プログラム
US20140129211A1 (en) * 2012-11-07 2014-05-08 International Business Machines Corporation Svo-based taxonomy-driven text analytics
KR20170089142A (ko) * 2016-01-26 2017-08-03 경북대학교 산학협력단 트리플 데이터의 생성 방법 및 시스템
US20170357625A1 (en) * 2016-06-14 2017-12-14 Northrop Grumman Systems Corporation Event extraction from documents

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336205B2 (en) * 2012-04-10 2016-05-10 Theysay Limited System and method for analysing natural language
CN102968431B (zh) * 2012-09-18 2018-08-10 华东师范大学 一种基于依存树的中文实体关系挖掘的控制装置
KR101475439B1 (ko) 2013-02-18 2014-12-24 주식회사 솔트룩스 사용자에게 최적화된 관심 정보를 제공하기 위한 시스템 및 방법
CN103473223B (zh) * 2013-09-25 2017-05-03 中国科学院计算技术研究所 一种基于句法树的规则抽取及翻译方法
US20150127323A1 (en) * 2013-11-04 2015-05-07 Xerox Corporation Refining inference rules with temporal event clustering
KR101396131B1 (ko) * 2013-11-18 2014-05-19 한국과학기술정보연구원 패턴 기반 관계 유사도 측정 장치 및 방법
CN103617280B (zh) * 2013-12-09 2017-01-25 苏州大学 一种中文事件信息挖掘方法和系统
US20150370787A1 (en) * 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems
US10110533B2 (en) * 2014-10-28 2018-10-23 Salesforce.Com, Inc. Identifying entities in email signature blocks
CN104331480B (zh) * 2014-11-07 2017-09-29 苏州大学 一种中文事件触发词的抽取系统及方法
CN104462327B (zh) * 2014-12-02 2018-09-11 百度在线网络技术(北京)有限公司 语句相似度的计算、搜索处理方法及装置
CN104933027B (zh) * 2015-06-12 2017-10-27 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
US20170083817A1 (en) * 2015-09-23 2017-03-23 Isentium, Llc Topic detection in a social media sentiment extraction system
CN105574092B (zh) * 2015-12-10 2019-08-23 百度在线网络技术(北京)有限公司 信息挖掘方法和装置
US10127274B2 (en) * 2016-02-08 2018-11-13 Taiger Spain Sl System and method for querying questions and answers
CN105912575B (zh) * 2016-03-31 2020-05-15 百度在线网络技术(北京)有限公司 文字信息推送方法和装置
CN105975458B (zh) * 2016-05-03 2018-10-09 安阳师范学院 一种基于细粒度依存关系的中文长句相似度计算方法
CN107977379B (zh) * 2016-10-25 2022-06-28 百度国际科技(深圳)有限公司 用于挖掘信息的方法和装置
CN107291687B (zh) * 2017-04-27 2021-03-26 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN107748742A (zh) * 2017-06-16 2018-03-02 平安科技(深圳)有限公司 一种基于句法依存关系提取中心词的方法、终端以及设备
CN107908637B (zh) * 2017-09-26 2021-02-12 北京百度网讯科技有限公司 一种基于知识库的实体更新方法及系统
EP3462331B1 (en) * 2017-09-29 2021-08-04 Tata Consultancy Services Limited Automated cognitive processing of source agnostic data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4625535B1 (ja) * 2009-12-14 2011-02-02 株式会社野村総合研究所 情報抽出システム及び情報抽出プログラム
US20140129211A1 (en) * 2012-11-07 2014-05-08 International Business Machines Corporation Svo-based taxonomy-driven text analytics
KR20170089142A (ko) * 2016-01-26 2017-08-03 경북대학교 산학협력단 트리플 데이터의 생성 방법 및 시스템
US20170357625A1 (en) * 2016-06-14 2017-12-14 Northrop Grumman Systems Corporation Event extraction from documents

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021111417A (ja) * 2020-01-15 2021-08-02 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド Spoの抽出方法、装置、電子機器及び記憶媒体
JP7242719B2 (ja) 2020-01-15 2023-03-20 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Spoの抽出方法、装置、電子機器及び記憶媒体

Also Published As

Publication number Publication date
CN110569494A (zh) 2019-12-13
CN110569494B (zh) 2023-04-07
US20190370272A1 (en) 2019-12-05
US11494420B2 (en) 2022-11-08
KR102290767B1 (ko) 2021-08-17
EP3579119A1 (en) 2019-12-11
KR20190138562A (ko) 2019-12-13
JP6849723B2 (ja) 2021-03-24

Similar Documents

Publication Publication Date Title
JP6849723B2 (ja) 情報を生成するための方法及び装置
WO2020182122A1 (zh) 用于生成文本匹配模型的方法和装置
US10559308B2 (en) System for determining user intent from text
US10630798B2 (en) Artificial intelligence based method and apparatus for pushing news
US20160292591A1 (en) Streamlined analytic model training and scoring system
CN109241286B (zh) 用于生成文本的方法和装置
US20200322570A1 (en) Method and apparatus for aligning paragraph and video
US20200409998A1 (en) Method and device for outputting information
JP2020024674A (ja) 情報をプッシュするための方法及び装置
JP2017204018A (ja) 検索処理方法、検索処理プログラムおよび情報処理装置
US11651015B2 (en) Method and apparatus for presenting information
US9940355B2 (en) Providing answers to questions having both rankable and probabilistic components
US11516159B2 (en) Systems and methods for providing a comment-centered news reader
CN110019948B (zh) 用于输出信息的方法和装置
US10699078B2 (en) Comment-centered news reader
KR102315181B1 (ko) 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램
US20220222442A1 (en) Parameter learning apparatus, parameter learning method, and computer readable recording medium
WO2020052060A1 (zh) 用于生成修正语句的方法和装置
US20180314683A1 (en) Method and device for processing natural language
CN111126073B (zh) 语义检索方法和装置
US11531811B2 (en) Method and system for extracting keywords from text
JP6868062B2 (ja) 情報を更新するための方法と装置
CN109657129B (zh) 用于获取信息的方法及装置
US11321331B1 (en) Generating query answers
CN113780827A (zh) 一种物品筛选方法、装置、电子设备及计算机可读介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190527

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210304

R150 Certificate of patent or registration of utility model

Ref document number: 6849723

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250