JP7112537B2 - 情報処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにプログラム - Google Patents

情報処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにプログラム Download PDF

Info

Publication number
JP7112537B2
JP7112537B2 JP2021003862A JP2021003862A JP7112537B2 JP 7112537 B2 JP7112537 B2 JP 7112537B2 JP 2021003862 A JP2021003862 A JP 2021003862A JP 2021003862 A JP2021003862 A JP 2021003862A JP 7112537 B2 JP7112537 B2 JP 7112537B2
Authority
JP
Japan
Prior art keywords
word
attribute
paragraph
word string
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021003862A
Other languages
English (en)
Other versions
JP2021111414A (ja
Inventor
シュアンジェ リー,
ミィアォ ユー,
ヤービン シー,
シュエフォン ハオ,
シュンチャオ ソン,
イェ ジァン,
ヤン ヂャン,
ヨン ヂュ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021111414A publication Critical patent/JP2021111414A/ja
Application granted granted Critical
Publication of JP7112537B2 publication Critical patent/JP7112537B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Description

本発明の実施例は、コンピュータ技術の分野に関し、特にインターネット技術の分野に関し、より具体的には情報処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにプログラムに関する。
日常の生活においても仕事においても、大量のテキスト情報に触れることになる。テキスト情報には、様々な情報が含まれ得る。テキスト情報をどのように処理するかは、当業者が早急に解決すべき技術的問題である。
従来技術では、処理すべきテキスト情報がテーブルに存在すれば、ヘッダ及び行列情報等により、指定情報を特定することができる。テキスト情報が段落に表示される場合には、テキストを処理するために自然言語処理モデルを用いることが一般的である。トレーニングモデルは手動でテキストをマークするために多くの人手を必要とし、サンプルの生成が困難であり、一般的に一つのトレーニング済みモデルを取得する難易度が大きい。
本出願の実施例は、情報処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにプログラムを提供する。
第1態様では、本出願の実施例は、情報処理方法であって、テキストにおける2つの段落を単語分割して得られた、単語を置き換えるための少なくとも1つの指定された識別子が含まれる単語列を取得するステップと、単語列をトレーニング対象の自然言語処理モデルに入力し、単語列における単語に対応する、単語列における単語及び単語の位置を示すための単語ベクトルを生成するステップと、単語ベクトルをトレーニング対象の自然言語処理モデルにおける、エンコーダ及びデコーダを含む事前設定処理層に入力するステップと、事前設定処理層から出力された処理結果に基づいて、2つの段落が隣接するか否か、及び2つの段落における置き換えられる単語を予測して、予測結果を得るステップと、2つの段落の参照情報を取得し、予測結果及び参照情報に基づいて、トレーニング対象の自然言語処理モデルをトレーニングし、トレーニング済み自然言語処理モデルを取得するステップであって、参照情報は2つの段落が隣接するか否かを示す隣接情報及び置き換えられる単語を含む、ステップと、を含む情報処理方法を提供する。
いくつかの実施例において、前記方法は、第1の対象段落を単語分割して得られた第1の段落単語列及び第1の特定属性を含む第1のサンプル情報を取得するステップと、第1のサンプル情報をトレーニング済み自然言語処理モデルに入力し、第1の段落単語列と第1の特定属性との間の相関度を示すための相関度情報を予測するステップと、予測された相関度情報、及び第1のサンプル情報にマーク付けされた相関度情報に基づいて、トレーニング済み自然言語処理モデルをトレーニングし、第1のモデルを得るステップと、をさらに含む。
いくつかの実施例において、前記方法は、第2のサンプル情報を取得するステップであって、第2のサンプル情報は、第2の対象段落を単語分割して得られた第2の段落単語列、及び第2の特定属性を含み、第2の段落単語列に第2の特定属性とマッチングする属性が存在し、マッチングは完全に一致すること及び/又は部分的に一致することを含む、ステップと、第2のサンプル情報をトレーニング済み自然言語処理モデルに入力し、第2の段落単語列から、第2の特定属性の属性値を予測するステップと、予測された属性値、及びマッチングされた属性にマーク付けされた属性値に基づいて、トレーニング済み自然言語処理モデルをトレーニングし、第2のモデルを得るステップと、をさらに含む。
いくつかの実施例において、第2の段落単語列から、第2の特定属性の属性値を予測するステップは、第2の特定属性の属性値の、段落単語列における開始位置情報及び終了位置情報を含む位置情報を予測することを含む。
いくつかの実施例において、前記方法は、対象テキストを単語分割して得られたテキスト単語列を取得し、テキスト単語列を複数の段落単語列に分割するステップと、複数の段落単語列から、目標属性に関連する段落単語列を確定するステップと、目標属性と確定された段落単語列を第1のモデルに入力し、目標属性と確定された各段落単語列との、相関値を含む相関度情報を予測するステップと、相関値が大きい順に、複数の段落単語列から、所定数の段落単語列を選択するステップと、目標属性及び所定数の段落単語列を第2のモデルに入力し、所定数の段落単語列から、目標属性の属性値、及び目標属性の属性値の信頼度を予測するステップと、相関値と信頼度とに基づいて、予測された目標属性の属性値から、目標属性の属性値を確定するステップと、をさらに含む。
いくつかの実施例において、相関値と信頼度とに基づいて、予測された目標属性の属性値から、目標属性の属性値を確定するステップは、予測された目標属性の属性値のそれぞれについて、該属性値が位置する段落単語列と目標属性の相関値と、該属性値の信頼度との積を確定することと、予測された目標属性の属性値のうち、対応する積が最も大きい属性値を目標属性の属性値として確定することと、を含む。
いくつかの実施例において、複数の段落単語列から、目標属性に関連する段落単語列を確定するステップは、複数の段落単語列のそれぞれについて、該段落単語列の中に目標属性とマッチングする単語が存在するか否かを判定することと、存在すると判定された場合、該段落単語列を目標属性に関連する段落単語列として確定することとを含む。
いくつかの実施例において、単語列をトレーニング対象の自然言語処理モデルに入力し、単語列における単語に対応する単語ベクトルを生成するステップは、単語列をトレーニング対象の自然言語処理モデルにおける埋め込み層に入力することと、単語列における単語に対して、埋め込み層を介して、該単語を単語の識別子に変換し、単語の識別子を第1のベクトルに変換することと、埋め込み層を介して、該単語の単語列における位置情報を、第2のベクトルに変換することと、埋め込み層を介して、該単語の2つの段落のうちの所在段落を示す段落位置情報を確定し、段落位置情報を第3のベクトルに変換することと、第1のベクトル、第2のベクトル及び第3のベクトルを接続して、該単語に対応する単語ベクトルを得ることと、を含む。
いくつかの実施例において、事前設定処理層は複数のカスケード接続される事前設定処理層を含み、単語ベクトルをトレーニング対象の自然言語処理モデルにおける事前設定処理層に入力するステップは、単語ベクトルを複数のカスケード接続される事前設定処理層における第1位の事前設定処理層に入力することを含む。
いくつかの実施例において、事前設定処理層は複数の処理ユニットを含み、処理ユニットは、エンコーダ及びデコーダを含み、複数のカスケード接続される事前設定処理層において、上位の事前設定処理層における各処理ユニットの結果は、下位の事前設定処理層における各処理ユニットに入力される。
第2態様では、本出願の実施例は、情報処理装置であって、テキストにおける2つの段落を単語分割して得られた、単語を置き換えるための少なくとも1つの指定された識別子が含まれる単語列を取得するように構成される第1の取得ユニットと、単語列をトレーニング対象の自然言語処理モデルに入力し、単語列における単語に対応する、単語列における単語及び単語の位置を示すための単語ベクトルを生成するように構成される生成ユニットと、単語ベクトルをトレーニング対象の自然言語処理モデルにおける、エンコーダ及びデコーダを含む事前設定処理層に入力するように構成される入力ユニットと、事前設定処理層から出力された処理結果に基づいて、2つの段落が隣接するか否か、及び2つの段落における置き換えられる単語を予測して、予測結果を得るように構成される予測ユニットと、2つの段落の参照情報を取得し、予測結果及び参照情報に基づいて、トレーニング対象の自然言語処理モデルをトレーニングし、トレーニング済み自然言語処理モデルを取得するように構成される第1のトレーニングユニットであって、参照情報は2つの段落が隣接するか否かを示す隣接情報及び置き換えられる単語を含む、第1のトレーニングユニットと、を含む情報処理装置を提供する。
いくつかの実施例において、前記装置は、第1の対象段落を単語分割して得られた第1の段落単語列及び第1の特定属性を含む第1のサンプル情報を取得するように構成される第2の取得ユニットと、第1のサンプル情報をトレーニング済み自然言語処理モデルに入力し、第1の段落単語列と第1の特定属性との間の相関度を示すための相関度情報を予測するように構成される情報予測ユニットと、予測された相関度情報、及び第1のサンプル情報にマーク付けされた相関度情報に基づいて、トレーニング済み自然言語処理モデルをトレーニングし、第1のモデルを得るように構成される第2のトレーニングユニットと、をさらに含む。
いくつかの実施例において、前記装置は、第2のサンプル情報を取得するように構成される第3の取得ユニットであって、第2のサンプル情報は、第2の対象段落を単語分割して得られた第2の段落単語列、及び第2の特定属性を含み、第2の段落単語列に第2の特定属性とマッチングする属性が存在し、マッチングは完全に一致すること及び/又は部分的に一致することを含む、第3の取得ユニットと、第2のサンプル情報をトレーニング済み自然言語処理モデルに入力し、第2の段落単語列から、第2の特定属性の属性値を予測するように構成される値予測ユニットと、予測された属性値、及びマッチングされた属性にマーク付けされた属性値に基づいて、トレーニング済み自然言語処理モデルをトレーニングし、第2のモデルを得るように構成される第3のトレーニングユニットと、をさらに含む。
いくつかの実施例において、前記装置は、対象テキストを単語分割して得られたテキスト単語列を取得し、テキスト単語列を複数の段落単語列に分割するように構成される分割ユニットと、複数の段落単語列から、目標属性に関連する段落単語列を確定するように構成される確定ユニットと、目標属性と確定された段落単語列を第1のモデルに入力し、目標属性と確定された各段落単語列との、相関値を含む相関度情報を予測するように構成される相関度予測ユニットと、相関値が大きい順に、複数の段落単語列から、所定数の段落単語列を選択するように構成される選択ユニットと、目標属性及び所定数の段落単語列を第2のモデルに入力し、所定数の段落単語列から、目標属性の属性値、及び目標属性の属性値の信頼度を予測するように構成される属性値予測ユニットと、相関値と信頼度とに基づいて、予測された目標属性の属性値から、目標属性の属性値を確定するように構成される値確定ユニットと、をさらに含む。
いくつかの実施例において、値予測ユニットは、さらに第2の段落単語列から、第2の特定属性の属性値を予測するステップを実行するように構成され、該ステップは、第2の特定属性の属性値の、段落単語列における開始位置情報及び終了位置情報を含む位置情報を予測することを含む。
いくつかの実施例において、値確定ユニットは、さらに相関値と信頼度とに基づいて、予測された目標属性の属性値から、目標属性の属性値を確定するステップを実行するように構成され、該ステップは、予測された目標属性の属性値のそれぞれについて、該属性値が位置する段落単語列と目標属性の相関値と、該属性値の信頼度との積を確定することと、予測された目標属性の属性値のうち、対応する積が最も大きい属性値を目標属性の属性値として確定することと、を含む。
いくつかの実施例において、複数の段落単語列から、目標属性に関連する段落単語列を確定するステップは、複数の段落単語列のそれぞれについて、該段落単語列の中に目標属性とマッチングする単語が存在するか否かを判定することと、存在すると判定された場合、該段落単語列を目標属性に関連する段落単語列として確定することとを含む。
いくつかの実施例において、生成ユニットは、さらに単語列をトレーニング対象の自然言語処理モデルに入力し、単語列における単語に対応する単語ベクトルを生成するステップを実行するように構成され、該ステップは、単語列をトレーニング対象の自然言語処理モデルにおける埋め込み層に入力することと、単語列における単語に対して、埋め込み層を介して、該単語を単語の識別子に変換し、単語の識別子を第1のベクトルに変換することと、埋め込み層を介して、該単語の単語列における位置情報を、第2のベクトルに変換することと、埋め込み層を介して、該単語の2つの段落のうちの所在段落を示す段落位置情報を確定し、段落位置情報を第3のベクトルに変換することと、第1のベクトル、第2のベクトル及び第3のベクトルを接続して、該単語に対応する単語ベクトルを得ることと、を含む。
いくつかの実施例において、事前設定処理層は複数のカスケード接続される事前設定処理層を含み、入力ユニットは、さらに単語ベクトルをトレーニング対象の自然言語処理モデルにおける事前設定処理層に入力するステップを実行するように構成され、該ステップは、単語ベクトルを複数のカスケード接続される事前設定処理層における第1位の事前設定処理層に入力することを含む。
いくつかの実施例において、事前設定処理層は複数の処理ユニットを含み、
処理ユニットは、エンコーダ及びデコーダを含み、複数のカスケード接続される事前設定処理層において、上位の事前設定処理層における各処理ユニットの結果は、下位の事前設定処理層における各処理ユニットに入力される。
第3態様では、本出願の実施例は、1つまたは複数のプロセッサと、1つ以上のプログラムを格納するための記憶デバイスと、を備える電子機器であって、1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに情報処理方法のいずれかの実施例に記載の方法を実現させる、電子機器を提供する。
第4態様では、本出願の実施例は、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、該コンピュータプログラムがプロセッサによって実行されると、情報処理方法のいずれかの実施例に記載の方法を実現する、コンピュータ可読記憶媒体を提供する。
第5態様では、本出願の実施例は、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、情報処理方法のいずれかの実施例に記載の方法を実現する、コンピュータプログラムを提供する。
本出願の実施形態によって提供される情報処理方法は、まず、テキストにおける2つの段落を単語分割して得られた、単語を置き換えるための少なくとも1つの指定された識別子が含まれる単語列を取得する。次に、単語列をトレーニング対象の自然言語処理モデルに入力し、単語列における単語に対応する単語ベクトルを生成し、単語ベクトルは単語列における単語及び単語の位置を示す。次に、単語ベクトルをトレーニング対象の自然言語処理モデルにおける、エンコーダ及びデコーダを含む事前設定処理層に入力する。次に、事前設定処理層から出力された処理結果に基づいて、2つの段落が隣接するか否か、及び2つの段落における置き換えられる単語を予測して、予測結果を得る。最後に、2つの段落の参照情報を取得し、予測結果及び参照情報に基づいて、トレーニング対象の自然言語処理モデルをトレーニングし、トレーニング済み自然言語処理モデルを取得し、参照情報は2つの段落が隣接するか否かを示す隣接情報及び置き換えられる単語を含む。本出願の実施例によって提供される方法は、大量の手動注釈のないサンプルを採用して自然言語処理モデルをトレーニングすることができ、人的資源の消費を削減すると同時に、サンプル不足の問題を解決することができ、且つモデルの予測精度を向上させることができる。
本願の他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施例に係る詳細な説明を読むことにより、より明らかになるであろう。
本出願のいくつかの実施例を適用可能な例示的なシステムアーキテクチャを示す図である。 本出願に係る情報処理方法の一実施例を示すフローチャートである。 本出願に係る情報処理方法の一応用シーンを示す概略図である。 本出願に係る情報処理方法のさらなる実施例を示すフローチャートである。 本出願に係る情報処理装置の一実施例を示す構造概略図である。 本出願のいくつかの実施例を達成するための電子機器に適するコンピュータシステムの構造概略図である。
以下、図面及び実施例を参照しながら本願をより詳細に説明する。ここで説明する具体的な実施例は、関連する発明を説明するためのものに過ぎず、当該発明を限定するものではないことを理解されたい。また、説明の便宜上、図面には発明に関連する部分のみが示されていることに留意されたい。
なお、本願の実施例及び実施例における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面及び実施例を参照しながら本願を詳細に説明する。
図1は、本出願に係る情報処理方法または情報処理装置の実施例を適用可能な例示的なシステムアーキテクチャ100を示している。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、及びサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105の間で通信リンクの媒体を提供するために使用される。ネットワーク104は、有線、無線通信リンク又は光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
ユーザは、メッセージを送受信するために、端末装置101、102、103を使用してネットワーク104を介してサーバ105と情報のやり取りをすることができる。端末装置101、102、103には、例えば文書閲覧アプリケーション、ビデオアプリケーション、生放送アプリケーション、インスタントコミュニケーションツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェア等のような様々な通信クライアントアプリケーションをインストールすることができる。
端末装置101、102、103は、ハードウェアでもソフトウェアでもよい。端末装置101、102、103がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子書籍リーダ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。端末装置101、102、103がソフトウェアである場合、上記の電子機器にインストールされてもよい。複数のソフトウェア又はソフトウェアモジュール(例えば、分散サービスを提供するための複数のソフトウェア又はソフトウェアモジュール)として実現されてもよく、又は単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは特に限定されない。
サーバ105は、様々なサービスを提供するサーバ、例えば、端末装置101、102、103をサポートするバックエンドサーバであってもよい。バックエンドサーバは、受信したテキスト等のデータに対して解析等の処理を行うことができ、且つ処理結果(例えばテキストにおける目標属性の属性値)を端末装置にフィードバックすることができる。
なお、本出願の実施例により提供される情報処理方法はサーバ105又は端末装置101、102、103により実行することができ、それにより、情報処理装置はサーバ105又は端末装置101、102、103に設けることができる。
図1における端末装置、ネットワーク及びサーバの数は例示的なものに過ぎないことを理解されたい。必要に応じて、端末装置、ネットワーク及びサーバの数を任意に加減してもよい。
次に、図2を参照し、図2は本出願に係る情報処理方法の一実施例の流れ200を示している。該情報処理方法は、次のステップ(201~205)を含む。
ステップ201:テキストにおける2つの段落の単語分割後の、単語を置き換えるための少なくとも1つの指定された識別子が含まれる単語列を取得する。
本実施例において、情報処理方法の実行主体(例えば、図1に示すサーバ又は端末装置)はローカル又は他の実行主体から1つのテキストにおける2つの段落に対応する単語列を取得することができる。具体的には、上記実行主体又は他の実行主体はテキストにおけるこれら2つの段落を単語分割し、初期単語列を生成し、続いて、指定された識別子を用いて初期単語列における少なくとも1つの単語を置き換えることで、上記単語列を生成する。ここでの指定された識別子は、置き換えられる単語をマスクすることができ、それにより、自然言語処理モデルを、コンテキストに基づいて欠落した単語を予測するようにトレーニングすることができる。これら2つの段落の単語列の間は、特定の文字で接続することができる。
ステップ202:単語列をトレーニング対象の自然言語処理モデルに入力し、単語列における単語に対応する単語ベクトルを生成する。該単語ベクトルは単語列における単語及び単語の位置を示す。
本実施例において、上記実行主体は単語列をトレーニング対象の自然言語処理モデルに入力し、それにより自然言語処理モデルを利用して、単語列における各単語に対応する単語ベクトルを生成することができる。ここでの単語の位置は単語列における単語の位置、例えばソートであってもよいし、単語が位置する段落、すなわち単語がどの段落に位置するかであってもよい。例えば、ここでの自然言語処理モデルはseq2seq models又はword2vecなどの単語埋め込みモデルであってもよい。
実際に、上記実行主体は様々な方式を採用して上記単語自体及び単語の位置を示す単語ベクトルを生成することができる。例えば、上記実行主体は単語列における単語の位置に対応する位置情報を確定し、及び該位置情報に対応するベクトルを確定することができる。また、上記実行主体はこの単語に対応するベクトルを確定することができる。その後、上記実行主体はこれら2つのベクトルを接続することで上記単語ベクトルを得ることができる。
本実施例のいくつかの任意選択実施態様では、ステップ202は、単語列をトレーニング対象の自然言語処理モデルにおける埋め込み層に入力することと、単語列における単語に対して、埋め込み層を介して、該単語を単語の識別子に変換し、単語の識別子を第1のベクトルに変換することと、埋め込み層を介して、該単語の単語列における位置情報を、第2のベクトルに変換することと、埋め込み層を介して、該単語の2つの段落のうちの所在段落を示す段落位置情報を確定し、段落位置情報を第3のベクトルに変換することと、第1のベクトル、第2のベクトル及び第3のベクトルを接続して、該単語に対応する単語ベクトルを得ることと、を含み得る。
これらの任意選択実施形態では、上記実行主体は、埋め込み層(embedding layer)を利用して単語ベクトルを生成することができる。具体的には、単語列における単語(例えば単語列における各単語)に対して、上記実行主体は埋め込み層において、単語テーブルにおける該単語に対応する識別子を検索することができる。その後、上記実行主体は該単語の識別子をベクトルに変換し、該ベクトルを第1のベクトルとすることができる。また、上記実行主体はさらに埋め込み層において、該単語の単語列における位置情報をベクトルに変換し、該ベクトルを第2のベクトルとすることができる。また、上記実行主体はさらに埋め込み層において、これら2つの段落のうちの該単語の所在段落、すなわち段落位置情報を確定することができる。具体的には、指定文字を段落位置情報として単語の所在段落を示すことができ、例えば、EAを用いて単語が2つの段落のうちの第1の段落に位置することを表し、且つEBを用いて単語が第2の段落に位置することを表すことができ、ここでEA及びEBはいずれも段落位置情報である。そして、上記実行主体は、段落位置情報をベクトルに変換し、該ベクトルを第3のベクトルとすることができる。具体的には、上記3種類の変換により得られたベクトルは低次元ベクトルであってもよい。続いて、上記実行主体は、得られた第1のベクトル、第2のベクトル及び第3のベクトルを接続し、それにより該単語に対応する単語ベクトルを得ることができる。
これらの実現方式における単語ベクトルは、単語、単語列における単語の位置情報及び単語が位置する段落を示すことができ、それにより単語ベクトルによって単語の様々な性質を正確且つ全面的に表現することができる。
ステップ203:単語ベクトルをトレーニング対象の自然言語処理モデルにおける、エンコーダ及びデコーダを含む事前設定処理層に入力する。
本実施例において、上記実行主体は、単語ベクトルをトレーニング対象の自然言語処理モデルにおける事前設定処理層に入力することができる。ここでの事前設定処理層は、エンコーダおよびデコーダを含むことができる。上記実行主体は、入力された単語ベクトルをエンコーダで読み取り、中間表現形式に符号化してもよい。その後、上記実行主体はデコーダを利用して上記中間表現形式に対してさらに処理し、処理後の単語ベクトルを出力することができる。
本実施例のいくつかの任意選択実施態様では、事前設定処理層は複数のカスケード接続される事前設定処理層を含む。ステップ203は、単語ベクトルを複数のカスケード接続される事前設定処理層のうちの第1位の事前設定処理層に入力することを含み得る。
これらの任意選択実施態様において、自然言語処理モデルに複数の事前設定処理層を含むことができ、これらの事前設定処理層の間はカスケード接続されてもよい。すなわち、上位の事前設定処理層の結果は、下位の事前設定処理層に入力することができる。上記実行主体は、単語ベクトルを第1位の事前設定処理層に入力することができ、このようにすると、第1位の事前設定処理層を処理した後、結果を下位の事前設定処理層に転送し、下位の事前設定処理層は第1位の事前設定処理層の結果に基づいて処理することができる。同様に、最終段の事前設定処理層まで処理する。
これらの実施態様は複数のカスケード接続される事前設定処理層を利用して複数のステップの処理を行うことで、処理の精度を向上させることができる。
本実施例のいくつかの任意選択実施態様では、事前設定処理層は複数の処理ユニットを含み、処理ユニットは、エンコーダ及びデコーダを含み、複数のカスケード接続される事前設定処理層において、上位の事前設定処理層における各処理ユニットの結果は、下位の事前設定処理層における各処理ユニットに入力される。
これらの任意選択実施形態において、各事前設定処理層は複数の処理ユニットを含むことができ、例えば、ここでの処理ユニットは変換(transformer)ユニットであってもよい。各処理ユニットは、エンコーダおよびデコーダを含むことができ、例えば、6つのエンコーダおよび6つのデコーダを含むことができる。上位の事前設定処理層の各処理ユニットの結果は、下位の事前設定処理層の全ての処理ユニットに入力することができる。
これらの実施形態において、下位の事前設定処理層における各処理ユニットは上位の全ての処理ユニットの結果を取得することができ、それにより各結果を全面的に融合処理することができる。
ステップ204:事前設定処理層から出力された処理結果に基づいて、2つの段落が隣接するか否か、及び2つの段落における置き換えられる単語を予測して、予測結果を得る。
本実施例において、上記実行主体は、自然言語処理モデルにおいて、事前設定処理層から出力される処理結果を用いて、これら2つの段落がテキスト内で隣接しているか否かを予測することにより、2つの段落が隣接しているか否かを示す隣接情報を予測し、どの単語が指定された識別子に置き換えられるかを予測することができる。
ステップ205:2つの段落の参照情報を取得し、予測結果及び参照情報に基づいて、トレーニング対象の自然言語処理モデルをトレーニングし、トレーニング済み自然言語処理モデルを取得する。該参照情報は2つの段落が隣接するか否かを示す隣接情報及び置き換えられる単語を含む。
本実施例において、上記実行主体は、前記2つの段落の参照情報を取得し、前記予測された予測結果と前記参照情報とに基づいて、トレーニング対象の自然言語処理モデルをトレーニングすることができる。具体的には、参照情報は、テキスト中に存在する実データである。2つの段落が隣接するか否か及び置換される単語はいずれも、客観的に存在し、そのため手動注釈を行う必要がなく上記参考情報を得ることができる。上記実行主体は予め設定された損失関数、該参照情報及び予測結果を用い、損失値を算出することができる。実際には、損失値は2つのサブ損失値の和であってもよく、一方のサブ損失値は隣接する情報に対応し、他方のサブ損失値は置き換えられる単語に対応する。
本出願の上記実施例によって提供される方法は、大量の手動注釈のないサンプルを採用して自然言語処理モデルをトレーニングすることができ、人的資源の消費を削減すると同時に、サンプル不足の問題を解決することができ、且つモデルの予測精度を向上させることができる。
本実施例のいくつかの任意選択実施態様では、上記方法は、第2のサンプル情報を取得するステップであって、第2のサンプル情報は、第2の対象段落を単語分割して得られた第2の段落単語列、及び第2の特定属性を含み、第2の段落単語列に第2の特定属性とマッチングする属性が存在し、マッチングは完全に一致すること及び/又は部分的に一致することを含む、ステップと、第2のサンプル情報をトレーニング済み自然言語処理モデルに入力し、第2の段落単語列から、第2の特定属性の属性値を予測するステップと、予測された属性値、及びマッチングされた属性にマーク付けされた属性値に基づいて、トレーニング済み自然言語処理モデルをトレーニングし、第2のモデルを得るステップと、をさらに含む。
これらの任意選択実施形態では、上記実行主体は、第2のサンプル情報を取得し、該第2のサンプル情報を上記トレーニング済み自然言語処理モデルに入力することができる。それによりトレーニング済み自然言語処理モデルを用いて、第2の特定属性の第2の段落単語列における属性値を予測する。
実際には、第2の特定属性の第2の段落単語列において存在するマッチングする属性は、第2の特定属性と完全に一致してもよく、又は部分的に一致してもよい。例えば、第2の特定属性は、「発行日」であってもよく、属性が完全に一致すれば「発行日」であってもよく、属性が部分的に一致すれば「XX日に発行」であってもよい。
これらの実施態様はモデルが属性値を正確に予測するようにトレーニングすることができ、完全に一致すること及び部分的に一致することを利用すれば、属性が一致する場合に属性値を見つけることができるだけでなく、属性の意味が同じであるが、表現方式が異なる場合にも、属性値を見つけることができ、予測の再現率が向上される。
次に、図3を参照し、図3は、本実施例に係る情報処理方法の一応用シーンを示す概略図である。図3の応用シーンにおいて、実行主体301はテキストにおける2つの段落の単語分割による単語列302を取得することができ、例えば「発行人:甲市 A 公司 sep 発行 総額 不 超過 人民幣 5 億 mask(発行者:甲市 A会社 sep 発行 総額は 人民元 5億 を超えない mask)」であり、そのうち、単語列は単語を置換するための少なくとも1つの指定識別子maskを含む。単語列をトレーニング対象の自然言語処理モデルに入力し、単語列における単語に対応する単語ベクトル303を生成し、単語ベクトルは単語列における単語及び単語の位置を示す。単語ベクトルをトレーニング対象の自然言語処理モデルにおける事前設定処理層304に入力し、事前設定処理層304はエンコーダ及びデコーダを含む。事前設定処理層から出力された処理結果に基づいて、2つの段落が隣接するか否か、および2つの段落における置き換えられる単語を予測して、予測結果305を得る。2つの段落の参照情報を取得し、予測結果及び参照情報に基づいて、トレーニング対象の自然言語処理モデルをトレーニングし、トレーニング済み自然言語処理モデル306を取得する。該参照情報は2つの段落が隣接するか否かを示す隣接情報及び置き換えられる単語を含む。
更に図4を参照し、図4は情報処理方法のもう一つの実施例の流れ400を示している。該情報処理方法の流れ400は、次のステップ401~408を含む。
ステップ401:テキストにおける2つの段落の単語分割後の、単語を置き換えるための少なくとも1つの指定された識別子が含まれる単語列を取得する。
本実施例において、情報処理方法の実行主体(例えば図1に示すサーバ又は端末装置)はローカル又は他の実行主体から1つのテキストにおける2つの段落に対応する単語列を取得することができる。具体的には、上記実行主体又は他の実行主体はテキストにおけるこれら2つの段落を単語分割し、初期単語列を生成することができる。続いて、指定された識別子を用いて初期単語列における少なくとも1つの単語を置き換えることで、上記単語列を生成する。ここでの指定された識別子は、置き換えられる単語をマスクすることができ、それにより、自然言語処理モデルを、コンテキストに基づいて欠落した単語を予測するようにトレーニングすることができる。これら2つの段落の単語列の間は、特定の文字で接続することができる。
ステップ402:単語列をトレーニング対象の自然言語処理モデルに入力し、単語列における単語に対応する単語ベクトルを生成する。該単語ベクトルは単語列における単語及び単語の位置を示す。
本実施例において、上記実行主体は単語列をトレーニング対象の自然言語処理モデルに入力し、それにより自然言語処理モデルを利用して、単語列における各単語に対応する単語ベクトルを生成することができる。ここでの単語の位置は単語列における単語の位置、例えばソートであってもよいし、単語が位置する段落、すなわち単語がどの段落に位置するかであってもよい。
ステップ403:単語ベクトルをトレーニング対象の自然言語処理モデルにおける事前設定処理層に入力する。該事前設定処理層はエンコーダ及びデコーダを含む。
本実施例において、上記実行主体は、単語ベクトルをトレーニング対象の自然言語処理モデルにおける事前設定処理層に入力することができる。ここでの事前設定処理層は、エンコーダおよびデコーダを含むことができる。上記実行主体は、入力された単語ベクトルをエンコーダで読み取り、中間表現形式に符号化してもよい。その後、上記実行主体はデコーダを利用して上記中間表現形式に対してさらに処理し、処理後の単語ベクトルを出力することができる。
ステップ404:事前設定処理層から出力された処理結果に基づいて、2つの段落が隣接するか否か、及び2つの段落における置き換えられる単語を予測して、予測結果を得る。
本実施例において、上記実行主体は、自然言語処理モデルにおいて、事前設定処理層から出力される処理結果を用いて、これら2つの段落がテキスト内で隣接しているか否かを予測することにより、2つの段落が隣接しているか否かを示す隣接情報を予測し、どの単語が指定された識別子に置き換えられるかを予測することができる。
ステップ405:2つの段落の参照情報を取得し、予測結果及び参照情報に基づいて、トレーニング対象の自然言語処理モデルをトレーニングし、トレーニング済み自然言語処理モデルを取得する。該参照情報は2つの段落が隣接するか否かを示す隣接情報及び置き換えられる単語を含む。
本実施例において、上記実行主体は、前記2つの段落の参照情報を取得し、前記予測された予測結果と前記参照情報とに基づいて、トレーニング対象の自然言語処理モデルをトレーニングすることができる。
ステップ406:第1の対象段落を単語分割して得られた第1の段落単語列及び第1の特定属性を含む第1のサンプル情報を取得する。
本実施例において、情報処理方法を実行する実行主体(例えば図1に示すサーバ又は端末装置)は、ローカル又は他の電子機器から第1のサンプル情報を取得することができる。ここでの第1のサンプル情報は第1の対象段落に対応する第1の段落単語列、及び第1の特定属性を含むことができる。第1の対象段落に属性、及び属性の属性値が存在してもよく、例えば、属性は性別であり、対応する属性値は女性である。第1の特定属性は、第1の対象段落に関連していてもよいし、完全に関連していなくてもよい。ここでの段落単語列は、単語を置換するための指定された識別子を含まなくてもよい。
ステップ407:第1のサンプル情報をトレーニング済み自然言語処理モデルに入力し、第1の段落単語列と第1の特定属性との間の相関度を示すための相関度情報を予測する。
本実施例において、上記実行主体は、第1のサンプル情報を上記トレーニング済み自然言語処理モデルに入力して相関度情報を予測することができる。ここでの相関度情報は、第1の段落単語列と上記第1の特定属性との間の相関度を示す。例えば、相関度情報は、相関度を定量化するための相関値であってもよいし、相関度レベルを具体化するための特定の情報であってもよい。例えば、特定の情報は、それぞれ「関連」、「非関連」、または「非常に関連」、「一般関連」、「関連しない」などを示すことができる。
実際には、第1の特定属性が完全に段落内に存在する場合、対応する相関値は最大値であってもよい。第1の特定属性は段落内で同じ意味の属性を有する場合、相関値は、最大値よりも減少してもよい。第1の特定属性は段落内で意味が部分的に同じである属性を有する場合、相関値は最大値よりも減少してもよい。第1の特定属性は段落内に同一または類似の単語を有しない場合、相関値は最大値よりもはるかに低くてもよく、例えば最小値であってもよい。
ステップ408:予測された相関度情報、及び第1のサンプル情報にマーク付けされた相関度情報に基づいて、トレーニング済み自然言語処理モデルをトレーニングし、第1のモデルを得る。
本実施例において、上記実行主体は、第1のサンプル情報にマーク付けされた相関度情報を取得することができる。このように、上記実行主体はマーク付けされた相関度情報及び予測された相関度情報に基づいて、損失値を計算し、トレーニング済み自然言語処理モデルの更なるトレーニングを実現し、それにより第1のモデルを得ることができる。
本実施例は注釈ありと注釈なしのサンプルを結合して総合的なトレーニングを行うことができ、それによりモデルの精度がさらに向上される。
本実施例のいくつかの任意選択実施態様では、上記方法は、第2のサンプル情報を取得するステップであって、第2のサンプル情報は、第2の対象段落を単語分割して得られた第2の段落単語列、及び第2の特定属性を含み、第2の段落単語列に第2の特定属性とマッチングする属性が存在し、マッチングは完全に一致すること及び/又は部分的に一致することを含む、ステップと、第2のサンプル情報をトレーニング済み自然言語処理モデルに入力し、第2の段落単語列から、第2の特定属性の属性値を予測するステップと、予測された属性値、及びマッチングされた属性にマーク付けされた属性値に基づいて、トレーニング済み自然言語処理モデルをトレーニングし、第2のモデルを得るステップと、をさらに含む。
これらの任意選択実施形態では、上記実行主体は、第2のサンプル情報を取得し、該第2のサンプル情報を上記トレーニング済み自然言語処理モデルに入力することができる。それによりトレーニング済み自然言語処理モデルを用いて、第2の特定属性の第2の段落単語列における属性値を予測する。
実際には、第2の特定属性の第2の段落単語列において存在するマッチングする属性は、第2の特定属性と完全に一致してもよく、又は部分的に一致してもよい。例えば、第2の特定属性は、「発行日」であってもよく、属性が完全に一致すれば「発行日」であってもよく、属性が部分的に一致すれば「XX日に発行」であってもよい。
なお、第1のモデル及び第2のモデルのトレーニングに用いられるサンプルは同一又は一部が同一であってもよく、したがって上記「第1のサンプル情報」と「第2のサンプル情報」、「第1の対象段落」と「第2の対象段落」、「第1の特定属性」と「第2の特定属性」、「第1の段落単語列」と「第2の段落単語列」はいずれも同一であってもよい。
これらの実施態様はモデルが属性値を正確に予測するようにトレーニングすることができ、完全に一致すること及び部分的に一致することを利用すれば、属性が一致する場合に属性値を見つけることができるだけでなく、属性の意味が同じであるが、表現方式が異なる場合にも、属性値を見つけることができ、予測の再現率が向上される。
これらの実施態様のいくつかの選択可能な適応シーンにおいて、上記実施形態における第2の段落単語列から第2の特定属性の属性値を予測するステップは、第2の特定属性の属性値の、段落単語列における位置情報を予測することを含み得、該位置情報は開始位置情報及び終了位置情報を含む。
これらの選択可能な応用シーンにおいて、予測された属性値は、段落単語列における位置情報として表すことができる。例えば、属性値に対応する単語列は「不 超過 人民幣 5 億 元(人民元 5 億 元 を超えない)」である場合、上記実行主体は「不」及び「元」をそれぞれ開始位置及び終了位置としてマークすることができ、且つこの2つの位置にそれぞれマーク付けされた情報を、開始位置情報及び終了位置情報とする。
これらの応用シーンは開始位置情報及び終了位置情報により、少ない情報量を利用して属性値を正確に表示することを実現できる。
これらの実施態様のいくつかの選択可能な適応シーンにおいて、上記方法は、対象テキストを単語分割して得られたテキスト単語列を取得し、テキスト単語列を複数の段落単語列に分割するステップと、複数の段落単語列から、目標属性に関連する段落単語列を確定するステップと、目標属性と確定された段落単語列を第1のモデルに入力し、目標属性と確定された各段落単語列との、相関値を含む相関度情報を予測するステップと、相関値が大きい順に、複数の段落単語列から、所定数の段落単語列を選択するステップと、目標属性及び所定数の段落単語列を第2のモデルに入力し、所定数の段落単語列から、目標属性の属性値、及び目標属性の属性値の信頼度を予測するステップと、相関値と信頼度とに基づいて、予測された目標属性の属性値から、目標属性の属性値を確定するステップと、をさらに含み得る。
これらの選択可能な応用シーンにおいて、第1のモデルおよび第2のモデルがトレーニングされた後、上記実行主体は、これらの2つのモデルを使用して、目標属性の属性値をテキスト内で予測することができる。具体的には、上記実行主体は対象テキストに対応する単語列をテキスト単語列として取得し、段落の分割粒度に基づき、該テキスト単語列を複数の段落単語列に分割する。各段落単語列は、対象テキスト内の1つの段落に対応する。その後、上記実行主体は複数の段落単語列に対して初期スクリーニングを行い、目標属性と完全に関連しない段落単語列を濾過し、目標属性に関連する段落単語列を確定することができる。
そして、上記実行主体は、目標属性と、確定された段落単語列とを上記第1のモデルに入力することができる。第1のモデルを利用して目標属性と各(初期スクリーニングにおいて)確定された段落単語列との相関度情報を予測する。ここでの相関度情報は相関値であってもよく、数値が大きいほど相関度が大きいことを示す。その後、上記実行主体は、相関値が大きい順に、複数の段落単語列から、所定数の段落単語列を選択することができる。例えば、上記確定された段落単語列において、相関値が上位三位にある段落単語列を選択する。具体的には、該選択ステップは上記実行主体が第1のモデルで完了してもよく、また、第1のモデル以外で完了してもよい。
そして、上記実行主体は目標属性及び所定数の段落単語列を第2のモデルに入力し、それにより第2のモデルを利用して所定数の段落単語列において、目標属性の属性値、及び該属性値の信頼度を予測することができる。
上記実行主体は、第1のモデルによって出力された相関値と、第2のモデルによって出力された信頼度とを求めた後、これら両者に基づいて予測された目標属性の属性値のうち、目標属性の属性値を確定することができる。
実際に、上記実行主体は様々な方法で相関値及び信頼度に基づいて、一つの属性値を確定することができる。例えば、上記実行主体は予測された、目標属性の属性値のうちの各属性値に対し、該属性値が位置する段落単語列と目標属性との相関値を直接取得することができる。ここで取得される相関値は、上記実行主体が第1のモデルを用いて予め予測したものである。そして、取得した相関値と該属性値の信頼度との和を求める。最後に、予測された、目標属性の属性値のうち、対応する和が最も大きい属性値を目標属性の属性値として確定する。また、上記実行主体はさらに取得された相関値及び目標属性を予め設定されたモデルに入力することができ、該モデルは相関値、属性の両者と属性値との対応関係を示すことができ、このように、上記実行主体は該モデルから出力された目標属性の属性値を得ることができる。
これらの応用シーンはトレーニングによって得られた第1のモデル及び第2のモデルにより、テキストにおいて属性値を正確に確定し、それにより重要情報の正確な抽出を実現できる。
任意選択で、上記応用シーンにおける相関値と信頼度とに基づいて、予測された目標属性の属性値から、目標属性の属性値を確定するステップは、予測された目標属性の属性値における各属性値に対し、該属性値が位置する段落単語列と目標属性の相関値と、該属性値の信頼度との積を確定することと、予測された目標属性の属性値のうち、対応する積が最も大きい属性値を目標属性の属性値として確定することと、を含み得る。
これらの選択可能な応用シーンにおいて、上記実行主体は属性値に対し、該属性値に対応する相関値と信頼度との積を確定することができる。その後、上記実行主体は最大の積を確定し、該積の算出に関与する信頼度に対応する属性値を目標属性の属性値とすることができる。
これらの選択可能な応用シーンは乗算によって信頼度及び相関値を十分に利用し、より正確な属性値を得ることができる。
任意選択で、上記応用シーンにおいて、複数の段落単語列から、目標属性に関連する段落単語列を確定するステップは、複数の段落単語列のそれぞれについて、該段落単語列の中に目標属性とマッチングする単語が存在するか否かを判定することと、存在すると判定された場合、該段落単語列を目標属性に関連する段落単語列として確定することと、を含む。
これらの選択可能な応用シーンにおいて、上記実行主体は複数の段落単語列から、目標属性と完全に一致するか又は部分的に一致する単語、すなわちマッチングする属性が存在するか否かを判定することができる。存在する場合、該段落単語列は目標属性に関連していると判断することができる。
これらの応用シーンはマッチングにより、段落単語列に対して比較的迅速かつ正確な初期スクリーニングを行うことができ、それにより後続の自然言語処理モデルを利用する予測時間を短縮できる。
更に図5を参照すると、上記の図に示された方法の実施態様として、本出願の情報処理装置の一実施例を提供し、当該装置の実施例は、図2に示された方法の実施例に対応しており、以下に記載する特徴に加えて、該装置の実施例はさらに図2に示す方法の実施例と同じ又は対応する特徴又は効果を有することができる。この装置は、具体的には種々の電子機器に適用することができる。
図5に示したように、本実施例に係る情報処理装置500は、第1の取得ユニット501と、生成ユニット502と、入力ユニット503と、予測ユニット504と、第1のトレーニングユニット505と、を備える。第1の取得ユニット501は、テキストにおける2つの段落を単語分割して得られた、単語を置き換えるための少なくとも1つの指定された識別子が含まれる単語列を取得するように構成される。生成ユニット502は、単語列をトレーニング対象の自然言語処理モデルに入力し、単語列における単語に対応する単語ベクトルを生成するように構成される。該単語ベクトルは単語列における単語及び単語の位置を示す。入力ユニット503は、単語ベクトルをトレーニング対象の自然言語処理モデルにおける、エンコーダ及びデコーダを含む事前設定処理層に入力するように構成される。予測ユニット504は、事前設定処理層から出力された処理結果に基づいて、2つの段落が隣接するか否か、及び2つの段落における置き換えられる単語を予測して、予測結果を得るように構成される。第1のトレーニングユニット505は、2つの段落の参照情報を取得し、予測結果及び参照情報に基づいて、トレーニング対象の自然言語処理モデルをトレーニングし、トレーニング済み自然言語処理モデルを取得するように構成される。該参照情報は2つの段落が隣接するか否かを示す隣接情報及び置き換えられる単語を含む。
いくつかの実施例において、情報処理装置500の第1の取得ユニット501は、ローカルまたは他の実行主体から、1つのテキスト内の2つの段落に対応する単語列を取得してもよい。具体的には、上記実行主体又は他の実行主体はテキストにおけるこれら2つの段落を単語分割し、初期単語列を生成し、続いて、指定された識別子を用いて初期単語列における少なくとも1つの単語を置き換えることで、上記単語列を生成する。
いくつかの実施例において、生成ユニット502は単語列をトレーニング対象の自然言語処理モデルに入力し、それにより自然言語処理モデルを利用して、単語列における各単語に対応する単語ベクトルを生成することができる。ここでの単語の位置は単語列における単語の位置、例えばソートであってもよいし、単語が位置する段落、すなわち単語がどの段落に位置するかであってもよい。
いくつかの実施例においては、入力ユニット503は、単語ベクトルをトレーニング対象の自然言語処理モデルにおける事前設定処理層に入力することができる。ここでの事前設定処理層は、エンコーダおよびデコーダを含むことができる。上記実行主体は、入力された単語ベクトルをエンコーダで読み取り、中間表現形式に符号化してもよい。その後、上記実行主体はデコーダを利用して上記中間表現形式に対してさらに処理し、処理後の単語ベクトルを出力することができる。
いくつかの実施例において、予測ユニット504は、自然言語処理モデルにおいて、事前設定処理層から出力される処理結果を用いて、これら2つの段落がテキスト内で隣接しているか否かを予測することにより、2つの段落が隣接しているか否かを示す隣接情報を予測し、どの単語が指定された識別子に置き換えられるかを予測することができる。
いくつかの実施例において、第1のトレーニングユニット505は、前記2つの段落の参照情報を取得し、前記予測された予測結果と前記参照情報とに基づいて、トレーニング対象の自然言語処理モデルをトレーニングすることができる。具体的には、参照情報は、テキスト中に存在する実データである。2つの段落が隣接するか否か及び置換される単語はいずれも、客観的に存在し、そのため手動注釈を行う必要がなく上記参考情報を得ることができる。
本実施例のいくつかの任意選択実施態様では、上記装置は、第1の対象段落を単語分割して得られた第1の段落単語列及び第1の特定属性を含む第1のサンプル情報を取得するように構成される第2の取得ユニットと、第1のサンプル情報をトレーニング済み自然言語処理モデルに入力し、第1の段落単語列と第1の特定属性との間の相関度を示すための相関度情報を予測するように構成される情報予測ユニットと、予測された相関度情報、及び第1のサンプル情報にマーク付けされた相関度情報に基づいて、トレーニング済み自然言語処理モデルをトレーニングし、第1のモデルを得るように構成される第2のトレーニングユニットと、をさらに含む。
本実施例のいくつかの任意選択実施態様では、上記装置は、第2のサンプル情報を取得するように構成される第3の取得ユニットであって、第2のサンプル情報は、第2の対象段落を単語分割して得られた第2の段落単語列、及び第2の特定属性を含み、第2の段落単語列に第2の特定属性とマッチングする属性が存在し、マッチングは完全に一致すること及び/又は部分的に一致することを含む、第3の取得ユニットと、第2のサンプル情報をトレーニング済み自然言語処理モデルに入力し、第2の段落単語列から、第2の特定属性の属性値を予測するように構成される値予測ユニットと、予測された属性値、及びマッチングされた属性にマーク付けされた属性値に基づいて、トレーニング済み自然言語処理モデルをトレーニングし、第2のモデルを得るように構成される第3のトレーニングユニットと、をさらに含む。
本実施例のいくつかの任意選択実施態様では、上記装置は、対象テキストを単語分割して得られたテキスト単語列を取得し、テキスト単語列を複数の段落単語列に分割するように構成される分割ユニットと、複数の段落単語列から、目標属性に関連する段落単語列を確定するように構成される確定ユニットと、目標属性と確定された段落単語列を第1のモデルに入力し、目標属性と確定された各段落単語列との、相関値を含む相関度情報を予測するように構成される相関度予測ユニットと、相関値が大きい順に、複数の段落単語列から、所定数の段落単語列を選択するように構成される選択ユニットと、目標属性及び所定数の段落単語列を第2のモデルに入力し、所定数の段落単語列から、目標属性の属性値、及び目標属性の属性値の信頼度を予測するように構成される属性値予測ユニットと、相関値と信頼度とに基づいて、予測された目標属性の属性値から、目標属性の属性値を確定するように構成される値確定ユニットと、をさらに含む。
本実施例のいくつかの任意選択実施態様では、値予測ユニットは、さらに第2の段落単語列から、第2の特定属性の属性値を予測するステップを実行するように構成され、該ステップは、第2の特定属性の属性値の、段落単語列における開始位置情報及び終了位置情報を含む位置情報を予測することを含む。
本実施例のいくつかの任意選択実施態様では、値確定ユニットは、さらに相関値と信頼度とに基づいて、予測された目標属性の属性値から、目標属性の属性値を確定するステップを実行するように構成され、該ステップは、予測された目標属性の属性値のそれぞれについて、該属性値が位置する段落単語列と目標属性の相関値と、該属性値の信頼度との積を確定することと、予測された目標属性の属性値のうち、対応する積が最も大きい属性値を目標属性の属性値として確定することと、を含む。
本実施例のいくつかの任意選択実施態様では、複数の段落単語列から、目標属性に関連する段落単語列を確定するステップは、複数の段落単語列のそれぞれについて、該段落単語列の中に目標属性とマッチングする単語が存在するか否かを判定することと、存在すると判定された場合、該段落単語列を目標属性に関連する段落単語列として確定することと、を含む。
本実施例のいくつかの任意選択実施態様では、生成ユニットは、さらに単語列をトレーニング対象の自然言語処理モデルに入力し、単語列における単語に対応する単語ベクトルを生成するステップを実行するように構成され、該ステップは、単語列をトレーニング対象の自然言語処理モデルにおける埋め込み層に入力することと、単語列における単語に対して、埋め込み層を介して、該単語を単語の識別子に変換し、単語の識別子を第1のベクトルに変換することと、埋め込み層を介して、該単語の単語列における位置情報を、第2のベクトルに変換することと、埋め込み層を介して、該単語の2つの段落のうちの所在段落を示す段落位置情報を確定し、段落位置情報を第3のベクトルに変換することと、第1のベクトル、第2のベクトル及び第3のベクトルを接続して、該単語に対応する単語ベクトルを得ることと、を含む。
本実施例のいくつかの任意選択実施態様では、事前設定処理層は複数のカスケード接続される事前設定処理層を含み、入力ユニットは、さらに単語ベクトルをトレーニング対象の自然言語処理モデルにおける事前設定処理層に入力するステップを実行するように構成され、該ステップは、単語ベクトルを複数のカスケード接続される事前設定処理層における第1位の事前設定処理層に入力することを含む。
本実施例のいくつかの任意選択実施態様では、事前設定処理層は複数の処理ユニットを含み、処理ユニットは、エンコーダ及びデコーダを含み、複数のカスケード接続される事前設定処理層において、上位の事前設定処理層における各処理ユニットの結果は、下位の事前設定処理層における各処理ユニットに入力される。
図6に示すように、電子機器600は、読み出し専用メモリ(ROM)602に格納されているプログラムまたは記憶デバイス608からランダムアクセスメモリ(RAM)603にロードされたプログラムによって様々な適当な動作および処理を実行可能な処理デバイス(例えば、中央処理装置、グラフィックスプロセッサなど)601を含むことができる。RAM603には、電子機器600の動作に必要な様々なプログラム及びデータが更に格納されている。処理デバイス601、ROM602及びRAM603は、バス604を介して互いに接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
通常、例えば、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロホン、加速度計、ジャイロスコープなどを含む入力デバイス606、液晶ディスプレイ(LCD)、スピーカ、振動子などを含む出力デバイス607、例えば、磁気テープ、ハードディスクなどを含む記憶デバイス608、および通信デバイス609がI/Oインターフェース605に接続されてもよい。通信デバイス609により、電子機器600は、データを交換するために他のデバイスと無線または有線で通信することができる。図6は、様々なデバイスを有する電子機器600を示しているが、図示されたデバイスのすべてを実装または具備することが要求されないことを理解されたい。代替的にまたはより多いまたはより少ないデバイスが実装されてもよい。図6に示す各ブロックは、1つのデバイスを表すことも、必要に応じて複数のデバイスを表すこともできる。
特に、本開示の実施例によれば、上記のフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本開示の実施例は、コンピュータ可読媒体に具現化されるコンピュータプログラムを含むコンピュータプログラム製品を備え、該コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムは、通信デバイス609を介してネットワークからダウンロードされてインストールされることが可能であり、または記憶デバイス608またはROM602からインストールされ得る。該コンピュータプログラムが処理デバイス601によって実行されると、本発明の実施例の方法で規定された上記の機能を実行する。注意すべきなのは、本出願の実施例に記載されたコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体、またはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁気的、赤外線、または半導体システム、装置もしくはデバイス、またはこれらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例としては、1本または複数本の導線により電気的に接続された、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROMもしくはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読取り専用メモリ(CD-ROM)、光メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されない。本開示の実施例において、コンピュータ可読記憶媒体は、命令実行システム、装置もしくはデバイスによって使用可能な、またはそれらに組み込まれて使用可能なプログラムを包含または格納する任意の有形の媒体であってもよい。本開示の実施例において、コンピュータ可読信号媒体は、ベースバンド内の、または搬送波の一部として伝搬されるデータ信号を含むことができ、その中にコンピュータ可読プログラムコードが担持されている。かかる伝搬されたデータ信号は、様々な形態をとることができ、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体は、更にコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。当該コンピュータ可読媒体は、命令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み込まれて使用されるプログラムを、送信、伝搬または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送することができ、当該任意の適切な媒体とは、電線、光ケーブル、RF(無線周波数)など、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。
図面のうちのフローチャートおよびブロック図は、本出願の様々な実施例に係るシステム、方法およびコンピュータプログラム製品によって実現できるアーキテクチャ、機能および動作を表す例である。これについては、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。当該モジュール、プログラムセグメント、またはコードの一部には、所定のロジック機能を実現するための1つまたは複数の実行可能命令が含まれている。さらに注意すべきなのは、一部の代替となる実施態様においては、ブロックに示されている機能は図面に示されているものとは異なる順序で実行することも可能である。例えば、連続して示された2つのブロックは、実際には係る機能に応じて、ほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。さらに注意すべきなのは、ブロック図および/またはフローチャートにおけるすべてのブロック、ならびにブロック図および/またはフローチャートにおけるブロックの組み合わせは、所定の機能または操作を実行する専用のハードウェアベースのシステムで実現することもできれば、専用のハードウェアとコンピュータ命令との組み合わせで実現することもできる。
本出願の実施例に記載された手段は、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。説明したユニットはプロセッサに設けられてもよく、例えば、「第1の取得ユニット、生成ユニット、入力ユニット、予測ユニット及び第1のトレーニングユニットを含むプロセッサ」と記載されてもよい。そのうち、これらのユニットの名称はある場合には該ユニット自体を限定するものではなく、例えば、第1の取得ユニットはさらに「テキストにおける2つの段落を単語分割して得られた単語列を取得するユニット」と記述される場合もある。
一方、本発明は、コンピュータ可読媒体を更に提供し、当該コンピュータ可読媒体は、前記実施例に記載されたデバイスに含まれるものであってもよく、該デバイスに実装されずに別体として存在するものであってもよい。上記コンピュータ可読媒体は1つ又は複数のプログラムを担持し、上記1つ又は複数のプログラムが該装置に実行されると、
テキストにおける2つの段落を単語分割して得られた、単語を置き換えるための少なくとも1つの指定された識別子が含まれる単語列を取得するステップと、単語列をトレーニング対象の自然言語処理モデルに入力し、単語列における単語に対応する、単語列における単語及び単語の位置を示すための単語ベクトルを生成するステップと、単語ベクトルをトレーニング対象の自然言語処理モデルにおける、エンコーダ及びデコーダを含む事前設定処理層に入力するステップと、事前設定処理層から出力された処理結果に基づいて、2つの段落が隣接するか否か、及び2つの段落における置き換えられる単語を予測して、予測結果を得るステップと、2つの段落の参照情報を取得し、予測結果及び参照情報に基づいて、トレーニング対象の自然言語処理モデルをトレーニングし、トレーニング済み自然言語処理モデルを取得するステップであって、上記参照情報は2つの段落が隣接するか否かを示す隣接情報及び置き換えられる単語を含む、ステップと、を該装置に実行させる。
以上の記載は、本出願の好ましい実施例、および使用された技術的原理に関する説明に過ぎない。当業者であれば、本出願に係る発明の範囲が、上記の技術的特徴の特定の組み合わせからなる解決策に限定されるものではなく、上記の本出願の趣旨を逸脱しない範囲で、上記の技術的特徴またはそれらの同等の特徴の任意の組み合わせからなる他の解決策も含むべきであることを理解すべきである。例えば、上記の特徴と本発明に開示された類似の機能を有する技術的特徴(それらに限られない)とを相互に置き換えてなる解決策が該当する。

Claims (18)

  1. サーバ又は端末装置により実行される情報処理方法であって、
    テキストにおける2つの段落を単語分割して得られた、単語を置き換えるための少なくとも1つの指定された識別子が含まれる単語列を取得するステップと、
    前記単語列をトレーニング対象の自然言語処理モデルに入力し、前記単語列における単語に対応する、単語列における単語及び単語の位置を示すための単語ベクトルを生成するステップと、
    前記単語ベクトルを前記トレーニング対象の自然言語処理モデルにおける、エンコーダ及びデコーダを含む事前設定処理層に入力するステップと、
    前記事前設定処理層から出力された処理結果に基づいて、前記2つの段落が隣接するか否か、及び前記2つの段落における置き換えられる単語を予測して、予測結果を得るステップと、
    前記2つの段落の参照情報を取得し、前記予測結果及び前記参照情報に基づいて、前記トレーニング対象の自然言語処理モデルをトレーニングし、トレーニング済み自然言語処理モデルを取得するステップであって、前記参照情報は前記2つの段落が隣接するか否かを示す隣接情報及び置き換えられる単語を含む、ステップと、を含む情報処理方法。
  2. 前記方法は、
    第1の対象段落を単語分割して得られた第1の段落単語列及び第1の特定属性を含む第1のサンプル情報を取得するステップと、
    前記第1のサンプル情報を前記トレーニング済み自然言語処理モデルに入力し、前記第1の段落単語列と前記第1の特定属性との間の相関度を示すための相関度情報を予測するステップと、
    予測された相関度情報、及び前記第1のサンプル情報にマーク付けされた相関度情報に基づいて、前記トレーニング済み自然言語処理モデルをトレーニングし、第1のモデルを得るステップと、をさらに含む請求項1に記載の方法。
  3. 前記方法は、
    第2のサンプル情報を取得するステップであって、前記第2のサンプル情報は、第2の対象段落を単語分割して得られた第2の段落単語列、及び第2の特定属性を含み、前記第2の段落単語列に前記第2の特定属性とマッチングする属性が存在し、前記マッチングは完全に一致すること及び/又は部分的に一致することを含む、ステップと、
    前記第2のサンプル情報を前記トレーニング済み自然言語処理モデルに入力し、前記第2の段落単語列から、前記第2の特定属性の属性値を予測するステップと、
    予測された属性値、及び前記マッチングされた属性にマーク付けされた属性値に基づいて、前記トレーニング済み自然言語処理モデルをトレーニングし、第2のモデルを得るステップと、をさらに含む請求項2に記載の方法。
  4. 前記第2の段落単語列から、前記第2の特定属性の属性値を予測するステップは、
    前記第2の特定属性の属性値の、前記第2の段落単語列における開始位置情報及び終了位置情報を含む位置情報を予測することを含む、請求項3に記載の方法。
  5. 前記方法は、
    対象テキストを単語分割して得られたテキスト単語列を取得し、前記テキスト単語列を複数の段落単語列に分割するステップと、
    前記複数の段落単語列から、目標属性に関連する段落単語列を確定するステップと、
    前記目標属性と確定された段落単語列を前記第1のモデルに入力し、前記目標属性と確定された各段落単語列との、相関値を含む相関度情報を予測するステップと、
    相関値が大きい順に、前記複数の段落単語列から、所定数の段落単語列を選択するステップと、
    前記目標属性及び前記所定数の段落単語列を前記第2のモデルに入力し、前記所定数の段落単語列から、前記目標属性の属性値、及び前記目標属性の属性値の信頼度を予測するステップと、
    前記相関値と前記信頼度とに基づいて、予測された前記目標属性の属性値から、前記目標属性の属性値を確定するステップと、をさらに含む、請求項3に記載の方法。
  6. 前記相関値と前記信頼度とに基づいて、予測された前記目標属性の属性値から、前記目標属性の属性値を確定するステップは、
    予測された前記目標属性の属性値のそれぞれについて、該属性値が位置する段落単語列と前記目標属性の相関値と、該属性値の信頼度との積を確定することと、
    予測された前記目標属性の属性値のうち、対応する積が最も大きい属性値を前記目標属性の属性値として確定することと、を含む、請求項5に記載の方法。
  7. 前記複数の段落単語列から、前記目標属性に関連する段落単語列を確定するステップは、
    前記複数の段落単語列のそれぞれについて、該段落単語列の中に前記目標属性とマッチングする単語が存在するか否かを判定することと、
    存在すると判定された場合、該段落単語列を前記目標属性に関連する段落単語列として確定することとを含む、請求項5に記載の方法。
  8. 前記単語列をトレーニング対象の自然言語処理モデルに入力し、前記単語列における単語に対応する単語ベクトルを生成するステップは、
    前記単語列をトレーニング対象の自然言語処理モデルにおける埋め込み層に入力することと、
    前記単語列における単語に対して、前記埋め込み層を介して、該単語を単語の識別子に変換し、前記単語の識別子を第1のベクトルに変換することと、
    前記埋め込み層を介して、該単語の前記単語列における位置情報を、第2のベクトルに変換することと、
    前記埋め込み層を介して、該単語の前記2つのうちの所在段落を示す段落位置情報を確定し、前記段落位置情報を第3のベクトルに変換することと、
    前記第1のベクトル、前記第2のベクトル及び前記第3のベクトルを接続して、該単語に対応する単語ベクトルを得ることと、を含む、請求項1に記載の方法。
  9. 前記事前設定処理層は複数のカスケード接続される事前設定処理層を含み、
    前記単語ベクトルを前記トレーニング対象の自然言語処理モデルにおける事前設定処理層に入力するステップは、
    前記単語ベクトルを前記複数のカスケード接続される事前設定処理層における第1位の事前設定処理層に入力することを含む、請求項1に記載の方法。
  10. 前記事前設定処理層は複数の処理ユニットを含み、
    前記処理ユニットは、前記エンコーダ及び前記デコーダを含み、
    複数のカスケード接続される事前設定処理層において、上位の事前設定処理層における各処理ユニットの結果は、下位の事前設定処理層における各処理ユニットに入力される、請求項1に記載の方法。
  11. テキストにおける2つの段落を単語分割して得られた、単語を置き換えるための少なくとも1つの指定された識別子が含まれる単語列を取得するように構成される第1の取得ユニットと、
    前記単語列をトレーニング対象の自然言語処理モデルに入力し、前記単語列における単語に対応する、単語列における単語及び単語の位置を示すための単語ベクトルを生成するように構成される生成ユニットと、
    前記単語ベクトルを前記トレーニング対象の自然言語処理モデルにおける、エンコーダ及びデコーダを含む事前設定処理層に入力するように構成される入力ユニットと、
    前記事前設定処理層から出力された処理結果に基づいて、前記2つの段落が隣接するか否か、及び前記2つの段落における置き換えられる単語を予測して、予測結果を得るように構成される予測ユニットと、
    前記2つの段落の参照情報を取得し、前記予測結果及び前記参照情報に基づいて、前記トレーニング対象の自然言語処理モデルをトレーニングし、トレーニング済み自然言語処理モデルを取得するように構成される第1のトレーニングユニットであって、前記参照情報は前記2つの段落が隣接するか否かを示す隣接情報及び置き換えられる単語を含む、第1のトレーニングユニットと、を含む情報処理装置。
  12. 前記装置は、
    第1の対象段落を単語分割して得られた第1の段落単語列及び第1の特定属性を含む第1のサンプル情報を取得するように構成される第2の取得ユニットと、
    前記第1のサンプル情報を前記トレーニング済み自然言語処理モデルに入力し、前記第1の段落単語列と前記第1の特定属性との間の相関度を示すための相関度情報を予測するように構成される情報予測ユニットと、
    予測された相関度情報、及び前記第1のサンプル情報にマーク付けされた相関度情報に基づいて、前記トレーニング済み自然言語処理モデルをトレーニングし、第1のモデルを得るように構成される第2のトレーニングユニットと、をさらに含む請求項11に記載の装置。
  13. 前記装置は、
    第2のサンプル情報を取得するように構成される第3の取得ユニットであって、前記第2のサンプル情報は、第2の対象段落を単語分割して得られた第2の段落単語列、及び第2の特定属性を含み、前記第2の段落単語列に前記第2の特定属性とマッチングする属性が存在し、前記マッチングは完全に一致すること及び/又は部分的に一致することを含む、第3の取得ユニットと、
    前記第2のサンプル情報を前記トレーニング済み自然言語処理モデルに入力し、前記第2の段落単語列から、前記第2の特定属性の属性値を予測するように構成される値予測ユニットと、
    予測された属性値、及び前記マッチングされた属性にマーク付けされた属性値に基づいて、前記トレーニング済み自然言語処理モデルをトレーニングし、第2のモデルを得るように構成される第3のトレーニングユニットと、をさらに含む請求項12に記載の装置。
  14. 前記装置は、
    対象テキストを単語分割して得られたテキスト単語列を取得し、前記テキスト単語列を複数の段落単語列に分割するように構成される分割ユニットと、
    前記複数の段落単語列から、目標属性に関連する段落単語列を確定するように構成される確定ユニットと、
    前記目標属性と確定された段落単語列を前記第1のモデルに入力し、前記目標属性と確定された各段落単語列との、相関値を含む相関度情報を予測するように構成される相関度予測ユニットと、
    相関値が大きい順に、前記複数の段落単語列から、所定数の段落単語列を選択するように構成される選択ユニットと、
    前記目標属性及び前記所定数の段落単語列を前記第2のモデルに入力し、前記所定数の段落単語列から、前記目標属性の属性値、及び前記目標属性の属性値の信頼度を予測するように構成される属性値予測ユニットと、
    前記相関値と前記信頼度とに基づいて、予測された前記目標属性の属性値から、前記目標属性の属性値を確定するように構成される値確定ユニットと、をさらに含む請求項13に記載の装置。
  15. 前記値確定ユニットは、さらに
    前記相関値と前記信頼度とに基づいて、予測された前記目標属性の属性値から、前記目標属性の属性値を確定するステップを実行するように構成され、該ステップは、
    予測された前記目標属性の属性値のそれぞれについて、該属性値が位置する段落単語列と前記目標属性の相関値と、該属性値の信頼度との積を確定することと、
    予測された前記目標属性の属性値のうち、対応する積が最も大きい属性値を前記目標属性の属性値として確定することと、を含む請求項14に記載の装置。
  16. 電子機器であって、
    1つまたは複数のプロセッサと、
    1つ以上のプログラムを格納するための記憶デバイスと、を備える電子機器であって、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~10のいずれか一項に記載の方法を実現させる、電子機器。
  17. コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
    該コンピュータプログラムがプロセッサによって実行されると、請求項1~10のいずれか一項に記載の方法を実現する、コンピュータ可読記憶媒体。
  18. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1~10のいずれか一項に記載の方法を実現する、コンピュータプログラム。

JP2021003862A 2020-01-14 2021-01-14 情報処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにプログラム Active JP7112537B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010034773.7A CN111259663B (zh) 2020-01-14 2020-01-14 信息处理方法和装置
CN202010034773.7 2020-01-14

Publications (2)

Publication Number Publication Date
JP2021111414A JP2021111414A (ja) 2021-08-02
JP7112537B2 true JP7112537B2 (ja) 2022-08-03

Family

ID=70945282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021003862A Active JP7112537B2 (ja) 2020-01-14 2021-01-14 情報処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにプログラム

Country Status (5)

Country Link
US (1) US11775776B2 (ja)
EP (1) EP3851999A1 (ja)
JP (1) JP7112537B2 (ja)
KR (1) KR102573518B1 (ja)
CN (1) CN111259663B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783443B (zh) * 2020-06-29 2023-08-15 百度在线网络技术(北京)有限公司 文本扰动检测方法、扰动还原方法、扰动处理方法和装置
CN112216359B (zh) * 2020-09-29 2024-03-26 百度国际科技(深圳)有限公司 医疗数据校验方法、装置及电子设备
CN113821652A (zh) * 2021-01-21 2021-12-21 北京沃东天骏信息技术有限公司 模型数据处理方法、装置、电子设备以及计算机可读介质
CN113159921B (zh) * 2021-04-23 2024-10-25 上海晓途网络科技有限公司 一种逾期预测方法、装置、电子设备及存储介质
CN113673255B (zh) * 2021-08-25 2023-06-30 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN113722436A (zh) * 2021-08-30 2021-11-30 平安科技(深圳)有限公司 文本信息提取方法、装置、计算机设备及存储介质
WO2023114412A1 (en) * 2021-12-16 2023-06-22 Flatiron Health, Inc. Systems and methods for model-assisted data processing to predict biomarker status and testing dates

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017076281A (ja) 2015-10-15 2017-04-20 日本電信電話株式会社 単語埋込学習装置、テキスト評価装置、方法、及びプログラム
CN110427609A (zh) 2019-06-25 2019-11-08 首都师范大学 一种写人作文篇章结构合理性自动评测方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050278623A1 (en) * 2004-05-17 2005-12-15 Dehlinger Peter J Code, system, and method for generating documents
CN108256539A (zh) * 2016-12-28 2018-07-06 北京智能管家科技有限公司 基于语义匹配的人机交互方法、交互系统及智能故事机
CN107766337A (zh) * 2017-09-25 2018-03-06 沈阳航空航天大学 基于深度语义关联的译文预测方法
US10453454B2 (en) * 2017-10-26 2019-10-22 Hitachi, Ltd. Dialog system with self-learning natural language understanding
CN108959260B (zh) * 2018-07-06 2019-05-28 北京邮电大学 一种基于文本化词向量的中文语法错误检测方法
CN110851573A (zh) * 2018-07-27 2020-02-28 北京京东尚科信息技术有限公司 语句处理方法、系统和电子设备
KR102260646B1 (ko) 2018-10-10 2021-06-07 고려대학교 산학협력단 자연어 처리 시스템 및 자연어 처리에서의 단어 표현 방법
CN109543039B (zh) * 2018-11-23 2022-04-08 中山大学 一种基于深度网络的自然语言情感分析方法
CN109697291B (zh) * 2018-12-29 2023-04-18 北京百度网讯科技有限公司 文本的语义段落识别方法和装置
CN109815333B (zh) * 2019-01-14 2021-05-28 金蝶软件(中国)有限公司 信息获取方法、装置、计算机设备和存储介质
CN110390023A (zh) * 2019-07-02 2019-10-29 安徽继远软件有限公司 一种基于改进bert模型的知识图谱构建方法
CN110427614B (zh) * 2019-07-16 2023-08-08 深圳追一科技有限公司 段落层级的构建方法、装置、电子设备及存储介质
CN112307769B (zh) * 2019-07-29 2024-03-15 武汉Tcl集团工业研究院有限公司 一种自然语言模型的生成方法和计算机设备
CN110489555B (zh) * 2019-08-21 2022-03-08 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法
CN110489538B (zh) * 2019-08-27 2020-12-25 腾讯科技(深圳)有限公司 基于人工智能的语句应答方法、装置及电子设备
CN110633476B (zh) * 2019-09-27 2024-04-05 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
KR102340542B1 (ko) * 2019-11-15 2021-12-20 고려대학교 산학협력단 자동화 기반의 가짜 뉴스 탐지 장치 및 방법
US11610061B2 (en) * 2019-12-02 2023-03-21 Asapp, Inc. Modifying text according to a specified attribute

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017076281A (ja) 2015-10-15 2017-04-20 日本電信電話株式会社 単語埋込学習装置、テキスト評価装置、方法、及びプログラム
CN110427609A (zh) 2019-06-25 2019-11-08 首都师范大学 一种写人作文篇章结构合理性自动评测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
砂山 渡、外1名,サブストーリーモデルに基づく文章の流れの抽出,情報処理学会研究報告,日本,社団法人情報処理学会,2004年11月06日,第2004巻,第108号,p.153-158

Also Published As

Publication number Publication date
EP3851999A1 (en) 2021-07-21
CN111259663B (zh) 2023-05-26
JP2021111414A (ja) 2021-08-02
US11775776B2 (en) 2023-10-03
KR102573518B1 (ko) 2023-09-06
KR20210091674A (ko) 2021-07-22
US20210216725A1 (en) 2021-07-15
CN111259663A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
JP7112537B2 (ja) 情報処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにプログラム
CN108805091B (zh) 用于生成模型的方法和装置
CN109460513B (zh) 用于生成点击率预测模型的方法和装置
US11758088B2 (en) Method and apparatus for aligning paragraph and video
CN109376267B (zh) 用于生成模型的方法和装置
CN109981787B (zh) 用于展示信息的方法和装置
CN107943877B (zh) 待播放多媒体内容的生成方法和装置
CN111104482A (zh) 数据处理方法和装置
CN110688528A (zh) 生成视频的分类信息的方法、装置、电子设备和介质
CN109829164B (zh) 用于生成文本的方法和装置
CN108510084B (zh) 用于生成信息的方法和装置
CN109862100B (zh) 用于推送信息的方法和装置
CN109255035B (zh) 用于构建知识图谱的方法和装置
WO2024099171A1 (zh) 视频生成方法和装置
CN113395538B (zh) 音效渲染方法、装置、计算机可读介质和电子设备
CN108038172B (zh) 基于人工智能的搜索方法和装置
CN111026849A (zh) 数据处理方法和装置
CN111756953A (zh) 视频处理方法、装置、设备和计算机可读介质
CN111862081A (zh) 图像评分方法、分数预测网络的训练方法、装置
JP2020173776A (ja) 映像を生成するための方法および装置
CN115495658A (zh) 一种数据处理方法和装置
CN115563942A (zh) 一种合同生成方法、装置、电子设备及计算机可读介质
CN112652329B (zh) 文本重对齐方法、装置、电子设备和存储介质
CN111125501B (zh) 用于处理信息的方法和装置
CN110096392B (zh) 用于输出信息的方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220722

R150 Certificate of patent or registration of utility model

Ref document number: 7112537

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150