JP2021099798A - 構造化処理方法、装置、コンピュータ機器及び媒体 - Google Patents

構造化処理方法、装置、コンピュータ機器及び媒体 Download PDF

Info

Publication number
JP2021099798A
JP2021099798A JP2020203999A JP2020203999A JP2021099798A JP 2021099798 A JP2021099798 A JP 2021099798A JP 2020203999 A JP2020203999 A JP 2020203999A JP 2020203999 A JP2020203999 A JP 2020203999A JP 2021099798 A JP2021099798 A JP 2021099798A
Authority
JP
Japan
Prior art keywords
attribute
text
output sequence
encoder
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020203999A
Other languages
English (en)
Inventor
ウェイ ジア,
Wei Jia
ウェイ ジア,
ダイ ダイ,
Dai Dai
ダイ ダイ,
シンヤン シャオ,
Xinyan Xiao
シンヤン シャオ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021099798A publication Critical patent/JP2021099798A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】自然言語処理の分野における情報処理技術分野に関する構造化処理方法、装置、コンピュータ機器及び媒体を提供する。【解決手段】構造化処理方法は、非構造化テキストを取得するステップと、非構造化テキストを属性を設定する属性値がマークされたトレーニングテキストによりトレーニングされたエンコーダ・デコーダモデルに入力して出力シーケンスを取得するステップと、出力シーケンスにおける各属性要素に対応する属性と、対応する属性要素に含まれる属性値とに基づいて、構造化表現を生成するステップと、を含む。【選択図】図1

Description

本発明は、自然言語処理の分野における情報処理技術分野に関し、特に、構造化処理方法、装置、コンピュータ機器及び媒体に関する。
各業界において、一般的に、自然言語で記録されたテキストが存在し、通常、このようなテキストを非構造化テキストと定義し、例えば、財務諸表、ニュース、カルテなどである。現在、世論分析、伝播分析、データプラットホームサービスなどのアプリケーションシナリオでは、いずれも構造化情報を抽出するニーズが存在し、すなわち、非構造化テキストから必要な構造化フィールドを抽出し、例えば財務諸表から会社名を抽出し、ニュースから攻撃事件の場所を抽出し、カルテから患者の状況を抽出するなどである。
しかし、既存の構造化情報抽出方法は、開発者によってプログラミング開発を行ってカスタマイズされたものであり、異なるアプリケーションシナリオに対して異なる抽出戦略を設定する必要があるため、抽出方法のシナリオの移植性が弱くなる。
本発明の第1の側面の実施例は、構造化処理方法を提供し、前記方法は、非構造化テキストを取得するステップと、前記非構造化テキストをエンコーダ・デコーダモデルに入力して、出力シーケンスを取得するステップであって、前記出力シーケンスには、複数の属性要素が含まれ、各属性要素が、設定された一つの属性に対応し、各属性要素には、対応する属性の属性値が含まれ、前記エンコーダ・デコーダモデルは、各属性を設定する属性値がマークされたトレーニングテキストを採用してトレーニングして取得されたものであるステップと、前記出力シーケンスにおける各属性要素に対応する属性及び対応する属性要素に含まれる属性値に基づいて、構造化表現を生成するステップと、を含む。
本発明の実施例の第1の可能な実現方式として、前記エンコーダ・デコーダモデルが、エンコーダとデコーダとを備え、前記非構造化テキストをエンコーダ・デコーダモデルに入力して、出力シーケンスを取得するステップが、前記非構造化テキストをワード分割して、複数のワード要素を取得するステップと、前記複数のワード要素を順番に並べて、入力シーケンスを取得するステップと、前記入力シーケンス内の複数のワード要素を前記エンコーダに入力して、意味エンコードを行い、対応するワード要素の暗黙的状態ベクトルを取得するステップであって、前記暗黙的状態ベクトルは、対応するワード要素及びその文脈の意味を示すためのものであるステップと、前記デコーダを採用して、各暗黙的状態ベクトルをデコードして、前記出力シーケンスにおける各属性値を取得するステップであって、前記デコーダは、既に、各属性値に対する各暗黙的状態ベクトルのアテンション重み、及び前記アテンション重みに基づいて重み付けされた暗黙的状態ベクトルと対応する属性値との間のマッピング関係を学習して取得したものであるステップと、を含む。
本発明の実施例の第2の可能な実現方式として、前記出力シーケンスはデータ交換フォーマットであり、前記データ交換フォーマットの出力シーケンスには、少なくとも一つのオブジェクトが含まれ、各オブジェクトが前記複数の属性要素を含み、前記非構造化テキストをエンコーダ・デコーダモデルに入力して、出力シーケンスを取得する前に、複数のトレーニングテキストを取得するステップであって、各前記トレーニングテキストは、対応する一つのデータ交換フォーマットのマーク情報を有し、前記マーク情報は、トレーニングテキストに記述されているエンティティに対応する少なくとも一つのオブジェクトを含み、各オブジェクトは、対応するエンティティの各属性を記述するための属性値を含み、同じオブジェクト内の各属性の属性値間の順序は、前記出力シーケンス内の対応する属性の属性要素の順序と同じであるステップと、前記エンコーダ・デコーダモデルの出力シーケンスと対応するマーク情報との間の誤差が最小化されるように、前記複数のトレーニングテキストを採用して前記エンコーダ・デコーダモデルをトレーニングするステップと、をさらに含む。
本発明の実施例の第3の可能な実現方式として、前記出力シーケンスにおける各属性要素に対応する属性及び対応する属性要素に含まれる属性値に基づいて、構造化表現を生成するステップが、前記データ交換フォーマットの出力シーケンスから、同じオブジェクトに属する属性要素を抽出するステップと、各オブジェクトに対して、抽出された属性要素に含まれる各属性の属性値に基づいて、対応するオブジェクトの構造化表現を生成するステップと、各オブジェクトの構造化表現に基づいて、前記非構造化テキストの構造化表現を生成するステップと、を含む。
本発明の実施例の第4の可能な実現方式として、各属性の属性値は、テキスト位置と実際のテキストとのうちの一つのタイプであり、前記タイプが、対応する属性の値の範囲に基づいて決定され、値の範囲が制限されている場合、対応する属性値は、実際のテキストであり、値の範囲が制限されていない場合、対応する属性値はテキスト位置であり、前記構造化表現を生成する前に、各属性要素に対して、含まれる属性値がテキスト位置である場合、対応する属性値を前記非構造化テキスト内の前記テキスト位置におけるワード要素に更新するステップをさらに含む。
本発明の実施例の第5の可能な実現方式として、前記複数のワード要素を順番に並べて、入力シーケンスを取得するステップが、前記複数のワード要素をエンティティ認識モデルにそれぞれ入力して、各ワード要素のエンティティタグを取得するステップと、各ワード要素を対応するエンティティタグとスプライスして、前記入力シーケンス内の一つの要素とするステップと、を含む。
本発明の第2の側面の実施例は、構造化処理装置を提供し、前記装置は、非構造化テキストを取得するための取得モジュールと、前記非構造化テキストをエンコーダ・デコーダモデルに入力して、出力シーケンスを取得するための処理モジュールであって、前記出力シーケンスには、複数の属性要素が含まれ、各属性要素は、設定された一つの属性に対応し、各属性要素には、対応する属性の属性値が含まれ、前記エンコーダ・デコーダモデルは、各属性を設定する属性値がマークされたトレーニングテキストを採用してトレーニングして取得されたものである処理モジュールと、前記出力シーケンスにおける各属性要素に対応する属性及び対応する属性要素に含まれる属性値に基づいて、構造化表現を生成するための生成モジュールと、を備える。
本発明の第3の側面の実施例は、コンピュータ機器を提供し、当該コンピュータ機器は、少なくとも一つのプロセッサと、該少なくとも一つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが、上記の実施例に記載の構造化処理方法を実行する。
本発明の第4の側面の実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに上記の実施例に記載の構造化処理方法を実行させる。
上記の発明における一実施例は、以下のような利点又は有益な効果を有する。非構造化テキストを取得し、非構造化テキストをエンコーダ・デコーダモデルに入力して、出力シーケンスを取得し、出力シーケンスには、複数の属性要素が含まれ、各属性要素は、設定された一つの属性に対応し、各属性要素には、対応する属性の属性値が含まれ、エンコーダ・デコーダモデルは、各属性を設定する属性値がマークされたトレーニングテキストを採用してトレーニングして取得されたものであり、出力シーケンスにおける各属性要素に対応する属性と、対応する属性要素に含まれる属性値とに基づいて、構造化表現を生成する。当該方法は、非構造化テキストをエンコーダ・デコーダモデルに入力して、複数の属性要素と対応する属性の属性値とを含む出力シーケンスを取得して、出力シーケンスに基づいて構造化表現を生成することによって、異なるシナリオの非構造化テキストに対して構造化情報の抽出を行う場合、異なる属性を設定して、トレーニングテキストを手動でマークした後にモデルを再度トレーニングするだけでよく、モデルの移植性と汎用性を向上させる。
上記の選択可能な方式が有する他の効果は、以下の具体的な実施例を組み合わせて説明する。
図面は、本技術案をよりよく理解するために使用されており、本発明を限定するものではない。
本発明の実施例により提供される第1の構造化処理方法の概略フローチャートである。 本発明の実施例により提供される第2の構造化処理方法の概略フローチャートである。 本発明の実施例により提供される第3の構造化処理方法の概略フローチャートである。 本発明の実施例により提供される第4の構造化処理方法の概略フローチャートである。 本発明の実施例により提供される構造化処理装置の概略構成図である。 本発明の実施例の構造化処理方法を実現するためのコンピュータ機器のブロック図である。
以下、図面を組み合わせて本発明の例示的な実施例を説明し、理解を容易にするために、その中には本発明の実施例の様々な詳細が含まれ、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本発明の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解されたい。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
関連技術では、一定の抽出戦略を採用して非構造化テキストから構造化情報を抽出する場合、異なるシナリオに対して異なる抽出戦略を設定する必要があり、シナリオの移植性が弱くなる。この技術的課題に対して、本発明は、構造化処理方法を提供し、当該方法は、非構造化テキストを取得し、非構造化テキストをエンコーダ・デコーダモデルに入力して、出力シーケンスを取得し、出力シーケンスには、複数の属性要素が含まれ、各属性要素は、設定された一つの属性に対応し、各属性要素は、対応する属性の属性値を含み、エンコーダ・デコーダモデルは、各属性を設定する属性値がマークされたトレーニングテキストを採用してトレーニングして取得されたものであり、出力シーケンスにおける各属性要素に対応する属性と、対応する属性要素に含まれる属性値とに基づいて、構造化表現を生成する。これにより、エンコーダ・デコーダモデルによって非構造化テキストを抽出する場合、異なるシナリオに対して異なる属性を設定するだけで対応する構造化表現を生成することができ、モデルの移植性と汎用性が強く、より多くのの抽出ニーズに適合する。
以下、図面を参照して本発明の実施例の構造化処理方法、装置及び電子機器を説明する。
図1は、本発明の実施例により提供される第1の構造化処理方法の概略フローチャートである。
本発明の実施例は、当該構造化処理方法が構造化処理装置に構成されることを例として説明し、コンピュータ機器が構造化処理機能を実行できるように、当該構造化処理装置は、任意のコンピュータ機器に適用することができる。
その中で、コンピュータ機器は、パーソナルコンピュータ(Personal Computer、PCと略称する)、クラウドデバイス、モバイルデバイスなどであってもよく、モバイルデバイスは、例えば、携帯電話、タブレットコンピュータ、携帯情報端末、又はウェアラブルデバイスなどの様々なオペレーティングシステムを有するハードウェアデバイスであってもよい。
図1に示すように、当該構造化処理方法は、以下のようなステップを含むことができる。
ステップ101において、非構造化テキストを取得する。
その中で、非構造化テキストとは、自然言語で記録されたテキストを指す。例えば、個人の履歴書、患者のカルテ、ニュースなどである。
可能な場合に、非構造化テキストは、ユーザによって入力されたテキストであってもよく、例えば、ユーザによって手動で入力された非構造化テキスト、又は音声の方式で入力された非構造化テキストなどであり、本発明の実施例では、ユーザが非構造化テキストを入力する方式を限定しない。
別の可能な場合に、非構造化テキストは、サーバ側からダウンロードされたテキストであってもよい。例えば、病院のカルテ管理システムから患者のカルテをダウンロードする。
なお、非構造化テキストには多くの情報が含まれているが、非構造化テキストのデータ量が大きいため、非構造化テキストからいくつかの構造化されたフィールドを抽出する必要がある。例えば、財務諸表から会社名を抽出し、カルテから患者のがんの病期状況を抽出し、個人の履歴書からユーザのスキルを抽出するなどである。
ステップ102において、非構造化テキストをエンコーダ・デコーダモデルに入力して、出力シーケンスを取得する。
その中で、出力シーケンスには、複数の属性要素が含まれ、各属性要素は、設定された一つの属性に対応し、各属性要素には、対応する属性の属性値が含まれる。
関連技術において、非構造化テキストから構造化情報を抽出する場合、異なる分野の非構造化テキストに対して、異なる抽出戦略を設定する必要がある。しかしながら、本発明では、異なるシナリオに対して、異なる属性を設定して、非構造化テキストがエンコーダ・デコーダモデルに入力された後、取得された出力シーケンスに、複数の属性要素が含まれ、各属性要素は、設定された一つの属性に対応し、各属性要素には、対応する属性の属性値が含まれるようにする。
例えば、非構造化テキストが「胃体から直径3cmの腫瘍が見られた」であると仮定すると、当該構造化テキストをエンコーダ・デコーダモデルに入力して取得された出力シーケンスは、「{「腫瘍の位置」:「胃体」、「腫瘍のサイズ」:「3cm」}」であってもよい。これから分かるように、当該出力シーケンスには二つの属性要素が含まれ、それぞれ腫瘍の位置と腫瘍のサイズであり、各属性要素には対応する属性の属性値が含まれ、それぞれ胃体と3cmである。
本発明の実施例では、エンコーダ・デコーダモデル(Encoder−Decoder)は、各属性を設定する属性値がマークされたトレーニングテキストを採用してトレーニングして取得される。これにより、非構造化テキストをエンコーダ・デコーダモデルに入力した後、取得された出力シーケンスには複数の属性要素が含まれ、各属性要素には、対応する属性の属性値が含まれる。
異なる分野の非構造化テキストに対して構造化情報を抽出する場合、各属性を設定して、トレーニングテキストを手動でマークした後にエンコーダ・デコーダモデルを再度トレーニングするだけで、トレーニングされたモデルを使用して構造化テキストを取得することができる。これにより、モデルの移植性と汎用性を向上させ、開発者の作業量を減少させる。
エンコーダ・デコーダモデルは、エンコーダとデコーダとを備え、その中で、エンコーダは、非構造化テキストをエンコードし、エンコードされたベクトルを取得するものである。デコーダは、エンコードされたベクトルをデコードし、出力シーケンスにおける各属性値を取得するものである。
可能な場合に、非構造化テキストをエンコーダ・デコーダモデルに入力して、取得された出力シーケンスはデータ交換フォーマットであり、データ交換フォーマットの出力シーケンスには、少なくとも一つのオブジェクトが含まれ、各オブジェクトには複数の属性要素が含まれる。
コンピュータの異なるプログラム間、又は異なるプログラミング言語間でデータ交換を行うには、みんなが理解できる「言語」が必要であり、これがデータ交換フォーマットであり、テキストによって特定の形式でデータを記述する。例えば、コンピュータ機器で一般的に使用されるデータ交換フォーマットは、拡張可能マークアップ言語(Extensible Markup Language、XMLと略称する)、JavaScript(登録商標)オブジェクト表記法(JavaScript
Object Notation、JSONと略称する)、別のマークアップ言語(YAML Ain’t Markup Language、YAMLと略称する)などである。
ステップ103において、出力シーケンスにおける各属性要素に対応する属性と、対応する属性要素に含まれる属性値とに基づいて、構造化表現を生成する。
本発明の実施例では、非構造化テキストをエンコーダ・デコーダモデルに入力して、複数の属性要素が含まれた出力シーケンスを取得した後、出力シーケンスにおける各属性要素に対応する属性と、対応する属性要素に含まれる属性値とに基づいて、構造化表現を生成することができる。
続けて上記の例を例に挙げると、出力シーケンスは、「{「腫瘍の位置」:「胃体」、「腫瘍のサイズ」:「3cm」}」であり、当該出力シーケンスには二つの属性要素が含まれ、それぞれ腫瘍の位置と腫瘍のサイズであり、各属性要素には対応する属性の属性値が含まれ、それぞれ胃体と3cmである。これにより、出力シーケンスにおける各属性要素に対応する属性と、対応する属性要素に含まれる属性値とに基づいて、構造化表現を「腫瘍の位置:胃体&腫瘍のサイズ:3cm」として生成することができる。
可能な場合に、各属性の属性値は、テキスト位置と実際のテキストのうちの一つのタイプであり、タイプは、対応する属性の値の範囲に基づいて決定され、値の範囲が制限されている場合、対応する属性値は、実際のテキストであり、値の範囲が制限されていない場合、対応する属性値はテキスト位置である。出力シーケンスにおける各属性要素に対応する属性と、対応する属性要素に含まれる属性値とに基づいて、構造化表現を生成する前に、各属性要素に対して、属性値がテキスト位置であるか否かを決定する。
可能な場合に、属性要素に対して、含まれる属性値がテキスト位置である場合、対応する属性値を非構造化テキスト内のテキスト位置におけるワード要素に更新する。
例えば、腫瘍のサイズという属性の値の範囲は、制限されていないので、当該属性要素に含まれる属性値は、テキスト位置である。
本発明の実施例の構造化処理方法は、非構造化テキストを取得し、非構造化テキストをエンコーダ・デコーダモデルに入力して、出力シーケンスを取得し、出力シーケンスには、複数の属性要素が含まれ、各属性要素は、設定された一つの属性に対応し、各属性要素には、対応する属性の属性値が含まれ、エンコーダ・デコーダモデルは、各属性を設定する属性値がマークされたトレーニングテキストを採用してトレーニングして取得されたものであり、出力シーケンスにおける各属性要素に対応する属性と、対応する属性要素に含まれる属性値とに基づいて、構造化表現を生成する。当該方法は、非構造化テキストをエンコーダ・デコーダモデルに入力して、複数の属性要素及び対応する属性の属性値を含む出力シーケンスを取得して、出力シーケンスに基づいて構造化表現を生成することによって、異なるシナリオの非構造化テキストに対して構造化情報の抽出を行う場合、異なる属性を設定して、トレーニングテキストを手動でマークした後にモデルを再度トレーニングするだけでよく、モデルの移植性と汎用性を向上させる。
上記の実施例に基づいて、上記のステップ102において、可能な実現方式として、非構造化テキストをワード分割し、複数のワード要素を取得し、複数のワード要素を順番に並べて、入力シーケンスを取得し、入力シーケンス内の複数のワード要素をエンコーダに入力し意味エンコードを行い、対応するワード要素の暗黙的状態ベクトルを取得し、さらに、デコーダを採用して、各暗黙的状態ベクトルをデコードして、出力シーケンスにおける各属性値を取得することができる。以下に、図2を組み合わせて上記のプロセスを詳細に説明し、図2は、本発明の実施例により提供される第2の構造化処理方法の概略フローチャートである。
図2に示すように、上記のステップ102は、さらに、以下のようなステップを含むことができる。
ステップ201において、非構造化テキストをワード分割し、複数のワード要素を取得する。
その中で、ワード分割とは、非構造化テキストを一つ一つの個々の単語に分割することである。
本発明の実施例では、非構造化テキストをエンコーダ・デコーダモデルに入力する前に、まず、非構造化テキストをワード分割して、非構造化テキストを複数のワード要素に分割する。
ステップ202において、複数のワード要素を順番に並べて、入力シーケンスを取得する。
本発明の実施例では、非構造化テキストをワード分割し、複数のワード要素を取得した後、複数のワード要素を順番に並べて、入力シーケンスを取得する。
可能な実現方式として、複数のワード要素をエンティティ認識モデルにそれぞれ入力して、各ワード要素のエンティティタグを取得し、さらに、各ワード要素を対応するエンティティタグとスプライスして、入力シーケンス内の一つの要素とすることができる。
ステップ203において、入力シーケンス内の複数のワード要素をエンコーダに入力して、意味エンコードを行い、対応するワード要素の暗黙的状態ベクトルを取得する。
その中で、暗黙的状態ベクトルは、対応するワード要素及びその文脈の意味を示すものである。意味エンコードとは、ワードによって情報を加工し、意味、システム分類によって言語材料を自分の言語形式で編成して要約し、材料の基本的な論点、論拠、論理構造を見つけ、意味特徴に従ってエンコードすることである。
自然言語処理では、自然言語テキストは、多くの記号が順番にスプライスされてなる不定の長さのシーケンスであり、コンピュータが理解できる数値型のデータに直接変換することが難しいため、さらなる計算処理を直接行うことができない。暗黙的状態ベクトルは、豊富な情報を含んでいるので、ディープラーニングがほとんどの自然言語処理アプリケーションを処理することができる。
本発明の実施例では、まず、入力シーケンス内の複数のワード要素をエンコーダに入力して、複数のワード要素に対して意味エンコードを行い、各ワード要素の暗黙的状態ベクトルを取得する。その中で、取得された各ワード要素の暗黙的状態ベクトルは、対応するワード要素及びその文脈の意味を示すことができる。
なお、入力シーケンス内の複数のワード要素から対応するワード要素の暗黙的状態ベクトルを生成する方法は、たくさんあるが、例えば、双方向長短期記憶ネットワーク(Bi−directional Long Short−Term Memory、BiLSTMと略称する)、自己注意機構(Self Attention)、畳み込みニューラルネットワーク(Convolutional Neural Network、CNNと略称する)などを採用することができる。
本発明の実施例では、エンコーダで採用されるエンコード技術に対して制限しない。
ステップ204において、デコーダを採用して、各暗黙的状態ベクトルをデコードして、出力シーケンスにおける各属性値を取得する。
その中で、デコーダは、既に、各属性値に対する各暗黙的状態ベクトルのアテンション重み、及びアテンション重みに基づいて重み付けされた暗黙的状態ベクトルと対応する属性値との間のマッピング関係を学習して取得したものである。
本発明の実施例では、デコーダを採用して各暗黙的状態ベクトルをデコードする時にアテンションモデルを使用して、デコーダが各属性値に対する各暗黙的状態ベクトルのアテンション重みと、アテンション重みに基づいて重み付けされた暗黙的状態ベクトルと対応する属性値との間のマッピング関係とに基づいて、出力シーケンスにおける各属性値を取得する。
その中で、アテンションモデルは、attentionアテンションメカニズムであり、空間アテンション(Spatial Attention)及び時間アテンション(Temporal Attention)に分けられることができる。ソフトアテンション(Soft Attention)及びハードアテンション(Hard Attention)に分けられることもできる。Soft Attentionは、すべてのデータに注意し、対応するアテンション重みを算出し、選別条件を設定しない。Hard Attentionは、アテンション重みが生成された後に条件に合わない一部のアテンションを除外し、それらのアテンション重みを0にし、即ちこのような条件に合わない部分にさらに注意しないと理解できる。
本発明の実施例の構造化処理方法は、非構造化テキストをワード分割して、複数のワード要素を取得し、複数のワード要素を順番に並べて、入力シーケンスを取得し、入力シーケンス内の複数のワード要素をエンコーダに入力して、意味エンコードを行い、対応するワード要素の暗黙的状態ベクトルを取得し、デコーダを採用して、各暗黙的状態ベクトルをデコードして、出力シーケンスにおける各属性値を取得し、デコーダは、既に、各属性値に対する各暗黙的状態ベクトルのアテンション重み、及びアテンション重みに基づいて重み付けされた暗黙的状態ベクトルと対応する属性値との間のマッピング関係を学習して取得したものである。これにより、エンコーダ−デコーダによって非構造化テキストを各属性値を含む出力シーケンスに変換する。
本発明の実施例では、非構造化テキストをエンコーダ・デコーダモデルに入力して出力シーケンスを取得する前に、エンコーダ・デコーダモデルの出力シーケンスと対応するマーク情報との間の誤差が最小化されるように、複数のトレーニングテキストを採用してエンコーダ・デコーダモデルをトレーニングする必要がある。以下に、図3を組み合わせて上記のプロセスを詳細に説明し、図3は、本発明の実施例により提供される第3の構造化処理方法の概略フローチャートである。
図3に示すように、当該構造化処理方法は、さらに、以下のようなステップを含むことができる。
ステップ301において、複数のトレーニングテキストを取得する。
本発明の実施例では、各トレーニングテキストは、対応する一つのデータ交換フォーマットのマーク情報を有し、マーク情報は、トレーニングテキストに記述されたエンティティに対応する少なくとも一つのオブジェクトを含み、各オブジェクトは、対応するエンティティの各属性を記述するための属性値を含み、同じオブジェクト内の各属性の属性値間の順序は、出力シーケンス内の対応する属性の属性要素の順序と同じである。
トレーニングテキストも非構造化テキストであり、トレーニングテキストを使用してエンコーダ・デコーダモデルをトレーニングする時、各トレーニングテキストには対応する一つのデータ交換フォーマットのマーク情報が具備すると理解できる。
各トレーニングテキストに対して情報をマークする時、可能な場合として、マーキング作業は、タスクに分けて行うことができ、例えばデータから2000個のデータを選択して最初のマーキングを行い、タスクに「胃癌病理の最初のマーキング」の名前をつける。その後、モデルのトレーニング時には、任意のタスクデータに基づいてトレーニングすることを選択することができる。これにより、異なる抽出タスクの異なるモデルバージョンのデータ管理を容易にする。
本発明の実施例では、トレーニングテキストに対してもワード分割して、複数のワード要素を取得し、複数のワード要素をエンティティ認識モデルにそれぞれ入力して、各ワード要素のエンティティタグを取得し、各ワード要素を対応するエンティティタグとスプライスして、入力シーケンス内の一つの要素とする。
なお、トレーニングテキストは、サーバ側からダウンロードされたテキストであってもよいし、ユーザによって手動で入力されたテキストであってもよく、ここでは制限しない。
ステップ302において、エンコーダ・デコーダモデルの出力シーケンスと対応するマーク情報との間の誤差が最小化されるように、複数のトレーニングテキストを採用してエンコーダ・デコーダモデルをトレーニングする。
本発明の実施例では、複数のトレーニングテキストを採用してエンコーダ・デコーダモデルをトレーニングすることは、出力シーケンスに基づいて各属性要素に対応する属性及び対応する属性要素に含まれる属性値を決定し、複数回のトレーニングを経て、エンコーダ・デコーダモデルの出力シーケンスと対応するマーク情報との間の誤差が最小化されることができる。さらに、エンコーダ・デコーダモデルの出力に基づいて構造化情報を正確に取得することができる。
本発明の実施例の構造化処理方法は、複数のトレーニングテキストを取得し、エンコーダ・デコーダモデルの出力シーケンスと対応するマーク情報との間の誤差が最小化されるように、複数のトレーニングテキストを採用してエンコーダ・デコーダモデルをトレーニングする。これにより、マーク情報を有するトレーニングテキストを採用してエンコーダ・デコーダモデルをトレーニングすることによって、非構造化テキストをエンコーダ・デコーダモデルに入力した後、エンコーダ・デコーダモデルの出力に基づいて構造化情報を正確に取得することを実現することができ、構造化情報の抽出の正確性を向上させる。
上記の実施例に基づいて、非構造化テキストを複数のトレーニングテキストを採用してトレーニングされたエンコーダ・デコーダモデルに入力して、構造化表現を生成することができる。可能な実現方式として、データ交換フォーマットの出力シーケンスから、同じオブジェクトに属する属性要素を抽出し、各オブジェクトに対して、抽出された属性要素に含まれる各属性の属性値に基づいて、対応するオブジェクトの構造化表現を生成し、さらに、各オブジェクトの構造化表現に基づいて、非構造化テキストの構造化表現を生成することができる。以下に、図4を組み合わせて上記のプロセスを詳細に説明し、図4は、本発明の実施例により提供される第4の構造化処理方法の概略フローチャートである。
図4に示すように、当該構造化処理方法は、さらに、以下のようなステップを含むことができる。
ステップ401において、データ交換フォーマットの出力シーケンスから、同じオブジェクトに属する属性要素を抽出する。
本発明の実施例では、非構造化テキストをエンコーダ・デコーダモデルに入力して、取得された出力シーケンスはデータ交換フォーマットであり、データ交換フォーマットの出力シーケンスには、少なくとも一つのオブジェクトが含まれ、各オブジェクトには複数の属性要素が含まれる。したがって、データ交換フォーマットの出力シーケンスから、同じオブジェクトに属する属性要素を抽出することができる。
例えば、データ交換フォーマットの出力シーケンスが「{「腫瘍の位置」:「胃体」、「腫瘍のサイズ」:「3cm」}」であると仮定すると、当該出力シーケンスには二つの属性要素が含まれ、それぞれ腫瘍の位置と腫瘍のサイズであり、当該出力シーケンスには、同じ腫瘍オブジェクトに属する二つの属性要素が含まれ、出力シーケンスからそれぞれ腫瘍の位置と腫瘍のサイズである同じオブジェクトに属する属性要素を抽出することができる。
なお、データ交換フォーマットの出力シーケンスに複数のオブジェクトが含まれる場合、データ交換フォーマットの出力シーケンスから、各オブジェクトに属する属性要素を抽出することができる。
ステップ402において、各オブジェクトに対して、抽出された属性要素に含まれる各属性の属性値に基づいて、対応するオブジェクトの構造化表現を生成する。
本発明の実施例では、データ交換フォーマットの出力シーケンスから、同じオブジェクトに属する属性要素を抽出する場合、各オブジェクトに対して、抽出された属性要素に含まれる各属性の属性値に基づいて、対応するオブジェクトの構造化表現を生成することができる。
続けて上記の例を例に挙げると、データ交換フォーマットの出力シーケンスが{「腫瘍の位置」:「胃体」、「腫瘍のサイズ」:「3cm」}であり、当該出力シーケンスにおいて腫瘍というオブジェクトに属する属性要素は、それぞれ腫瘍の位置と腫瘍のサイズであり、属性要素に含まれる各属性の属性値は、それぞれ胃体と3cmである。この場合、抽出された属性要素に含まれる各属性の属性値に基づいて、対応するオブジェクトの構造化表現を腫瘍の位置:胃体&腫瘍のサイズ:3cmとして生成する。
ステップ403において、各オブジェクトの構造化表現に基づいて、非構造化テキストの構造化表現を生成する。
本発明の実施例では、各オブジェクトに対して、抽出された属性要素に含まれる各属性の属性値に基づいて、対応するオブジェクトの構造化表現を生成した後、各オブジェクトの構造化表現に基づいて、非構造化テキストの構造化表現を生成することができる。
本発明の実施例の構造化処理方法は、データ交換フォーマットの出力シーケンスから、同じオブジェクトに属する属性要素を抽出し、各オブジェクトに対して、抽出された属性要素に含まれる各属性の属性値に基づいて、対応するオブジェクトの構造化表現を生成し、各オブジェクトの構造化表現に基づいて、非構造化テキストの構造化表現を生成する。これにより、各属性を設定することによって、異なるシナリオでの非構造化テキストの構造化表現を取得することができる。
上記の実施例を実現するために、本発明の実施例は、構造化処理装置を提供する。
図5は、本発明の実施例により提供される構造化処理装置の概略構成図である。
図5に示すように、当該構造化処理装置500は、取得モジュール510と、処理モジュール520と、生成モジュール530とを備えることができる。
その中で、取得モジュール510は、非構造化テキストを取得するものである。
処理モジュール520は、非構造化テキストをエンコーダ・デコーダモデルに入力して、出力シーケンスを取得するものであり、出力シーケンスには、複数の属性要素が含まれ、各属性要素は、設定された一つの属性に対応し、各属性要素には、対応する属性の属性値が含まれ、エンコーダ・デコーダモデルは、各属性を設定する属性値がマークされたトレーニングテキストを採用してトレーニングして取得されたものである。
生成モジュール530は、出力シーケンスにおける各属性要素に対応する属性と、対応する属性要素に含まれる属性値とに基づいて、構造化表現を生成するものである。
可能な場合として、エンコーダ・デコーダモデルは、エンコーダとデコーダとを含み、処理モジュール520は、さらに、非構造化テキストをワード分割して、複数のワード要素を取得し、複数のワード要素を順番に並べて、入力シーケンスを取得し、入力シーケンス内の複数のワード要素をエンコーダに入力して、意味エンコードを行い、対応するワード要素の暗黙的状態ベクトルを取得し、暗黙的状態ベクトルは、対応するワード要素及びその文脈の意味を示すものであり、デコーダを採用して、各暗黙的状態ベクトルをデコードして、出力シーケンスにおける各属性値を取得し、デコーダは、既に、各属性値に対する各暗黙的状態ベクトルのアテンション重み、及びアテンション重みに基づいて重み付けされた暗黙的状態ベクトルと対応する属性値との間のマッピング関係を学習して取得されたものである。
別の可能な場合として、出力シーケンスはデータ交換フォーマットであり、データ交換フォーマットの出力シーケンスには、少なくとも一つのオブジェクトが含まれ、各オブジェクトには複数の属性要素が含まれる。
当該構造化処理装置500は、テキスト取得モジュールとトレーニングモジュールと、をさらに備えることができる。
テキスト取得モジュールは、複数のトレーニングテキストを取得するものであり、各トレーニングテキストは、対応する一つのデータ交換フォーマットのマーク情報を有し、マーク情報は、トレーニングテキストに記述されたエンティティに対応する少なくとも一つのオブジェクトを含み、各オブジェクトは、対応するエンティティの各属性を記述するための属性値を含み、同じオブジェクト内の各属性の属性値間の順序は、出力シーケンス内の対応する属性の属性要素の順序と同じである。
トレーニングモジュールは、エンコーダ・デコーダモデルの出力シーケンスと対応するマーク情報との間の誤差が最小化されるように、複数のトレーニングテキストを採用してエンコーダ・デコーダモデルをトレーニングするものである。
別の可能な場合として、生成モジュール530は、さらに、データ交換フォーマットの出力シーケンスから、同じオブジェクトに属する属性要素を抽出し、各オブジェクトに対して、抽出された属性要素に含まれる各属性の属性値に基づいて、対応するオブジェクトの構造化表現を生成し、各オブジェクトの構造化表現に基づいて、非構造化テキストの構造化表現を生成することができる。
別の可能な場合として、各属性の属性値は、テキスト位置と実際のテキストのうちの一つのタイプであり、タイプは、対応する属性の値の範囲に基づいて決定され、値の範囲が制限されている場合、対応する属性値は、実際のテキストであり、値の範囲が制限されていない場合、対応する属性値はテキスト位置であり、当該構造化処理装置500は、各属性要素に対して、含まれる属性値がテキスト位置である場合、対応する属性値を非構造化テキスト内のテキスト位置におけるワード要素に更新するための更新モジュールをさらに備えることができる。
別の可能な場合として、処理モジュール520は、さらに、複数のワード要素をエンティティ認識モデルにそれぞれ入力して、各ワード要素のエンティティタグを取得し、各ワード要素を対応するエンティティタグとスプライスして、入力シーケンス内の一つの要素とすることができる。
なお、上記の構造化処理方法の実施例の説明は、当該構造化処理装置にも適用され、ここでは説明を省略する。
本発明の実施例の構造化処理装置は、非構造化テキストを取得し、非構造化テキストをエンコーダ・デコーダモデルに入力して、出力シーケンスを取得し、出力シーケンスには、複数の属性要素が含まれ、各属性要素は、設定された一つの属性に対応し、各属性要素には、対応する属性の属性値が含まれ、エンコーダ・デコーダモデルは、各属性を設定する属性値がマークされたトレーニングテキストを採用してトレーニングして取得されたものであり、出力シーケンスにおける各属性要素に対応する属性と、対応する属性要素に含まれる属性値とに基づいて、構造化表現を生成する。当該方法は、非構造化テキストをエンコーダ・デコーダモデルに入力して、複数の属性要素及び対応する属性の属性値を含む出力シーケンスを取得して、出力シーケンスに基づいて構造化表現を生成することによって、異なるシナリオの非構造化テキストに対して構造化情報の抽出を行う場合、異なる属性を設定して、トレーニングテキストを手動でマークした後にモデルを再度トレーニングするだけでよく、モデルの移植性と汎用性を向上させる。
本発明の実施例によれば、本発明は、コンピュータ機器と読み取り可能な記憶媒体とをさらに提供する。
図6に示すのは、本発明の実施例の構造化処理方法を実現するためのコンピュータ機器のブロック図である。コンピュータ機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。コンピュータ機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書で説明及び/又は要求される本発明の実現を制限するものではない。
図6に示すように、当該コンピュータ機器は、一つ又は複数のプロセッサ601と、メモリ602と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を備える。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む、コンピュータ機器内に実行される命令を処理することができる。他の実施方式では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリと一緒に使用することができる。同様に、複数のコンピュータ機器を接続することができ、各機器が、一部の必要な動作を提供することができる(例えば、サーバアレイ、1グループのブレードサーバ、又はマルチプロセッサシステムとする)。図6では、一つのプロセッサ601を例とする。
メモリ602は、本発明により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中で、前記メモリには、少なくとも一つのプロセッサによって実行される命令が記憶され、前記少なくとも一つのプロセッサが本発明により提供される構造化処理方法を実行するようにする。本発明の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本発明により提供される構造化処理方法を実行させるためのコンピュータ命令が記憶されている。
メモリ602は、非一時的なコンピュータ読み取り可能な記憶媒体として、本発明の実施例における構造化処理方法に対応するプログラム命令/モジュール(例えば、図5に示す取得モジュール510、520、及び生成モジュール530)のように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するものである。プロセッサ601は、メモリ602に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例における構造化処理方法を実現する。
メモリ602は、ストレージプログラムエリアとストレージデータエリアとを含むことができる。ストレージプログラムエリアは、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータエリアは、構造化処理方法に基づくコンピュータ機器の使用によって作成されたデータなどを記憶することができる。また、メモリ602は、高速ランダムアクセスメモリを備えることができ、非一時的なメモリをさらに備えることができ、例えば、少なくとも一つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例で、メモリ602は、プロセッサ601に対して遠隔に設置されたメモリを選択的に備えることができ、これらの遠隔メモリは、ネットワークを介して構造化処理方法のコンピュータ機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
構造化処理方法のコンピュータ機器は、入力装置603と出力装置604とをさらに備えることができる。プロセッサ601と、メモリ602と、入力装置603と、出力装置604とは、バス又は他の方式を介して接続することができ、図6では、バスを介して接続することを例とする。
入力装置603は、入力された数字又は文字情報を受信することができ、構造化処理方法のコンピュータ機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置604は、ディスプレイデバイス、補助照明装置(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施方式で、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」との用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」との用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、コンピュータ上で、ここで説明されるシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供するために用いられ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバ関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。
本発明の実施例の技術案によれば、非構造化テキストを取得し、非構造化テキストをエンコーダ・デコーダモデルに入力して、出力シーケンスを取得し、出力シーケンスには、複数の属性要素が含まれ、各属性要素は、設定された一つの属性に対応し、各属性要素には、対応する属性の属性値が含まれ、エンコーダ・デコーダモデルは、各属性を設定する属性値がマークされたトレーニングテキストを採用してトレーニングして取得されたものであり、出力シーケンスにおける各属性要素に対応する属性と、対応する属性要素に含まれる属性値とに基づいて、構造化表現を生成する。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本発明に記載されている各ステップは、並列に実行されてもよいし、順次に実行されてもよいし、異なる順序で実行されてもよいが、本発明で開示された技術案が所望の結果を実現することができれば、本明細書では限定しない。
上記の具体的な実施方式は、本発明に対する保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本発明の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本発明の保護範囲内に含まれるべきである。

Claims (15)

  1. 非構造化テキストを取得するステップと、
    前記非構造化テキストをエンコーダ・デコーダモデルに入力して、出力シーケンスを取得するステップであって、前記出力シーケンスには、複数の属性要素が含まれ、各属性要素が、設定された一つの属性に対応し、各属性要素には、対応する属性の属性値が含まれ、前記エンコーダ・デコーダモデルは、各属性を設定する属性値がマークされたトレーニングテキストを採用してトレーニングして取得されたものであるステップと、
    前記出力シーケンスにおける各属性要素に対応する属性及び対応する属性要素に含まれる属性値に基づいて、構造化表現を生成するステップと、
    を含む構造化処理方法。
  2. 前記エンコーダ・デコーダモデルが、エンコーダとデコーダとを備え、
    前記非構造化テキストをエンコーダ・デコーダモデルに入力して、出力シーケンスを取得するステップが、
    前記非構造化テキストをワード分割して、複数のワード要素を取得するステップと、
    前記複数のワード要素を順番に並べて、入力シーケンスを取得するステップと、
    前記入力シーケンス内の複数のワード要素を前記エンコーダに入力して、意味エンコードを行い、対応するワード要素の暗黙的状態ベクトルを取得するステップであって、前記暗黙的状態ベクトルは、対応するワード要素及びその文脈の意味を示すためのものであるステップと、
    前記デコーダを採用して、各暗黙的状態ベクトルをデコードして、前記出力シーケンスにおける各属性値を取得するステップであって、前記デコーダは、既に、各属性値に対する各暗黙的状態ベクトルのアテンション重み、及び前記アテンション重みに基づいて重み付けされた暗黙的状態ベクトルと対応する属性値との間のマッピング関係を学習して取得したものであるステップと、
    を含む請求項1に記載の構造化処理方法。
  3. 前記出力シーケンスはデータ交換フォーマットであり、前記データ交換フォーマットの出力シーケンスには、少なくとも一つのオブジェクトが含まれ、各オブジェクトが前記複数の属性要素を含み、
    前記非構造化テキストをエンコーダ・デコーダモデルに入力して、出力シーケンスを取得する前に、
    複数のトレーニングテキストを取得するステップであって、各前記トレーニングテキストは、対応する一つのデータ交換フォーマットのマーク情報を有し、前記マーク情報は、トレーニングテキストに記述されているエンティティに対応する少なくとも一つのオブジェクトを含み、各オブジェクトは、対応するエンティティの各属性を記述するための属性値を含み、同じオブジェクト内の各属性の属性値間の順序は、前記出力シーケンス内の対応する属性の属性要素の順序と同じであるステップと、
    前記エンコーダ・デコーダモデルの出力シーケンスと対応するマーク情報との間の誤差が最小化されるように、前記複数のトレーニングテキストを採用して前記エンコーダ・デコーダモデルをトレーニングするステップと、
    を含む請求項1に記載の構造化処理方法。
  4. 前記出力シーケンスにおける各属性要素に対応する属性及び対応する属性要素に含まれる属性値に基づいて、構造化表現を生成するステップが、
    前記データ交換フォーマットの出力シーケンスから、同じオブジェクトに属する属性要素を抽出するステップと、
    各オブジェクトに対して、抽出された属性要素に含まれる各属性の属性値に基づいて、対応するオブジェクトの構造化表現を生成するステップと、
    各オブジェクトの構造化表現に基づいて、前記非構造化テキストの構造化表現を生成するステップと、
    を含む請求項3に記載の構造化処理方法。
  5. 各属性の属性値は、テキスト位置と実際のテキストとのうちの一つのタイプであり、前記タイプが、対応する属性の値の範囲に基づいて決定され、値の範囲が制限されている場合、対応する属性値は実際のテキストであり、値の範囲が制限されていない場合、対応する属性値はテキスト位置であり、
    前記構造化表現を生成する前に、
    各属性要素に対して、含まれる属性値がテキスト位置である場合、対応する属性値を前記非構造化テキスト内の前記テキスト位置におけるワード要素に更新するステップを含む請求項3に記載の構造化処理方法。
  6. 前記複数のワード要素を順番に並べて、入力シーケンスを取得するステップが、
    前記複数のワード要素をエンティティ認識モデルにそれぞれ入力して、各ワード要素のエンティティタグを取得するステップと、
    各ワード要素を対応するエンティティタグとスプライスして、前記入力シーケンス内の一つの要素とするステップと、
    を含む請求項2に記載の構造化処理方法。
  7. 非構造化テキストを取得するための取得モジュールと、
    前記非構造化テキストをエンコーダ・デコーダモデルに入力して、出力シーケンスを取得するための処理モジュールであって、前記出力シーケンスには、複数の属性要素が含まれ、各属性要素は、設定された一つの属性に対応し、各属性要素には、対応する属性の属性値が含まれ、前記エンコーダ・デコーダモデルは、各属性を設定する属性値がマークされたトレーニングテキストを採用してトレーニングして取得されたものである処理モジュールと、
    前記出力シーケンスにおける各属性要素に対応する属性及び対応する属性要素に含まれる属性値に基づいて、構造化表現を生成するための生成モジュールと、
    を備える構造化処理装置。
  8. 前記エンコーダ・デコーダモデルが、エンコーダとデコーダとを備え、
    前記処理モジュールが、
    前記非構造化テキストをワード分割して、複数のワード要素を取得し、
    前記複数のワード要素を順番に並べて、入力シーケンスを取得し、
    前記入力シーケンス内の複数のワード要素を前記エンコーダに入力して、意味エンコードを行い、対応するワード要素の暗黙的状態ベクトルを取得し、前記暗黙的状態ベクトルは、対応するワード要素及びその文脈の意味を示すためのものであり、
    前記デコーダを採用して、各暗黙的状態ベクトルをデコードして、前記出力シーケンスにおける各属性値を取得し、前記デコーダは、既に、各属性値に対する各暗黙的状態ベクトルのアテンション重み、及び前記アテンション重みに基づいて重み付けされた暗黙的状態ベクトルと対応する属性値との間のマッピング関係を学習して取得したものである請求項7に記載の構造化処理装置。
  9. 前記出力シーケンスはデータ交換フォーマットであり、前記データ交換フォーマットの出力シーケンスには、少なくとも一つのオブジェクトが含まれ、各オブジェクトが前記複数の属性要素を含み、
    前記装置が、
    複数のトレーニングテキストを取得するためのテキスト取得モジュールであって、各前記トレーニングテキストは、対応する一つのデータ交換フォーマットのマーク情報を有し、前記マーク情報は、トレーニングテキストに記述されているエンティティに対応する少なくとも一つのオブジェクトを含み、各オブジェクトは、対応するエンティティの各属性を記述するための属性値を含み、同じオブジェクト内の各属性の属性値間の順序は、前記出力シーケンス内の対応する属性の属性要素の順序と同じであるテキスト取得モジュールと、
    前記エンコーダ・デコーダモデルの出力シーケンスと対応するマーク情報との間の誤差が最小化されるように、前記複数のトレーニングテキストを採用して前記エンコーダ・デコーダモデルをトレーニングするためのトレーニングモジュールと、
    を含む請求項7に記載の構造化処理装置。
  10. 前記生成モジュールが、
    前記データ交換フォーマットの出力シーケンスから、同じオブジェクトに属する属性要素を抽出し、
    各オブジェクトに対して、抽出された属性要素に含まれる各属性の属性値に基づいて、対応するオブジェクトの構造化表現を生成し、
    各オブジェクトの構造化表現に基づいて、前記非構造化テキストの構造化表現を生成する請求項9に記載の構造化処理装置。
  11. 各属性の属性値は、テキスト位置と実際のテキストとのうちの一つのタイプであり、前記タイプが、対応する属性の値の範囲に基づいて決定され、値の範囲が制限されている場合、対応する属性値は実際のテキストであり、値の範囲が制限されていない場合、対応する属性値はテキスト位置であり、
    前記装置が、
    各属性要素に対して、含まれる属性値がテキスト位置である場合、対応する属性値を前記非構造化テキスト内の前記テキスト位置におけるワード要素に更新するための更新モジュールを備える請求項9に記載の構造化処理装置。
  12. 前記処理モジュールが、
    前記複数のワード要素をエンティティ認識モデルにそれぞれ入力して、各ワード要素のエンティティタグを取得し、
    各ワード要素を対応するエンティティタグとスプライスして、前記入力シーケンス内の一つの要素とする請求項8に記載の構造化処理装置。
  13. 少なくとも一つのプロセッサと、
    該少なくとも一つのプロセッサと通信可能に接続されるメモリと、
    を備え、
    前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが、請求項1から6のいずれか一項に記載の構造化処理方法を実行するコンピュータ機器。
  14. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令が、コンピュータに請求項1から6のいずれか一項に記載の構造化処理方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
  15. コンピュータに請求項1から6のいずれかに記載の構造化処理方法を実行させるコンピュータプログラム。
JP2020203999A 2019-12-20 2020-12-09 構造化処理方法、装置、コンピュータ機器及び媒体 Pending JP2021099798A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911324544.2A CN111078825A (zh) 2019-12-20 2019-12-20 结构化处理方法、装置、计算机设备及介质
CN201911324544.2 2019-12-20

Publications (1)

Publication Number Publication Date
JP2021099798A true JP2021099798A (ja) 2021-07-01

Family

ID=70316175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020203999A Pending JP2021099798A (ja) 2019-12-20 2020-12-09 構造化処理方法、装置、コンピュータ機器及び媒体

Country Status (3)

Country Link
US (1) US11615242B2 (ja)
JP (1) JP2021099798A (ja)
CN (1) CN111078825A (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221563B (zh) * 2021-04-20 2024-04-16 支付宝(杭州)信息技术有限公司 一种pdf文档的标注方法、装置以及设备
CN113343637A (zh) * 2021-06-02 2021-09-03 中国工商银行股份有限公司 非结构化文本的处理方法、装置、电子设备及介质
CN113609244B (zh) * 2021-06-08 2023-09-05 中国科学院软件研究所 一种基于可控生成的结构化记录抽取方法和装置
CN113990473B (zh) * 2021-10-28 2022-09-30 上海昆亚医疗器械股份有限公司 一种医疗设备运维信息收集分析系统及其使用方法
CN114091446A (zh) * 2021-11-24 2022-02-25 北京有竹居网络技术有限公司 生成文本的方法和装置
CN114510928B (zh) * 2022-01-12 2022-09-23 中国科学院软件研究所 一种基于统一结构生成的通用信息抽取方法及系统
CN116245078B (zh) * 2022-11-30 2024-06-28 荣耀终端有限公司 一种结构化信息提取方法和电子设备
CN118248147B (zh) * 2024-05-21 2024-08-20 长春大学 基于自监督学习的视听语音识别方法、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022733A (zh) * 2014-04-18 2015-11-04 中科鼎富(北京)科技发展有限公司 Dinfo-oec文本分析挖掘方法与设备
CN107943860A (zh) * 2017-11-08 2018-04-20 北京奇艺世纪科技有限公司 模型的训练方法、文本意图的识别方法及装置
US20180341860A1 (en) * 2017-05-23 2018-11-29 Google Llc Attention-based sequence transduction neural networks
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10599924B2 (en) * 2017-07-21 2020-03-24 Adobe Inc. Semantic page segmentation of vector graphics documents
EP3474201A1 (en) * 2017-10-17 2019-04-24 Tata Consultancy Services Limited System and method for quality evaluation of collaborative text inputs
KR102035796B1 (ko) * 2018-07-26 2019-10-24 주식회사 딥핑소스 데이터를 비식별 처리하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
CN110362823B (zh) * 2019-06-21 2023-07-28 北京百度网讯科技有限公司 描述文本生成模型的训练方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022733A (zh) * 2014-04-18 2015-11-04 中科鼎富(北京)科技发展有限公司 Dinfo-oec文本分析挖掘方法与设备
US20180341860A1 (en) * 2017-05-23 2018-11-29 Google Llc Attention-based sequence transduction neural networks
CN107943860A (zh) * 2017-11-08 2018-04-20 北京奇艺世纪科技有限公司 模型的训练方法、文本意图的识别方法及装置
CN109800411A (zh) * 2018-12-03 2019-05-24 哈尔滨工业大学(深圳) 临床医疗实体及其属性抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
澤井 裕一郎 外2名: "遷移型句構造解析に基づく論文PDF中の数式XML解析", 情報処理学会 研究報告 音声言語情報処理(SLP) 2017−SLP−116 [ONLINE], JPN6021052695, 8 May 2017 (2017-05-08), JP, pages 1 - 8, ISSN: 0004998486 *

Also Published As

Publication number Publication date
CN111078825A (zh) 2020-04-28
US20210191937A1 (en) 2021-06-24
US11615242B2 (en) 2023-03-28

Similar Documents

Publication Publication Date Title
JP2021099798A (ja) 構造化処理方法、装置、コンピュータ機器及び媒体
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
US11403468B2 (en) Method and apparatus for generating vector representation of text, and related computer device
US20210397947A1 (en) Method and apparatus for generating model for representing heterogeneous graph node
US11036937B2 (en) Contraction aware parsing system for domain-specific languages
KR102694584B1 (ko) 이벤트 추출 방법, 이벤트 추출 장치 및 전자 기기
JP7178441B2 (ja) 要約生成方法、装置、プログラム、電子デバイス及び記憶媒体
JP2021111420A (ja) テキストエンティティの語義記述処理方法、装置及び機器
KR20210157342A (ko) 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체
JP2022039973A (ja) 品質を管理するための方法及び装置、電子機器、記憶媒体、並びに、コンピュータプログラム
KR102561951B1 (ko) 모델링 매개 변수의 설정 방법, 장치, 전자 기기 및 기록 매체
CN110532487B (zh) 标签的生成方法及装置
JP7286737B2 (ja) テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
CN112507101A (zh) 一种建立预训练语言模型的方法和装置
KR20210036875A (ko) 사전훈련된 시맨틱 모델에 기반하는 모델 개량 방법, 장치, 전자 기기, 저장 매체 및 프로그램
JP2022106980A (ja) クエリ文の生成方法、装置、電子機器及び記憶媒体
KR102531507B1 (ko) 정보 출력 방법, 장치, 기기 및 저장 매체
CN112329429B (zh) 文本相似度学习方法、装置、设备以及存储介质
US9940320B2 (en) Plugin tool for collecting user generated document segmentation feedback
JP7146986B2 (ja) 情報抽出方法、情報抽出装置及び電子機器
CN117015781A (zh) 从图形用户界面生成自然语言界面
CN111859981B (zh) 语言模型获取及中文语义理解方法、装置及存储介质
Helal Web Application for Finnish and English Language Learning
Anfaresi et al. Developing Multi Translation Chat Application Using Django Frameworks and M2m100 Model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220323

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221207

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20221207

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20221215

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20221220

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20230303

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20230307

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20230411