JP7312799B2 - 情報抽出方法、抽出モデル訓練方法、装置及び電子機器 - Google Patents

情報抽出方法、抽出モデル訓練方法、装置及び電子機器 Download PDF

Info

Publication number
JP7312799B2
JP7312799B2 JP2021143157A JP2021143157A JP7312799B2 JP 7312799 B2 JP7312799 B2 JP 7312799B2 JP 2021143157 A JP2021143157 A JP 2021143157A JP 2021143157 A JP2021143157 A JP 2021143157A JP 7312799 B2 JP7312799 B2 JP 7312799B2
Authority
JP
Japan
Prior art keywords
text
input text
enhanced
input
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021143157A
Other languages
English (en)
Other versions
JP2021192277A (ja
Inventor
濤 黄
寶暉 王
麗 劉
立濤 鄭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021192277A publication Critical patent/JP2021192277A/ja
Application granted granted Critical
Publication of JP7312799B2 publication Critical patent/JP7312799B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、人工知能分野のナレッジグラフの技術分野に関する。具体的には、情報抽出方法、抽出モデル訓練方法、装置及び電子機器を提供する。
コンテンツ様式強化は、ウェブページやテキストの中の特定のコンテンツに対して自動的な様式強化を行う。コンテンツ様式強化は、情報抽出ツールとして、コンテンツ要約抽出、セールスポイント抽出などの分野など、他の自然言語処理タスクにも応用可能である。
コンテンツ様式強化は、オリジナルテキストの中のより人の目を引くコア部分を認識して抽出し得、該コア部分を特定の様式で提示することによって、より一層人の目を引くものにする。
本開示は、情報抽出方法、抽出モデル訓練方法、装置及び電子機器を提供する。
本開示の第1態様によれば、
入力テキストを取得することと、
前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定することと、
前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第1強化テキストを取得することとを含む情報抽出方法を提供している。
本開示の第2態様によれば、訓練テキスト及び前記訓練テキストのタグを含む訓練サンプルを取得することと、
前記訓練サンプルに基づいて前記訓練サンプルの意味ベクトルを決定することと、
前記訓練サンプルの意味ベクトルを利用してベースモデルを訓練し、抽出モデルを得ることとを含み、
前記抽出モデルの入力が入力テキストの意味ベクトルを含み、前記抽出モデルの出力が前記入力テキストの第1強化テキストを含む、抽出モデル訓練方法を提供している。
本開示の第3態様によれば、入力テキストを取得する第1取得モジュールと、
前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定する決定モジュールと、
前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第1強化テキストを取得する第2取得モジュールとを含む、情報抽出装置を提供している。
本開示の第4態様によれば、訓練テキスト及び前記訓練テキストのタグを含む訓練サンプルを取得する取得モジュールと、
前記訓練サンプルに基づいて前記訓練サンプルの意味ベクトルを決定する決定モジュールと、
前記訓練サンプルの意味ベクトルを利用してベースモデルを訓練し、抽出モデルを得る訓練モジュールとを含み、
前記抽出モデルの入力が入力テキストの意味ベクトルを含み、前記抽出モデルの出力が前記入力テキストの第1強化テキストを含む、抽出モデル訓練装置を提供している。
本開示の第5態様によれば、少なくとも1つのプロセッサと、及び前記少なくとも1つのプロセッサと通信可能に接続されたメモリを含み、ここで、前記メモリには、前記少なくとも1つのプロセッサによって実行可能なコマンドが格納されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに第1態様のいずれか1項に記載の方法を実行させ、又は、前記少なくとも1つのプロセッサに第2態様のいずれか1項に記載の方法を実行させる電子機器を提供している。
本開示の第6態様によれば、コンピュータコマンドが格納されている非一時的コンピュータ読み取り可能な記憶媒体であって、前記コンピュータコマンドは、第1態様のいずれか1項に記載の方法を前記コンピュータに実行させ、又は、第2態様のいずれか1項に記載の方法を前記コンピュータに実行させる非一時的コンピュータ読み取り可能な記憶媒体を提供している。
このセクションに記載された内容は、本開示の実施例のキーポイントや重要な特徴を特定することを意図するものではなく、また、本開示の範囲を限定するために使用されるものでもないことを理解されたい。本開示の他の特徴は、以下の明細書から容易に理解される。
図面は、本構成をよりよく理解するためのものであり、本開示の限定にならない。
本開示の実施例に係る情報抽出方法の1つのフローチャートである。 本開示の実施例に係る情報抽出方法の別のフローチャートである。 本開示の実施例に係る抽出モデル訓練方法のフローチャートである。 本開示の実施例に係る情報抽出装置の構造図である。 本開示の実施例に係る抽出モデル訓練装置の構造図である。 本開示の実施例に係る情報抽出方法を実現するための電子機器のブロック図である。
以下、図面を参照して本開示の例示的な実施例を説明し、理解することに寄与する本開示の実施例の様々な詳細が含まれるが、それらは、単に例示的なものであると考えるべきである。よって、当業者にとって、ここに記載の実施例に対し、本開示の範囲や趣旨から逸脱することなく様々な変更や修正を行うことができることを認識すべきである。同様に、明確及び簡潔のために、以下の記載では、既知の機能や構造の記載を省略している。
図1を参照し、図1は、本開示の実施例に係る情報抽出方法のフローチャートである。図1に示すように、本実施例は、情報抽出方法を提供し、以下のステップを含む。
ステップ101において、入力テキストを取得する。
入力テキストは、文字列と理解してもよい。入力テキストは、強化テキストの抽出が必要なテキストである。入力テキストは、ウェブページやランディングページから取得するテキストであり、例えばランディングページのタイトルから取得するテキストである。又は、入力テキストは、画像認識技術でウェブページのスナップショットや画像から取得するテキストであり、例えば広告文案画像から取得するテキストである。
ステップ102において、前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定する。
入力テキストの意味ベクトルを決定する際に、ニューラルネットワークモデルが用いられ、例えば、変換器による双方向のエンコード表現BERT(Bidirectional Encoder Representations from Transformers)を用いて入力テキストの意味ベクトルを決定する。
ステップ103において、前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第1強化テキストを取得する。前記第1強化テキストは、前記抽出モデルから出力したテキストであって、テキストスコアが所定の閾値よりも大きいテキストである。
抽出モデルによる事前訓練が完了すると、テキストスコアが所定の閾値よりも大きいテキストを抽出モデルから出力することによって、第1強化テキストに含まれるテキスト数が1つに限られない。所定の閾値は、実際の状況に応じて設定されるものであり、ここでは限定されない。抽出モデルでは、意味ベクトルに基づいて分析し、入力テキストの1つ又は複数のテキストのテキストスコアを取得し、テキストスコアが所定の閾値よりも大きいテキストを出力する。
所定の閾値よりも大きいテキストが複数あれば、複数のテキストを出力し、第1強化テキストには、当該複数のテキストを含む。所定の閾値よりも大きいテキストが1つであれば、1つのテキストを出力し、第1強化テキストには、当該テキストを含む。
第1強化テキストは、入力テキストの最も重要な意味を表すテキストと理解する。又は、第1強化テキストは、入力テキストの中で、より注目される必要のあるテキストである。第1強化テキストを取得すると、入力テキストの中の第1強化テキストに対して、ハイライト、太字又は赤文字などの様式強化処理を用いることによって、第1強化テキストの表示をより目立つようにする。例えば、入力テキストが広告文案画像からのテキストであれば、第1強化テキストに基づいて、広告文案の中の第1強化テキストに様式強化処理を行うことによって、情報を際立たせ、より一層人の目を引く広告にする。
本実施例において、入力テキストを取得し、前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定し、前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第1強化テキストを取得する。前記第1強化テキストは、前記抽出モデルから出力したテキストであって、テキストスコアが所定の閾値よりも大きいテキストである。抽出モデルによって、入力テキストの意味ベクトルに基づいてテキストを抽出するが、意味ベクトルに豊富なコンテキスト意味を有するため、抽出モデルによって抽出された強化テキストがより入力テキストの文脈に一致するようにすることができる。
上記のステップ103で、前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第1強化テキストを取得した後に、前記方法は、前記入力テキストに基づいて前記第1強化テキストの境界校正を行ってターゲット強化テキストを取得することを更に含む。
抽出モデルから出力した第1強化テキストの境界の区分は、正確でない可能性がある。例えば、「高いアルコール度数の赤ワイン、果物の風味豊かで、より多くの1度ほどのエレガントさ」という入力テキストの場合、取得した第1強化テキストが「高いアルコール度数の赤」であれば、「赤」という境界が正確でなく、正確な境界が「ワイン」である。この場合、入力テキストに基づいて第1強化テキストの境界校正を行って正確な境界を決定することによってターゲット強化テキストを取得する必要がある。上記では、校正を経て取得したターゲット強化テキストが「高いアルコール度数の赤ワイン」である。
上記では、前記入力テキストに基づいて前記第1強化テキストの境界校正を行い、更に第1強化テキストの正確性を校正することによって、ターゲット強化テキストが正確な境界を有するようにし、ターゲット強化テキストがより実際の状況と符合するようにし、ターゲット強化テキストの正確性を増す。
第1強化テキストの境界校正を行う際に、まず入力テキストに対して単語分割処理を行って単語分割結果を取得し、それから、単語分割結果に基づいて、第1強化テキストの先頭と末尾の境界校正を行う。即ち、前記の前記入力テキストに基づいて前記第1強化テキストの境界校正を行ってターゲット強化テキストを決定することは、前記入力テキストに対して単語分割を行って単語分割結果を取得することと、前記単語分割結果に基づいて、前記第1強化テキストの先頭と末尾の境界校正を行って前記ターゲット強化テキストを取得することとを含む。
例えば、「高いアルコール度数の赤ワイン、果物の風味豊かで、より多くの1度ほどのエレガントさ」という入力テキストに対して単語分割を行い、取得した単語分割結果が「高い」、「アルコール度数の」、「赤ワイン」、「果物の風味」、「豊かで」、「より多くの」、「1度ほど」、「の」及び「エレガントさ」であり、第1強化テキストが「高いアルコール度数の赤」であると、入力テキストの単語分割結果で第1強化テキストの両端の文字の「高い」と「赤」を校正してターゲット強化テキストを取得し、ターゲット強化テキストの正確性を増す。
前記単語分割結果に基づいて、前記第1強化テキストの先頭と末尾の境界校正を行って前記ターゲット強化テキストを取得することは、
前記第1強化テキストの先頭又は末尾が前記単語分割結果にマッチしないのであれば、前記単語分割結果に従って前記第1強化テキストの先頭又は末尾を補完して前記ターゲット強化テキストを取得することを含む。
第1強化テキストの先頭又は末尾が前記単語分割結果にマッチしないことは、単語分割結果に第1強化テキストの先頭が含まれていないのであれば、単語分割結果に従って第1強化テキストの先頭を補完し、単語分割結果に第1強化テキストの末尾が含まれていないのであれば、単語分割結果に従って第1強化テキストの末尾を補完すると理解する。例えば、上記例では、第1強化テキストの先頭文字が「高い」であり、入力テキストの単語分割結果には、「高い」を単語分割境界とする先頭が含まれると、第1強化テキストの先頭の境界が正確であり、境界校正を行う必要がない。第1強化テキストの末尾文字が「赤」であり、入力テキストの単語分割結果には、「赤」を単語分割境界とする末尾が含まれないと、第1強化テキストの末尾の境界が正確でなく、境界校正を行う必要があり、単語分割結果の中の「赤ワイン」で境界の「赤」を校正し、第1強化テキストの中の文字「ワイン」を補完し、取得したターゲット強化テキストが「高いアルコール度数の赤ワイン」である。
上記において、前記第1強化テキストの先頭又は末尾が前記単語分割結果にマッチしないのであれば、前記単語分割結果に従って前記第1強化テキストの先頭又は末尾を補完して前記ターゲット強化テキストを取得し、ターゲット強化テキストの正確性を増す。
図2に示すように、入力テキストが「菊花決明子のお茶、本日の特別価格で9割引きにする」であり、BERTモデルによって入力テキストの意味ベクトルを取得し、それから、意味ベクトルが順に双方向長・短期記憶Bi-LSTM(Bi-directional Long Short-Term Memory)モデルと条件付き確率場CRF(Conditional Random Fields)層を経て、CRF層の出力結果が第1強化テキストであり、第1強化テキストを単語分割によって境界校正を行ってターゲット強化テキストの「特別価格で9割引き」を取得し、即ち、図2の点線枠で示す部分がターゲット強化テキストである。抽出モデルは、カスケード接続のBi-LSTMモデルとCRF層を用いてもよい。
訓練サンプルでBERTモデルを微調整することによって、よりよい単語嵌め込み表示を取得することができる。訓練サンプルでBi-LSTMモデルとCRF層を訓練するプロセスは、BERTモデルを微調整するプロセスでもある。従来の系列タギング方法に用いられた静的な単語ベクトルに比較し、抽出モデル訓練プロセスではより多くのコンテキスト情報及び位置情報が導入されており、単語のコンテキストに基づいて意味ベクトルを動的に生成し、より豊富なコンテキスト意味を有し、強化曖昧問題をより効果的に解決できる。抽出モデルから出力した第1強化テキストの境界校正を行うことで、モデルをより実際のシーンに近いものにし、抽出モデルの正確率を更に向上させ、ランディングページ分野におけるテキストの自動的様式強化をサポートする。
上記において、前記の前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定することは、
前記入力テキストの単語毎に、単語と一対一に対応する識別子へ変換して識別子系列を取得することと、
前記識別子系列を、変換器による双方向のエンコード表現モデルに入力して前記入力テキストの意味ベクトルを取得することとを含む。
具体的には、入力テキストの単語毎に変換して識別子系列に変換し、即ち入力テキストを単語単位に識別子解析を行う。異なる単語が異なる識別子に対応し、単語と識別子とは一対一に対応する。識別子は、数字又は文字であってもよいが、ここでは限定されない。入力テキストを識別子系列に変換した後に、識別子系列をBERTに入力して入力テキストの意味ベクトルを取得し、入力テキストの中の1つの単語が1つの意味ベクトルに対応する。
BERTは、変換器(transformer)を基礎構造とする言語モデルである。自己注意(self-attention)メカニズムによって、各々の単語の特徴ベクトル(即ち意味ベクトル)は、コンテキスト情報を充分に考慮する。
BERTモデルの訓練方式は、主に2種類ある。1つは、所定の割合(例えば15%)の単語をランダムにマスク(mask)することによって訓練し、マスクされた単語についてのモデルによる予測が正確であれば、訓練した意味ベクトルも相対的によいことを意味する。もう1つは、2つの文が一体に繋がるべきかを予測して訓練する。BERTは、訓練プロセスでラベルを必要とせず、コーパスがあれば訓練可能なため、大規模のデータセットで教師なし訓練が可能である。BERTモデルには、膨大なコーパスデータと演算力を必要とする。BERTモデルとして、ネットワークから訓練済みのモデルをダウンロードし、訓練サンプルで微調整して最終的なBERTモデルを取得する。訓練サンプルでBi-LSTMモデルとCRF層を訓練するプロセスにおいて、BERTモデルを微調整することによって最終的なBERTモデルを取得する。
BERTモデルには、識別子系列が入力される。同様に、抽出モデルから出力したのも識別子形式の系列であり、識別子変換を行うのは、即ち識別子を対応する単語に変換することで、第1強化テキストを得ることができる。
本実施例において、変換器による双方向のエンコード表現モデルで入力テキストの意味ベクトルを決定する。変換器による双方向のエンコード表現モデルによって、単語のコンテキストに基づいて意味ベクトルを動的に生成することができるため、取得した意味ベクトルがより豊富なコンテキスト意味を有するようにし、のちに抽出モデルによって意味ベクトルに基づいてテキスト抽出を行う際に、第1強化テキストの正確率を向上させるのに有利である。
図3を参照し、図3は、本開示の実施例に係る抽出モデル訓練方法のフローチャートである。図3に示すように、本実施例は、抽出モデル訓練方法を提供し、以下のステップを含む。
ステップ201において、訓練テキスト及び前記訓練テキストのタグを含む訓練サンプルを取得する。
訓練テキストは、ウェブページやランディングページから取得するテキストであり、例えばランディングページのタイトルから取得するテキストである。又は、訓練テキストは、画像認識技術でウェブページのスナップショットや画像から取得するテキストであり、例えば広告文案画像から取得するテキストである。強化テキストは、ハイライト、太字又は赤文字などの様式強化処理が用いられたテキストである。
訓練テキストをタギングして、訓練テキストの中の強化テキストをタギングする。例えば、IOB(I:inside(内部)、O:outside(外部)、B:begin(開始))ラベル規則で訓練テキストをタギングしてもよい。ここで、Bで強化テキストの先端を識別し、Iで強化テキストの内部及び末尾を識別し、Oで訓練テキストの他の部分(即ち非強化テキスト部分)を識別する。例えば、強化テキストの「特价1折」は、<B-COL、I-COL、I-COL、I-COL>としてタギングされ、IOBでタギングした訓練テキストは、訓練サンプルとして識別モデルを訓練する。
ステップ202において、前記訓練サンプルに基づいて前記訓練サンプルの意味ベクトルを決定する。
訓練サンプルの意味ベクトルを決定する際に、ニューラルネットワークモデルが用いられてもよく、例えば、変換器による双方向のエンコード表現BERT(Bidirectional Encoder Representations from Transformers)を用いて訓練サンプルの意味ベクトルを決定する。タギングした訓練サンプルをBERTモデルに入力して訓練サンプルの意味ベクトルを取得する。
更に、BERTモデルに入力する前に、訓練テキストの中の単語毎に変換して識別子系列に変換し、異なる単語が異なる識別子に対応し、単語と識別子とは一対一に対応する。識別子は、数字又は文字であってもよく、ここでは限定されない。訓練テキストの識別子系列と訓練テキストのタグを一緒にBERTモデルに入力して訓練テキストの意味ベクトルを取得し、訓練テキストの中の1つの単語が1つの意味ベクトルに対応する。
ステップ203において、前記訓練サンプルの意味ベクトルを利用してベースモデルを訓練し、抽出モデルを得、前記抽出モデルの入力が入力テキストの意味ベクトルを含み、前記抽出モデルの出力が前記入力テキストの第1強化テキストを含む。
訓練済みの抽出モデルによって、入力テキストの中の強化テキストを抽出して第1強化テキストを出力する。即ち、テキストスコアが所定の閾値よりも大きいテキストを抽出モデルから出力することによって、第1強化テキストに含まれるテキスト数が1つに限られない。所定の閾値は、実際の状況に応じて設定されるものであり、ここでは限定されない。抽出モデルでは、意味ベクトルに基づいて分析し、入力テキストの1つ又は複数のテキストのテキストスコアを取得し、テキストスコアが所定の閾値よりも大きいテキストを出力する。
所定の閾値よりも大きいテキストが複数あれば、複数のテキストを出力し、第1強化テキストには、当該複数のテキストを含む。所定の閾値よりも大きいテキストが1つであれば、1つのテキストを出力し、第1強化テキストには、当該テキストを含む。
第1強化テキストは、入力テキストの最も重要な意味を表すテキストと理解する。又は、第1強化テキストは、入力テキストの中で、より注目される必要のあるテキストである。第1強化テキストを取得すると、入力テキストの中の第1強化テキストに対して、ハイライト、太字又は赤文字などの様式強化処理を用いることによって、第1強化テキストの表示をより目立つようにする。例えば、入力テキストが広告文案画像からのテキストであれば、第1強化テキストに基づいて、広告文案の中の第1強化テキストに様式強化処理を行うことによって、情報を際立たせ、より一層人の目を引く広告にする。
ベースモデルは、カスケード接続のBi-LSTMモデルとCRF層を用いてもよい。訓練サンプルの意味ベクトルを順にBi-LSTMモデルとCRF層に入力し、Bi-LSTMモデルとCRF層を訓練し、状態行列と遷移行列によってパス復号を行って最適なパスを取得する。ここで、遷移行列は、あるラベルから別のラベルに遷移する確率を示す。訓練が完了すると、抽出モデルが得られる。抽出モデルは、意味ベクトルに基づいて分析し、入力テキストの1つ又は複数のテキストのテキストスコアを取得し、テキストスコアが所定の閾値よりも大きいテキストを出力し、出力したテキストが第1強化テキストとなる。例えば、「菊花決明子のお茶、本日の特別価格で9割引きにする」の場合、抽出モデルから出力した第1強化テキストは、「特別価格で9割引き」である。
本実施例において、訓練テキスト及び前記訓練テキストのタグを含む訓練サンプルを取得し、前記訓練サンプルに基づいて前記訓練サンプルの意味ベクトルを決定し、前記訓練サンプルの意味ベクトルを利用してベースモデルを訓練し、抽出モデルを得、抽出モデルの入力が入力テキストの意味ベクトルを含み、抽出モデルの出力が前記入力テキストの第1強化テキストを含む。意味ベクトルで抽出モデルを訓練し、意味ベクトルに豊富なコンテキスト意味を有するため、訓練済みの抽出モデルで抽出した強化テキストがより入力テキストの文脈に一致するようにすることができる。
上記において、前記の訓練サンプルを取得することは、サンプル画像の中のテキストに対して画像識別を行って初期サンプルを取得することと、前記初期サンプルの中のターゲットテキストであって、前記サンプル画像の中で様式強化処理が用いられたテキストであるターゲットテキストをタギングして訓練サンプルを取得することとを含む。
具体的には、初期サンプルは、大量のサンプル画像、例えば広告文案画像を識別して得られてもよく、サンプル画像の中で、ハイライト、赤文字、太字などの様式強化処理したテキストを強化テキストとして認識する。該認識プロセスがそれほど正確でない可能性があるため、人的検査の方式で更に認識結果をタギングして修正し、例えば強化テキストをタギングして修正したり、認識した文字を修正したりする。
初期サンプルは、訓練テキスト及び訓練テキストの中のターゲットテキストを含み、ターゲットテキストは、サンプル画像で様式強化処理が用いられたテキストである。前記初期サンプルの中のターゲットテキストをタギングしてターゲットテキストをタギングする。例えば、IOB(I:inside(内部)、O:outside(外部)、B:begin(開始))ラベル規則で訓練テキストをタギングする。ここで、Bで強化テキストの先端を識別し、Iで強化テキストの内部及び末尾を識別し、Oで訓練テキストの他の部分(即ち非強化テキスト部分)を識別する。例えば、強化テキストの「特別価格で9割引き」は、<B-COL、I-COL、I-COL、I-COL>としてタギングされ、IOBでタギングした訓練テキストを訓練サンプルとして識別モデルを訓練する。
本実施例において、サンプル画像の中のテキストに対して画像識別を行って初期サンプルを取得し、前記初期サンプルの中のターゲットテキストであって、前記サンプル画像の中で様式強化処理が用いられたテキストであるターゲットテキストをタギングして訓練サンプルを取得することによって、抽出モデルを訓練し、入力テキストの中の強化テキストを抽出モデルによって抽出可能にし、ランディングページ分野におけるテキストの自動的様式強化をサポートする。
訓練サンプルでBi-LSTMモデルとCRF層を微調整することによって、よりよい単語嵌め込み表示を取得することができる。従来の系列タギング方法に用いられた静的単語ベクトルに比較し、抽出モデル訓練プロセスではより多くのコンテキスト情報及び位置情報が導入されており、単語のコンテキストに基づいて意味ベクトルを動的に生成し、より豊富なコンテキスト意味を有し、強化曖昧問題をより効果的に解決できる。
図4を参照し、図4は、本開示の実施例に係る情報抽出装置の構造図である。図4に示すように、本実施例は、情報抽出装置400を提供し、入力テキストを取得する第1取得モジュール401と、前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定する決定モジュール402と、前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第1強化テキストを取得する第2取得モジュール403とを含む。
更に、情報抽出装置400は、前記入力テキストに基づいて前記第1強化テキストの境界校正を行ってターゲット強化テキストを取得する第3取得モジュールを更に含む。
更に、前記第3取得モジュールは、前記入力テキストに対して単語分割を行って単語分割結果を取得する単語分割サブモジュールと、
前記単語分割結果に基づいて、前記第1強化テキストの先頭と末尾の境界校正を行って前記ターゲット強化テキストを取得する第1取得サブモジュールとを含む。
更に、前記第1取得サブモジュールは、前記第1強化テキストの先頭又は末尾が前記単語分割結果にマッチしないのであれば、前記単語分割結果に従って前記第1強化テキストの先頭又は末尾を補完して前記ターゲット強化テキストを取得する。
更に、前記決定モジュール402は、前記入力テキストの単語毎に、単語と一対一に対応する識別子へ変換して識別子系列を取得する第2取得サブモジュールと、
前記識別子系列を、変換器による双方向のエンコード表現モデルに入力して前記入力テキストの意味ベクトルを取得する第3取得サブモジュールとを含む。
上記情報抽出装置400は、図1の方法実施例の各プロセスを実現可能であり、同じ技術効果を奏することもでき、重複を避けるために、ここでは繰り返して記載しない。
本開示の実施例に係る情報抽出装置400は、入力テキストを取得し、前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定し、前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第1強化テキストを取得する。前記第1強化テキストは、前記抽出モデルから出力したテキストであって、テキストスコアが所定の閾値よりも大きいテキストである。抽出モデルによって、入力テキストの意味ベクトルに基づいてテキストを抽出するが、意味ベクトルに豊富なコンテキスト意味を有するため、抽出モデルによって抽出された強化テキストがより入力テキストの文脈に一致するようにすることができる。
図5を参照し、図5は、本開示の実施例に係る抽出モデル訓練装置の構造図である。図5に示すように、本実施例は、抽出モデル訓練装置500を提供し、訓練テキスト及び前記訓練テキストのタグを含む訓練サンプルを取得する取得モジュール501と、前記訓練サンプルに基づいて前記訓練サンプルの意味ベクトルを決定する決定モジュール502と、前記訓練サンプルの意味ベクトルを利用してベースモデルを訓練し、抽出モデルを得る503とを含み、前記抽出モデルの入力が入力テキストの意味ベクトルを含み、前記抽出モデルの出力が前記入力テキストの第1強化テキストを含む。
更に、前記取得モジュール501は、サンプル画像の中のテキストに対して画像識別を行って初期サンプルを取得する取得サブモジュールと、前記初期サンプルの中のターゲットテキストであって、前記サンプル画像の中で様式強化処理が用いられたテキストであるターゲットテキストをタギングして訓練サンプルを取得するタギングサブモジュールとを含む。
上記抽出モデル訓練装置500は、図2の方法実施例の各プロセスを実現可能であり、同じ技術効果を奏することもでき、重複を避けるために、ここでは繰り返して記載しない。
本開示の実施例に係る抽出モデル訓練装置500は、訓練テキスト及び前記訓練テキストのタグを含む訓練サンプルを取得し、前記訓練サンプルに基づいて前記訓練サンプルの意味ベクトルを決定し、前記訓練サンプルの意味ベクトルを利用してベースモデルを訓練し、抽出モデルを得、抽出モデルの入力が入力テキストの意味ベクトルを含み、抽出モデルの出力が前記入力テキストの第1強化テキストを含む。意味ベクトルで抽出モデルを訓練し、意味ベクトルに豊富なコンテキスト意味を有するため、訓練済みの抽出モデルで抽出した強化テキストがより入力テキストの文脈に一致するようにすることができる。
本願の実施例によれば、本開示は、電子機器及び読み取り可能な記憶媒体を更に提供する。
図6は、本開示の実施例の情報抽出方法に係る電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器はまた、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示される構成要素、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/又は特許請求される本開示の実現を限定することを意図しない。
図6に示すように、該電子機器は、1又は複数のプロセッサ701、メモリ702、及び高速インターフェースと低速インターフェースを含む、各構成要素を接続するためのインターフェースを含む。各構成要素は、異なるバスで相互に接続され、共通のマザーボード上に実装されてもよいし、必要に応じて他の形態で実装されてもよい。プロセッサは、インターフェースに結合されたディスプレイデバイスなどの外部入出力装置にGUIのグラフィカル情報を表示するために、メモリ内又はメモリ上に記憶されたコマンドを含む、電子機器内で実行されるコマンドを処理する。他の実施形態では、複数のプロセッサ及び/又は複数のバスが、必要に応じて、複数のメモリ及び複数のメモリとともに使用される。また、複数の電子機器が接続され、各機器が必要な動作の一部を提供するようにしてもよい(例えば、サーバアレイ、ブレードサーバの集合、マルチプロセッサシステムなど)。図6では、1つのプロセッサ701を例に挙げている。
メモリ702は、本開示において提供される非一時的コンピュータ読み取り可能な記憶媒体である。ここで、前記メモリは、少なくとも1つのプロセッサによって実行されるコマンドが格納されている。それによって、前記少なくとも1つのプロセッサは、本開示において提供される情報抽出方法を実行する。本開示の非一時的コンピュータ読み取り可能な記憶媒体は、本開示において提供される情報抽出方法をコンピュータに実行させるためのコンピュータコマンドを記憶する。
非一時的コンピュータ読み取り可能な記憶媒体としてのメモリ702は、本開示の実施例における情報抽出方法に対応するプログラムコマンド/モジュール(例えば、図4に示す第1取得モジュール401、決定モジュール402及び第2取得モジュール403)などの非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールなどを記憶するために使用される。プロセッサ701は、メモリ702に格納された非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することにより、サーバの各種機能アプリケーションやデータ処理を実行し、即ち、上記方法の実施例における情報抽出方法を実現する。
メモリ702は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、情報抽出の電子機器の使用に応じて作成されたデータなどを記憶することができるデータ記憶領域とを含む。また、メモリ702は、高速ランダムアクセスメモリを含んでもよく、また、少なくとも1つの磁気ディスクメモリデバイス、フラッシュメモリデバイス、又は他の非一時的ソリッドステートメモリデバイスなどの非一時的メモリを含んでもよい。一部の実施例では、メモリ702は、任意選択で、プロセッサ701に対して遠隔に配置されたメモリを含む。これらの遠隔メモリは、ネットワークを介して、情報抽出の電子装置に接続される。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びこれらの組み合わせが挙げられるが、これらに限定されない。
情報抽出方法に係る電子機器は、入力装置703と出力装置704とを更に含んてもよい。プロセッサ701、メモリ702、入力装置703及び出力装置704は、バス又は他の方式で接続され、図6では、バスを介して接続される例が示される。
タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置などの入力装置703は、入力された数字又は文字情報を受信し、情報抽出の電子機器のユーザ設定及び機能制御に関するキー信号入力を生じる。出力装置704は、表示装置、補助照明装置(例えば、LED)、及び触覚フィードバック装置(例えば、振動モータ)などを含む。該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。一部の実施形態では、表示装置は、タッチスクリーンであってもよい。
上記電子機器は、抽出モデル訓練方法を行う電子機器であってもよい。
本明細書に記載するシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現され得る。これらの様々な実施形態は、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及びコマンドを受信し、該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置にデータ及びコマンドを送信することができる専用又は汎用のプログラマブルプロセッサである少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈可能な1つ又は複数のコンピュータプログラムで実現することを含む。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プラグラマブルプロセッサの機械コマンドを含み、これらのコンピュータプログラムは、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実現される。本明細書で使用される場合、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械読み取り可能な信号として機械コマンドを受信する機械読み取り可能な媒体を含む、プラグラマブルプロセッサに機械コマンド及び/又はデータを提供するための任意のコンピュータプログラム製品、デバイス、及び/又は装置(例えば、磁気ディスク、光学ディスク、メモリ、プログラム可能論理デバイス(PLD))を指す。用語「機械読み取り可能な信号」は、機械コマンド及び/又はデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
ユーザとの対話を提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有するコンピュータ上で実施され得る。他の種類の装置を使用して、ユーザとの対話を提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよい。ユーザからの入力は、音入力、音声入力、又は触覚入力を含む任意の形態で受信され得る。
本明細書に記載のシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、ユーザが本明細書に記載のシステム及び技術の実施形態と相互作用するグラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ)、又はそのようなバックエンド構成要素、ミドルウェア構成要素、又はフロントエンド構成要素の任意の組み合わせを含むコンピューティングシステムにおいて実施される。システムの構成要素は、任意の形式又は媒体(例えば、通信ネットワーク)のデジタルデータ通信によって互いに接続される。通信ネットワークとしては、例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネットなどが挙げられる。
コンピュータシステムは、クライアント及びサーバを含む。クライアント及びサーバは、一般に、互いから離れており、通常、通信ネットワークを介して対話する。それぞれのコンピュータ上で、互いにクライアント-サーバ関係を有するコンピュータプログラムが実行されることで、クライアントとサーバの関係は生成される。
本開示において、入力テキストを取得し、前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定し、前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第1強化テキストを取得する。前記第1強化テキストは、前記抽出モデルから出力したテキストであって、テキストスコアが所定の閾値よりも大きいテキストである。抽出モデルによって、入力テキストの意味ベクトルに基づいてテキストを抽出するが、意味ベクトルに豊富なコンテキスト意味を有するため、抽出モデルによって抽出された強化テキストがより入力テキストの文脈に一致するものにする。
前記入力テキストに基づいて前記第1強化テキストの境界校正を行い、更に第1強化テキストの正確性を校正することによって、ターゲット強化テキストが正確な境界を有するようにし、ターゲット強化テキストがより実際の状況に一致するようにし、ターゲット強化テキストの正確性を増す。
入力テキストの単語分割結果で第1強化テキストの両端の文字を校正してターゲット強化テキストを取得し、ターゲット強化テキストの正確性を増す。
前記第1強化テキストの先頭又は末尾が前記単語分割結果にマッチしないのであれば、前記単語分割結果に従って前記第1強化テキストの先頭又は末尾を補完して前記ターゲット強化テキストを取得し、ターゲット強化テキストの正確性を増す。
変換器による双方向のエンコード表現モデルで入力テキストの意味ベクトルを決定する。変換器による双方向のエンコード表現モデルによって、単語のコンテキストに基づいて意味ベクトルを動的に生成するため、取得した意味ベクトルがより豊富なコンテキスト意味を有するようにし、のちに抽出モデルによって意味ベクトルに基づいてテキスト抽出を行う際に、第1強化テキストの正確率を向上させるのに有利である。
訓練テキスト及び前記訓練テキストのタグを含む訓練サンプルを取得し、前記訓練サンプルに基づいて前記訓練サンプルの意味ベクトルを決定し、前記訓練サンプルの意味ベクトルを利用してベースモデルを訓練し、抽出モデルを得、抽出モデルの入力が入力テキストの意味ベクトルを含み、抽出モデルの出力が前記入力テキストの第1強化テキストを含む。意味ベクトルで抽出モデルを訓練し、意味ベクトルに豊富なコンテキスト意味を有するため、訓練済みの抽出モデルで抽出した強化テキストがより入力テキストのコンテキストに一致するようにすることができる。
サンプル画像の中のテキストに対して画像識別を行って初期サンプルを取得し、前記初期サンプルの中のターゲットテキストであって、前記サンプル画像の中で様式強化処理が用いられたテキストであるターゲットテキストをタギングして訓練サンプルを取得することによって、抽出モデルを訓練し、入力テキストの中の強化テキストを抽出モデルによって抽出可能にし、ランディングページ分野におけるテキストの自動的様式強化をサポートする。
上記に示された様々な形態のフローが、ステップの順序変更、追加、又は削除が使用されることが理解されるべきである。例えば、本願に記載された各ステップは、並列に実行されても、順次的に実行されても、異なる順序で実行されてもよく、本願に開示された技術案の所望の結果を実現できる限り、本明細書ではこれについて限定しない。
上述した具体的な実施形態は、本開示の保護範囲への制限にならない。当業者にとって、設計の要件や他の要素によって様々な修正、組み合わせ、サブ組み合わせ及び置換を行うことができることは、明らかである。本開示の趣旨や原則内に為した修正、均等置換及び改良などは、すべて本開示の保護範囲に含まれるべきである。

Claims (6)

  1. 入力テキストを取得することと、
    前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定することと、
    前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第1強化テキストを取得することと、
    前記入力テキストに基づいて前記第1強化テキストの境界校正を行ってターゲット強化テキストを取得することとを含み、
    前記境界校正は、前記第1強化テキストの先頭又は末尾の意味を校正するものであ
    前記の前記入力テキストに基づいて前記第1強化テキストの境界校正を行ってターゲット強化テキストを取得することは、
    前記入力テキストに対して単語分割を行って単語分割結果を取得することと、
    前記単語分割結果に基づいて、前記第1強化テキストの先頭と末尾の境界校正を行って前記ターゲット強化テキストを取得することとを含み、
    前記の前記単語分割結果に基づいて、前記第1強化テキストの先頭と末尾の境界校正を行って前記ターゲット強化テキストを取得することは、
    前記第1強化テキストの先頭又は末尾が前記単語分割結果にマッチしないのであれば、前記単語分割結果に従って前記第1強化テキストの先頭又は末尾を補完して前記ターゲット強化テキストを取得することを含む、
    情報抽出方法。
  2. 前記の前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定することは、
    前記入力テキストの単語毎に、単語と一対一に対応する識別子へ変換して識別子系列を取得することと、
    前記識別子系列を、変換器による双方向のエンコード表現モデルに入力して前記入力テキストの意味ベクトルを取得することとを含む、請求項1に記載の方法。
  3. 入力テキストを取得する第1取得モジュールと、
    前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定する決定モジュールと、
    前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第1強化テキストを取得する第2取得モジュールと、
    前記入力テキストに基づいて前記第1強化テキストの境界校正を行ってターゲット強化テキストを取得する第3取得モジュールと、を含み、
    前記境界校正は、前記第1強化テキストの先頭又は末尾の意味を校正するものであ
    前記第3取得モジュールは、
    前記入力テキストに対して単語分割を行って単語分割結果を取得する単語分割サブモジュールと、
    前記単語分割結果に基づいて、前記第1強化テキストの先頭と末尾の境界校正を行って前記ターゲット強化テキストを取得する第1取得サブモジュールとを含み、
    前記第1取得サブモジュールは、
    前記第1強化テキストの先頭又は末尾が前記単語分割結果にマッチしないのであれば、前記単語分割結果に従って前記第1強化テキストの先頭又は末尾を補完して前記ターゲット強化テキストを取得する、
    情報抽出装置。
  4. 前記決定モジュールは、
    前記入力テキストの単語毎に、単語と一対一に対応する識別子へ変換して識別子系列を取得する第2取得サブモジュールと、
    前記識別子系列を、変換器による双方向のエンコード表現モデルに入力して前記入力テキストの意味ベクトルを取得する第3取得サブモジュールとを含む、請求項に記載の装置。
  5. コンピュータコマンドが格納されている非一時的コンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータコマンドは、請求項1又は2に記載の方法を前記コンピュータに実行させる、コンピュータコマンドが格納されている非一時的コンピュータ読み取り可能な記憶媒体。
  6. コンピュータコマンドが含まれるコンピュータプログラムであって、
    前記コンピュータコマンドがプロセッサに実行されると、請求項1又は2に記載の方法を実行する、コンピュータプログラム。
JP2021143157A 2020-11-30 2021-09-02 情報抽出方法、抽出モデル訓練方法、装置及び電子機器 Active JP7312799B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011375463.8 2020-11-30
CN202011375463.8A CN112487826A (zh) 2020-11-30 2020-11-30 信息抽取方法、抽取模型训练方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
JP2021192277A JP2021192277A (ja) 2021-12-16
JP7312799B2 true JP7312799B2 (ja) 2023-07-21

Family

ID=74937434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021143157A Active JP7312799B2 (ja) 2020-11-30 2021-09-02 情報抽出方法、抽出モデル訓練方法、装置及び電子機器

Country Status (4)

Country Link
US (1) US20210312230A1 (ja)
EP (1) EP3879427A3 (ja)
JP (1) JP7312799B2 (ja)
CN (1) CN112487826A (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204616B (zh) * 2021-04-30 2023-11-24 北京百度网讯科技有限公司 文本抽取模型的训练与文本抽取的方法、装置
CN114338083A (zh) * 2021-12-03 2022-04-12 中汽创智科技有限公司 控制器局域网络总线异常检测方法、装置和电子设备
CN114706942B (zh) * 2022-03-16 2023-11-24 马上消费金融股份有限公司 文本转换模型训练方法、文本转换方法、装置及电子设备
CN115188014B (zh) * 2022-06-22 2023-11-14 北京百度网讯科技有限公司 落地页处理方法、模型训练方法、装置及电子设备
CN115359383B (zh) * 2022-07-07 2023-07-25 北京百度网讯科技有限公司 跨模态特征提取、检索以及模型的训练方法、装置及介质
CN114881047B (zh) * 2022-07-12 2022-10-25 杭州远传新业科技股份有限公司 一种蔬菜病虫害图片问答方法及装置
CN116484010B (zh) * 2023-03-15 2024-01-16 北京擎盾信息科技有限公司 知识图谱构建方法、装置、存储介质及电子装置
CN116910187B (zh) * 2023-09-13 2024-01-09 之江实验室 天文信息提取方法、装置、电子装置和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020140673A (ja) 2019-03-01 2020-09-03 富士ゼロックス株式会社 学習装置、情報出力装置、及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101757237B1 (ko) * 2012-11-08 2017-07-27 한국전자통신연구원 병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 방법 및 장치
CN103440252B (zh) * 2013-07-25 2016-11-16 北京师范大学 一种中文句子中并列信息提取方法及装置
CN105260360B (zh) * 2015-10-27 2018-12-18 小米科技有限责任公司 命名实体的识别方法及装置
CN108287858B (zh) * 2017-03-02 2021-08-10 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
CN109344403B (zh) * 2018-09-20 2020-11-06 中南大学 一种增强语义特征嵌入的文本表示方法
US11037010B2 (en) * 2019-01-11 2021-06-15 Microsoft Technology Licensing, Llc Compositional model for text recognition
CN111753822A (zh) * 2019-03-29 2020-10-09 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
CN110263323B (zh) * 2019-05-08 2020-08-28 清华大学 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统
CN110705211A (zh) * 2019-09-06 2020-01-17 中国平安财产保险股份有限公司 文本重点内容标记方法、装置、计算机设备及存储介质
CN111291568B (zh) * 2020-03-06 2023-03-31 西南交通大学 一种应用于医学文本的实体关系自动标注方法
CN111767732B (zh) * 2020-06-09 2024-01-26 上海交通大学 基于图注意力模型的文档内容理解方法及系统
CN111859951B (zh) * 2020-06-19 2024-03-26 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN111967268B (zh) * 2020-06-30 2024-03-19 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
CN111767405B (zh) * 2020-07-30 2023-12-08 腾讯科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020140673A (ja) 2019-03-01 2020-09-03 富士ゼロックス株式会社 学習装置、情報出力装置、及びプログラム

Also Published As

Publication number Publication date
CN112487826A (zh) 2021-03-12
EP3879427A3 (en) 2021-12-29
US20210312230A1 (en) 2021-10-07
EP3879427A2 (en) 2021-09-15
JP2021192277A (ja) 2021-12-16

Similar Documents

Publication Publication Date Title
JP7312799B2 (ja) 情報抽出方法、抽出モデル訓練方法、装置及び電子機器
KR102577514B1 (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
JP7366984B2 (ja) テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体
CN111709248B (zh) 文本生成模型的训练方法、装置及电子设备
CN113807098B (zh) 模型训练方法和装置、电子设备以及存储介质
CN111078865B (zh) 文本标题生成方法和装置
US11907671B2 (en) Role labeling method, electronic device and storage medium
JP2021111416A (ja) コアエンティティのタグ付け方法、コアエンティティのタグ付け装置、電子機器、記憶媒体及びコンピュータプログラム
CN112633017B (zh) 翻译模型训练、翻译处理方法、装置、设备和存储介质
KR20190019661A (ko) 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법
CN112000792A (zh) 自然灾害事件的抽取方法、装置、设备以及存储介质
CN112528001B (zh) 一种信息查询方法、装置及电子设备
JP2023012522A (ja) クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置
CN109359308B (zh) 机器翻译方法、装置及可读存储介质
CN113553414A (zh) 智能对话方法、装置、电子设备和存储介质
CN111753532B (zh) 西文文本的纠错方法和装置、电子设备及存储介质
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN110717316B (zh) 字幕对话流的主题分割方法及装置
US20230153550A1 (en) Machine Translation Method and Apparatus, Device and Storage Medium
CN114218940B (zh) 文本信息处理、模型训练方法、装置、设备及存储介质
CN112100335B (zh) 问题生成方法、模型训练方法、装置、设备和存储介质
CN115577680B (zh) 古籍文本断句方法与装置、古籍文本断句模型训练方法
CN111274392B (zh) 一种多频道联合处理方法和装置
JP2023008980A (ja) 要約を生成するテキスト処理方法、装置、デバイス、及び記憶媒体
CN117151126A (zh) 文本翻译方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230607

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230710

R150 Certificate of patent or registration of utility model

Ref document number: 7312799

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150