JP7312799B2

JP7312799B2 - 情報抽出方法、抽出モデル訓練方法、装置及び電子機器

Info

Publication number: JP7312799B2
Application number: JP2021143157A
Authority: JP
Inventors: 濤黄; 寶暉王; 麗劉; 立濤鄭
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-30
Filing date: 2021-09-02
Publication date: 2023-07-21
Anticipated expiration: 2041-09-02
Also published as: CN112487826A; EP3879427A3; US20210312230A1; EP3879427A2; JP2021192277A

Description

本開示は、人工知能分野のナレッジグラフの技術分野に関する。具体的には、情報抽出方法、抽出モデル訓練方法、装置及び電子機器を提供する。

コンテンツ様式強化は、ウェブページやテキストの中の特定のコンテンツに対して自動的な様式強化を行う。コンテンツ様式強化は、情報抽出ツールとして、コンテンツ要約抽出、セールスポイント抽出などの分野など、他の自然言語処理タスクにも応用可能である。

コンテンツ様式強化は、オリジナルテキストの中のより人の目を引くコア部分を認識して抽出し得、該コア部分を特定の様式で提示することによって、より一層人の目を引くものにする。

本開示は、情報抽出方法、抽出モデル訓練方法、装置及び電子機器を提供する。

本開示の第１態様によれば、
入力テキストを取得することと、
前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定することと、
前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第１強化テキストを取得することとを含む情報抽出方法を提供している。

本開示の第２態様によれば、訓練テキスト及び前記訓練テキストのタグを含む訓練サンプルを取得することと、
前記訓練サンプルに基づいて前記訓練サンプルの意味ベクトルを決定することと、
前記訓練サンプルの意味ベクトルを利用してベースモデルを訓練し、抽出モデルを得ることとを含み、
前記抽出モデルの入力が入力テキストの意味ベクトルを含み、前記抽出モデルの出力が前記入力テキストの第１強化テキストを含む、抽出モデル訓練方法を提供している。

本開示の第３態様によれば、入力テキストを取得する第１取得モジュールと、
前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定する決定モジュールと、
前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第１強化テキストを取得する第２取得モジュールとを含む、情報抽出装置を提供している。

本開示の第４態様によれば、訓練テキスト及び前記訓練テキストのタグを含む訓練サンプルを取得する取得モジュールと、
前記訓練サンプルに基づいて前記訓練サンプルの意味ベクトルを決定する決定モジュールと、
前記訓練サンプルの意味ベクトルを利用してベースモデルを訓練し、抽出モデルを得る訓練モジュールとを含み、
前記抽出モデルの入力が入力テキストの意味ベクトルを含み、前記抽出モデルの出力が前記入力テキストの第１強化テキストを含む、抽出モデル訓練装置を提供している。

本開示の第５態様によれば、少なくとも１つのプロセッサと、及び前記少なくとも１つのプロセッサと通信可能に接続されたメモリを含み、ここで、前記メモリには、前記少なくとも１つのプロセッサによって実行可能なコマンドが格納されており、前記コマンドが前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに第１態様のいずれか１項に記載の方法を実行させ、又は、前記少なくとも１つのプロセッサに第２態様のいずれか１項に記載の方法を実行させる電子機器を提供している。

本開示の第６態様によれば、コンピュータコマンドが格納されている非一時的コンピュータ読み取り可能な記憶媒体であって、前記コンピュータコマンドは、第１態様のいずれか１項に記載の方法を前記コンピュータに実行させ、又は、第２態様のいずれか１項に記載の方法を前記コンピュータに実行させる非一時的コンピュータ読み取り可能な記憶媒体を提供している。

このセクションに記載された内容は、本開示の実施例のキーポイントや重要な特徴を特定することを意図するものではなく、また、本開示の範囲を限定するために使用されるものでもないことを理解されたい。本開示の他の特徴は、以下の明細書から容易に理解される。

図面は、本構成をよりよく理解するためのものであり、本開示の限定にならない。

本開示の実施例に係る情報抽出方法の１つのフローチャートである。本開示の実施例に係る情報抽出方法の別のフローチャートである。本開示の実施例に係る抽出モデル訓練方法のフローチャートである。本開示の実施例に係る情報抽出装置の構造図である。本開示の実施例に係る抽出モデル訓練装置の構造図である。本開示の実施例に係る情報抽出方法を実現するための電子機器のブロック図である。

以下、図面を参照して本開示の例示的な実施例を説明し、理解することに寄与する本開示の実施例の様々な詳細が含まれるが、それらは、単に例示的なものであると考えるべきである。よって、当業者にとって、ここに記載の実施例に対し、本開示の範囲や趣旨から逸脱することなく様々な変更や修正を行うことができることを認識すべきである。同様に、明確及び簡潔のために、以下の記載では、既知の機能や構造の記載を省略している。

図１を参照し、図１は、本開示の実施例に係る情報抽出方法のフローチャートである。図１に示すように、本実施例は、情報抽出方法を提供し、以下のステップを含む。

ステップ１０１において、入力テキストを取得する。

入力テキストは、文字列と理解してもよい。入力テキストは、強化テキストの抽出が必要なテキストである。入力テキストは、ウェブページやランディングページから取得するテキストであり、例えばランディングページのタイトルから取得するテキストである。又は、入力テキストは、画像認識技術でウェブページのスナップショットや画像から取得するテキストであり、例えば広告文案画像から取得するテキストである。

ステップ１０２において、前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定する。

入力テキストの意味ベクトルを決定する際に、ニューラルネットワークモデルが用いられ、例えば、変換器による双方向のエンコード表現ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）を用いて入力テキストの意味ベクトルを決定する。

ステップ１０３において、前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第１強化テキストを取得する。前記第１強化テキストは、前記抽出モデルから出力したテキストであって、テキストスコアが所定の閾値よりも大きいテキストである。

抽出モデルによる事前訓練が完了すると、テキストスコアが所定の閾値よりも大きいテキストを抽出モデルから出力することによって、第１強化テキストに含まれるテキスト数が１つに限られない。所定の閾値は、実際の状況に応じて設定されるものであり、ここでは限定されない。抽出モデルでは、意味ベクトルに基づいて分析し、入力テキストの１つ又は複数のテキストのテキストスコアを取得し、テキストスコアが所定の閾値よりも大きいテキストを出力する。

所定の閾値よりも大きいテキストが複数あれば、複数のテキストを出力し、第１強化テキストには、当該複数のテキストを含む。所定の閾値よりも大きいテキストが１つであれば、１つのテキストを出力し、第１強化テキストには、当該テキストを含む。

第１強化テキストは、入力テキストの最も重要な意味を表すテキストと理解する。又は、第１強化テキストは、入力テキストの中で、より注目される必要のあるテキストである。第１強化テキストを取得すると、入力テキストの中の第１強化テキストに対して、ハイライト、太字又は赤文字などの様式強化処理を用いることによって、第１強化テキストの表示をより目立つようにする。例えば、入力テキストが広告文案画像からのテキストであれば、第１強化テキストに基づいて、広告文案の中の第１強化テキストに様式強化処理を行うことによって、情報を際立たせ、より一層人の目を引く広告にする。

本実施例において、入力テキストを取得し、前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定し、前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第１強化テキストを取得する。前記第１強化テキストは、前記抽出モデルから出力したテキストであって、テキストスコアが所定の閾値よりも大きいテキストである。抽出モデルによって、入力テキストの意味ベクトルに基づいてテキストを抽出するが、意味ベクトルに豊富なコンテキスト意味を有するため、抽出モデルによって抽出された強化テキストがより入力テキストの文脈に一致するようにすることができる。

上記のステップ１０３で、前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第１強化テキストを取得した後に、前記方法は、前記入力テキストに基づいて前記第１強化テキストの境界校正を行ってターゲット強化テキストを取得することを更に含む。

抽出モデルから出力した第１強化テキストの境界の区分は、正確でない可能性がある。例えば、「高いアルコール度数の赤ワイン、果物の風味豊かで、より多くの１度ほどのエレガントさ」という入力テキストの場合、取得した第１強化テキストが「高いアルコール度数の赤」であれば、「赤」という境界が正確でなく、正確な境界が「ワイン」である。この場合、入力テキストに基づいて第１強化テキストの境界校正を行って正確な境界を決定することによってターゲット強化テキストを取得する必要がある。上記では、校正を経て取得したターゲット強化テキストが「高いアルコール度数の赤ワイン」である。

上記では、前記入力テキストに基づいて前記第１強化テキストの境界校正を行い、更に第１強化テキストの正確性を校正することによって、ターゲット強化テキストが正確な境界を有するようにし、ターゲット強化テキストがより実際の状況と符合するようにし、ターゲット強化テキストの正確性を増す。

第１強化テキストの境界校正を行う際に、まず入力テキストに対して単語分割処理を行って単語分割結果を取得し、それから、単語分割結果に基づいて、第１強化テキストの先頭と末尾の境界校正を行う。即ち、前記の前記入力テキストに基づいて前記第１強化テキストの境界校正を行ってターゲット強化テキストを決定することは、前記入力テキストに対して単語分割を行って単語分割結果を取得することと、前記単語分割結果に基づいて、前記第１強化テキストの先頭と末尾の境界校正を行って前記ターゲット強化テキストを取得することとを含む。

例えば、「高いアルコール度数の赤ワイン、果物の風味豊かで、より多くの１度ほどのエレガントさ」という入力テキストに対して単語分割を行い、取得した単語分割結果が「高い」、「アルコール度数の」、「赤ワイン」、「果物の風味」、「豊かで」、「より多くの」、「１度ほど」、「の」及び「エレガントさ」であり、第１強化テキストが「高いアルコール度数の赤」であると、入力テキストの単語分割結果で第１強化テキストの両端の文字の「高い」と「赤」を校正してターゲット強化テキストを取得し、ターゲット強化テキストの正確性を増す。

前記単語分割結果に基づいて、前記第１強化テキストの先頭と末尾の境界校正を行って前記ターゲット強化テキストを取得することは、
前記第１強化テキストの先頭又は末尾が前記単語分割結果にマッチしないのであれば、前記単語分割結果に従って前記第１強化テキストの先頭又は末尾を補完して前記ターゲット強化テキストを取得することを含む。

第１強化テキストの先頭又は末尾が前記単語分割結果にマッチしないことは、単語分割結果に第１強化テキストの先頭が含まれていないのであれば、単語分割結果に従って第１強化テキストの先頭を補完し、単語分割結果に第１強化テキストの末尾が含まれていないのであれば、単語分割結果に従って第１強化テキストの末尾を補完すると理解する。例えば、上記例では、第１強化テキストの先頭文字が「高い」であり、入力テキストの単語分割結果には、「高い」を単語分割境界とする先頭が含まれると、第１強化テキストの先頭の境界が正確であり、境界校正を行う必要がない。第１強化テキストの末尾文字が「赤」であり、入力テキストの単語分割結果には、「赤」を単語分割境界とする末尾が含まれないと、第１強化テキストの末尾の境界が正確でなく、境界校正を行う必要があり、単語分割結果の中の「赤ワイン」で境界の「赤」を校正し、第１強化テキストの中の文字「ワイン」を補完し、取得したターゲット強化テキストが「高いアルコール度数の赤ワイン」である。

上記において、前記第１強化テキストの先頭又は末尾が前記単語分割結果にマッチしないのであれば、前記単語分割結果に従って前記第１強化テキストの先頭又は末尾を補完して前記ターゲット強化テキストを取得し、ターゲット強化テキストの正確性を増す。

図２に示すように、入力テキストが「菊花決明子のお茶、本日の特別価格で９割引きにする」であり、ＢＥＲＴモデルによって入力テキストの意味ベクトルを取得し、それから、意味ベクトルが順に双方向長・短期記憶Ｂｉ－ＬＳＴＭ（Ｂｉ－ｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）モデルと条件付き確率場ＣＲＦ（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ）層を経て、ＣＲＦ層の出力結果が第１強化テキストであり、第１強化テキストを単語分割によって境界校正を行ってターゲット強化テキストの「特別価格で９割引き」を取得し、即ち、図２の点線枠で示す部分がターゲット強化テキストである。抽出モデルは、カスケード接続のＢｉ－ＬＳＴＭモデルとＣＲＦ層を用いてもよい。

訓練サンプルでＢＥＲＴモデルを微調整することによって、よりよい単語嵌め込み表示を取得することができる。訓練サンプルでＢｉ－ＬＳＴＭモデルとＣＲＦ層を訓練するプロセスは、ＢＥＲＴモデルを微調整するプロセスでもある。従来の系列タギング方法に用いられた静的な単語ベクトルに比較し、抽出モデル訓練プロセスではより多くのコンテキスト情報及び位置情報が導入されており、単語のコンテキストに基づいて意味ベクトルを動的に生成し、より豊富なコンテキスト意味を有し、強化曖昧問題をより効果的に解決できる。抽出モデルから出力した第１強化テキストの境界校正を行うことで、モデルをより実際のシーンに近いものにし、抽出モデルの正確率を更に向上させ、ランディングページ分野におけるテキストの自動的様式強化をサポートする。

上記において、前記の前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定することは、
前記入力テキストの単語毎に、単語と一対一に対応する識別子へ変換して識別子系列を取得することと、
前記識別子系列を、変換器による双方向のエンコード表現モデルに入力して前記入力テキストの意味ベクトルを取得することとを含む。

具体的には、入力テキストの単語毎に変換して識別子系列に変換し、即ち入力テキストを単語単位に識別子解析を行う。異なる単語が異なる識別子に対応し、単語と識別子とは一対一に対応する。識別子は、数字又は文字であってもよいが、ここでは限定されない。入力テキストを識別子系列に変換した後に、識別子系列をＢＥＲＴに入力して入力テキストの意味ベクトルを取得し、入力テキストの中の１つの単語が１つの意味ベクトルに対応する。

ＢＥＲＴは、変換器（ｔｒａｎｓｆｏｒｍｅｒ）を基礎構造とする言語モデルである。自己注意（ｓｅｌｆ－ａｔｔｅｎｔｉｏｎ）メカニズムによって、各々の単語の特徴ベクトル（即ち意味ベクトル）は、コンテキスト情報を充分に考慮する。

ＢＥＲＴモデルの訓練方式は、主に２種類ある。１つは、所定の割合（例えば１５％）の単語をランダムにマスク（ｍａｓｋ）することによって訓練し、マスクされた単語についてのモデルによる予測が正確であれば、訓練した意味ベクトルも相対的によいことを意味する。もう１つは、２つの文が一体に繋がるべきかを予測して訓練する。ＢＥＲＴは、訓練プロセスでラベルを必要とせず、コーパスがあれば訓練可能なため、大規模のデータセットで教師なし訓練が可能である。ＢＥＲＴモデルには、膨大なコーパスデータと演算力を必要とする。ＢＥＲＴモデルとして、ネットワークから訓練済みのモデルをダウンロードし、訓練サンプルで微調整して最終的なＢＥＲＴモデルを取得する。訓練サンプルでＢｉ－ＬＳＴＭモデルとＣＲＦ層を訓練するプロセスにおいて、ＢＥＲＴモデルを微調整することによって最終的なＢＥＲＴモデルを取得する。

ＢＥＲＴモデルには、識別子系列が入力される。同様に、抽出モデルから出力したのも識別子形式の系列であり、識別子変換を行うのは、即ち識別子を対応する単語に変換することで、第１強化テキストを得ることができる。

本実施例において、変換器による双方向のエンコード表現モデルで入力テキストの意味ベクトルを決定する。変換器による双方向のエンコード表現モデルによって、単語のコンテキストに基づいて意味ベクトルを動的に生成することができるため、取得した意味ベクトルがより豊富なコンテキスト意味を有するようにし、のちに抽出モデルによって意味ベクトルに基づいてテキスト抽出を行う際に、第１強化テキストの正確率を向上させるのに有利である。

図３を参照し、図３は、本開示の実施例に係る抽出モデル訓練方法のフローチャートである。図３に示すように、本実施例は、抽出モデル訓練方法を提供し、以下のステップを含む。

ステップ２０１において、訓練テキスト及び前記訓練テキストのタグを含む訓練サンプルを取得する。

訓練テキストは、ウェブページやランディングページから取得するテキストであり、例えばランディングページのタイトルから取得するテキストである。又は、訓練テキストは、画像認識技術でウェブページのスナップショットや画像から取得するテキストであり、例えば広告文案画像から取得するテキストである。強化テキストは、ハイライト、太字又は赤文字などの様式強化処理が用いられたテキストである。

訓練テキストをタギングして、訓練テキストの中の強化テキストをタギングする。例えば、ＩＯＢ（Ｉ：ｉｎｓｉｄｅ（内部）、Ｏ：ｏｕｔｓｉｄｅ（外部）、Ｂ：ｂｅｇｉｎ（開始））ラベル規則で訓練テキストをタギングしてもよい。ここで、Ｂで強化テキストの先端を識別し、Ｉで強化テキストの内部及び末尾を識別し、Ｏで訓練テキストの他の部分（即ち非強化テキスト部分）を識別する。例えば、強化テキストの「特价１折」は、＜Ｂ－ＣＯＬ、Ｉ－ＣＯＬ、Ｉ－ＣＯＬ、Ｉ－ＣＯＬ＞としてタギングされ、ＩＯＢでタギングした訓練テキストは、訓練サンプルとして識別モデルを訓練する。

ステップ２０２において、前記訓練サンプルに基づいて前記訓練サンプルの意味ベクトルを決定する。

訓練サンプルの意味ベクトルを決定する際に、ニューラルネットワークモデルが用いられてもよく、例えば、変換器による双方向のエンコード表現ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）を用いて訓練サンプルの意味ベクトルを決定する。タギングした訓練サンプルをＢＥＲＴモデルに入力して訓練サンプルの意味ベクトルを取得する。

更に、ＢＥＲＴモデルに入力する前に、訓練テキストの中の単語毎に変換して識別子系列に変換し、異なる単語が異なる識別子に対応し、単語と識別子とは一対一に対応する。識別子は、数字又は文字であってもよく、ここでは限定されない。訓練テキストの識別子系列と訓練テキストのタグを一緒にＢＥＲＴモデルに入力して訓練テキストの意味ベクトルを取得し、訓練テキストの中の１つの単語が１つの意味ベクトルに対応する。

ステップ２０３において、前記訓練サンプルの意味ベクトルを利用してベースモデルを訓練し、抽出モデルを得、前記抽出モデルの入力が入力テキストの意味ベクトルを含み、前記抽出モデルの出力が前記入力テキストの第１強化テキストを含む。

訓練済みの抽出モデルによって、入力テキストの中の強化テキストを抽出して第１強化テキストを出力する。即ち、テキストスコアが所定の閾値よりも大きいテキストを抽出モデルから出力することによって、第１強化テキストに含まれるテキスト数が１つに限られない。所定の閾値は、実際の状況に応じて設定されるものであり、ここでは限定されない。抽出モデルでは、意味ベクトルに基づいて分析し、入力テキストの１つ又は複数のテキストのテキストスコアを取得し、テキストスコアが所定の閾値よりも大きいテキストを出力する。

ベースモデルは、カスケード接続のＢｉ－ＬＳＴＭモデルとＣＲＦ層を用いてもよい。訓練サンプルの意味ベクトルを順にＢｉ－ＬＳＴＭモデルとＣＲＦ層に入力し、Ｂｉ－ＬＳＴＭモデルとＣＲＦ層を訓練し、状態行列と遷移行列によってパス復号を行って最適なパスを取得する。ここで、遷移行列は、あるラベルから別のラベルに遷移する確率を示す。訓練が完了すると、抽出モデルが得られる。抽出モデルは、意味ベクトルに基づいて分析し、入力テキストの１つ又は複数のテキストのテキストスコアを取得し、テキストスコアが所定の閾値よりも大きいテキストを出力し、出力したテキストが第１強化テキストとなる。例えば、「菊花決明子のお茶、本日の特別価格で９割引きにする」の場合、抽出モデルから出力した第１強化テキストは、「特別価格で９割引き」である。

本実施例において、訓練テキスト及び前記訓練テキストのタグを含む訓練サンプルを取得し、前記訓練サンプルに基づいて前記訓練サンプルの意味ベクトルを決定し、前記訓練サンプルの意味ベクトルを利用してベースモデルを訓練し、抽出モデルを得、抽出モデルの入力が入力テキストの意味ベクトルを含み、抽出モデルの出力が前記入力テキストの第１強化テキストを含む。意味ベクトルで抽出モデルを訓練し、意味ベクトルに豊富なコンテキスト意味を有するため、訓練済みの抽出モデルで抽出した強化テキストがより入力テキストの文脈に一致するようにすることができる。

上記において、前記の訓練サンプルを取得することは、サンプル画像の中のテキストに対して画像識別を行って初期サンプルを取得することと、前記初期サンプルの中のターゲットテキストであって、前記サンプル画像の中で様式強化処理が用いられたテキストであるターゲットテキストをタギングして訓練サンプルを取得することとを含む。

具体的には、初期サンプルは、大量のサンプル画像、例えば広告文案画像を識別して得られてもよく、サンプル画像の中で、ハイライト、赤文字、太字などの様式強化処理したテキストを強化テキストとして認識する。該認識プロセスがそれほど正確でない可能性があるため、人的検査の方式で更に認識結果をタギングして修正し、例えば強化テキストをタギングして修正したり、認識した文字を修正したりする。

初期サンプルは、訓練テキスト及び訓練テキストの中のターゲットテキストを含み、ターゲットテキストは、サンプル画像で様式強化処理が用いられたテキストである。前記初期サンプルの中のターゲットテキストをタギングしてターゲットテキストをタギングする。例えば、ＩＯＢ（Ｉ：ｉｎｓｉｄｅ（内部）、Ｏ：ｏｕｔｓｉｄｅ（外部）、Ｂ：ｂｅｇｉｎ（開始））ラベル規則で訓練テキストをタギングする。ここで、Ｂで強化テキストの先端を識別し、Ｉで強化テキストの内部及び末尾を識別し、Ｏで訓練テキストの他の部分（即ち非強化テキスト部分）を識別する。例えば、強化テキストの「特別価格で９割引き」は、＜Ｂ－ＣＯＬ、Ｉ－ＣＯＬ、Ｉ－ＣＯＬ、Ｉ－ＣＯＬ＞としてタギングされ、ＩＯＢでタギングした訓練テキストを訓練サンプルとして識別モデルを訓練する。

本実施例において、サンプル画像の中のテキストに対して画像識別を行って初期サンプルを取得し、前記初期サンプルの中のターゲットテキストであって、前記サンプル画像の中で様式強化処理が用いられたテキストであるターゲットテキストをタギングして訓練サンプルを取得することによって、抽出モデルを訓練し、入力テキストの中の強化テキストを抽出モデルによって抽出可能にし、ランディングページ分野におけるテキストの自動的様式強化をサポートする。

訓練サンプルでＢｉ－ＬＳＴＭモデルとＣＲＦ層を微調整することによって、よりよい単語嵌め込み表示を取得することができる。従来の系列タギング方法に用いられた静的単語ベクトルに比較し、抽出モデル訓練プロセスではより多くのコンテキスト情報及び位置情報が導入されており、単語のコンテキストに基づいて意味ベクトルを動的に生成し、より豊富なコンテキスト意味を有し、強化曖昧問題をより効果的に解決できる。

図４を参照し、図４は、本開示の実施例に係る情報抽出装置の構造図である。図４に示すように、本実施例は、情報抽出装置４００を提供し、入力テキストを取得する第１取得モジュール４０１と、前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定する決定モジュール４０２と、前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第１強化テキストを取得する第２取得モジュール４０３とを含む。

更に、情報抽出装置４００は、前記入力テキストに基づいて前記第１強化テキストの境界校正を行ってターゲット強化テキストを取得する第３取得モジュールを更に含む。

更に、前記第３取得モジュールは、前記入力テキストに対して単語分割を行って単語分割結果を取得する単語分割サブモジュールと、
前記単語分割結果に基づいて、前記第１強化テキストの先頭と末尾の境界校正を行って前記ターゲット強化テキストを取得する第１取得サブモジュールとを含む。

更に、前記第１取得サブモジュールは、前記第１強化テキストの先頭又は末尾が前記単語分割結果にマッチしないのであれば、前記単語分割結果に従って前記第１強化テキストの先頭又は末尾を補完して前記ターゲット強化テキストを取得する。

更に、前記決定モジュール４０２は、前記入力テキストの単語毎に、単語と一対一に対応する識別子へ変換して識別子系列を取得する第２取得サブモジュールと、
前記識別子系列を、変換器による双方向のエンコード表現モデルに入力して前記入力テキストの意味ベクトルを取得する第３取得サブモジュールとを含む。

上記情報抽出装置４００は、図１の方法実施例の各プロセスを実現可能であり、同じ技術効果を奏することもでき、重複を避けるために、ここでは繰り返して記載しない。

本開示の実施例に係る情報抽出装置４００は、入力テキストを取得し、前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定し、前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第１強化テキストを取得する。前記第１強化テキストは、前記抽出モデルから出力したテキストであって、テキストスコアが所定の閾値よりも大きいテキストである。抽出モデルによって、入力テキストの意味ベクトルに基づいてテキストを抽出するが、意味ベクトルに豊富なコンテキスト意味を有するため、抽出モデルによって抽出された強化テキストがより入力テキストの文脈に一致するようにすることができる。

図５を参照し、図５は、本開示の実施例に係る抽出モデル訓練装置の構造図である。図５に示すように、本実施例は、抽出モデル訓練装置５００を提供し、訓練テキスト及び前記訓練テキストのタグを含む訓練サンプルを取得する取得モジュール５０１と、前記訓練サンプルに基づいて前記訓練サンプルの意味ベクトルを決定する決定モジュール５０２と、前記訓練サンプルの意味ベクトルを利用してベースモデルを訓練し、抽出モデルを得る５０３とを含み、前記抽出モデルの入力が入力テキストの意味ベクトルを含み、前記抽出モデルの出力が前記入力テキストの第１強化テキストを含む。

更に、前記取得モジュール５０１は、サンプル画像の中のテキストに対して画像識別を行って初期サンプルを取得する取得サブモジュールと、前記初期サンプルの中のターゲットテキストであって、前記サンプル画像の中で様式強化処理が用いられたテキストであるターゲットテキストをタギングして訓練サンプルを取得するタギングサブモジュールとを含む。

上記抽出モデル訓練装置５００は、図２の方法実施例の各プロセスを実現可能であり、同じ技術効果を奏することもでき、重複を避けるために、ここでは繰り返して記載しない。

本開示の実施例に係る抽出モデル訓練装置５００は、訓練テキスト及び前記訓練テキストのタグを含む訓練サンプルを取得し、前記訓練サンプルに基づいて前記訓練サンプルの意味ベクトルを決定し、前記訓練サンプルの意味ベクトルを利用してベースモデルを訓練し、抽出モデルを得、抽出モデルの入力が入力テキストの意味ベクトルを含み、抽出モデルの出力が前記入力テキストの第１強化テキストを含む。意味ベクトルで抽出モデルを訓練し、意味ベクトルに豊富なコンテキスト意味を有するため、訓練済みの抽出モデルで抽出した強化テキストがより入力テキストの文脈に一致するようにすることができる。

本願の実施例によれば、本開示は、電子機器及び読み取り可能な記憶媒体を更に提供する。

図６は、本開示の実施例の情報抽出方法に係る電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器はまた、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示される構成要素、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び／又は特許請求される本開示の実現を限定することを意図しない。

図６に示すように、該電子機器は、１又は複数のプロセッサ７０１、メモリ７０２、及び高速インターフェースと低速インターフェースを含む、各構成要素を接続するためのインターフェースを含む。各構成要素は、異なるバスで相互に接続され、共通のマザーボード上に実装されてもよいし、必要に応じて他の形態で実装されてもよい。プロセッサは、インターフェースに結合されたディスプレイデバイスなどの外部入出力装置にＧＵＩのグラフィカル情報を表示するために、メモリ内又はメモリ上に記憶されたコマンドを含む、電子機器内で実行されるコマンドを処理する。他の実施形態では、複数のプロセッサ及び／又は複数のバスが、必要に応じて、複数のメモリ及び複数のメモリとともに使用される。また、複数の電子機器が接続され、各機器が必要な動作の一部を提供するようにしてもよい（例えば、サーバアレイ、ブレードサーバの集合、マルチプロセッサシステムなど）。図６では、１つのプロセッサ７０１を例に挙げている。

メモリ７０２は、本開示において提供される非一時的コンピュータ読み取り可能な記憶媒体である。ここで、前記メモリは、少なくとも１つのプロセッサによって実行されるコマンドが格納されている。それによって、前記少なくとも１つのプロセッサは、本開示において提供される情報抽出方法を実行する。本開示の非一時的コンピュータ読み取り可能な記憶媒体は、本開示において提供される情報抽出方法をコンピュータに実行させるためのコンピュータコマンドを記憶する。

非一時的コンピュータ読み取り可能な記憶媒体としてのメモリ７０２は、本開示の実施例における情報抽出方法に対応するプログラムコマンド／モジュール（例えば、図４に示す第１取得モジュール４０１、決定モジュール４０２及び第２取得モジュール４０３）などの非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールなどを記憶するために使用される。プロセッサ７０１は、メモリ７０２に格納された非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することにより、サーバの各種機能アプリケーションやデータ処理を実行し、即ち、上記方法の実施例における情報抽出方法を実現する。

メモリ７０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、情報抽出の電子機器の使用に応じて作成されたデータなどを記憶することができるデータ記憶領域とを含む。また、メモリ７０２は、高速ランダムアクセスメモリを含んでもよく、また、少なくとも１つの磁気ディスクメモリデバイス、フラッシュメモリデバイス、又は他の非一時的ソリッドステートメモリデバイスなどの非一時的メモリを含んでもよい。一部の実施例では、メモリ７０２は、任意選択で、プロセッサ７０１に対して遠隔に配置されたメモリを含む。これらの遠隔メモリは、ネットワークを介して、情報抽出の電子装置に接続される。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びこれらの組み合わせが挙げられるが、これらに限定されない。

情報抽出方法に係る電子機器は、入力装置７０３と出力装置７０４とを更に含んてもよい。プロセッサ７０１、メモリ７０２、入力装置７０３及び出力装置７０４は、バス又は他の方式で接続され、図６では、バスを介して接続される例が示される。

タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置などの入力装置７０３は、入力された数字又は文字情報を受信し、情報抽出の電子機器のユーザ設定及び機能制御に関するキー信号入力を生じる。出力装置７０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、及び触覚フィードバック装置（例えば、振動モータ）などを含む。該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。一部の実施形態では、表示装置は、タッチスクリーンであってもよい。

上記電子機器は、抽出モデル訓練方法を行う電子機器であってもよい。

本明細書に記載するシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現され得る。これらの様々な実施形態は、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及びコマンドを受信し、該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置にデータ及びコマンドを送信することができる専用又は汎用のプログラマブルプロセッサである少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈可能な１つ又は複数のコンピュータプログラムで実現することを含む。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プラグラマブルプロセッサの機械コマンドを含み、これらのコンピュータプログラムは、高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語で実現される。本明細書で使用される場合、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械読み取り可能な信号として機械コマンドを受信する機械読み取り可能な媒体を含む、プラグラマブルプロセッサに機械コマンド及び／又はデータを提供するための任意のコンピュータプログラム製品、デバイス、及び／又は装置（例えば、磁気ディスク、光学ディスク、メモリ、プログラム可能論理デバイス（ＰＬＤ））を指す。用語「機械読み取り可能な信号」は、機械コマンド及び／又はデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

ユーザとの対話を提供するために、本明細書に記載されたシステム及び技術は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有するコンピュータ上で実施され得る。他の種類の装置を使用して、ユーザとの対話を提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよい。ユーザからの入力は、音入力、音声入力、又は触覚入力を含む任意の形態で受信され得る。

本明細書に記載のシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとして）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、ユーザが本明細書に記載のシステム及び技術の実施形態と相互作用するグラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ）、又はそのようなバックエンド構成要素、ミドルウェア構成要素、又はフロントエンド構成要素の任意の組み合わせを含むコンピューティングシステムにおいて実施される。システムの構成要素は、任意の形式又は媒体（例えば、通信ネットワーク）のデジタルデータ通信によって互いに接続される。通信ネットワークとしては、例えば、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネットなどが挙げられる。

コンピュータシステムは、クライアント及びサーバを含む。クライアント及びサーバは、一般に、互いから離れており、通常、通信ネットワークを介して対話する。それぞれのコンピュータ上で、互いにクライアント－サーバ関係を有するコンピュータプログラムが実行されることで、クライアントとサーバの関係は生成される。

本開示において、入力テキストを取得し、前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定し、前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第１強化テキストを取得する。前記第１強化テキストは、前記抽出モデルから出力したテキストであって、テキストスコアが所定の閾値よりも大きいテキストである。抽出モデルによって、入力テキストの意味ベクトルに基づいてテキストを抽出するが、意味ベクトルに豊富なコンテキスト意味を有するため、抽出モデルによって抽出された強化テキストがより入力テキストの文脈に一致するものにする。

前記入力テキストに基づいて前記第１強化テキストの境界校正を行い、更に第１強化テキストの正確性を校正することによって、ターゲット強化テキストが正確な境界を有するようにし、ターゲット強化テキストがより実際の状況に一致するようにし、ターゲット強化テキストの正確性を増す。

入力テキストの単語分割結果で第１強化テキストの両端の文字を校正してターゲット強化テキストを取得し、ターゲット強化テキストの正確性を増す。

前記第１強化テキストの先頭又は末尾が前記単語分割結果にマッチしないのであれば、前記単語分割結果に従って前記第１強化テキストの先頭又は末尾を補完して前記ターゲット強化テキストを取得し、ターゲット強化テキストの正確性を増す。

変換器による双方向のエンコード表現モデルで入力テキストの意味ベクトルを決定する。変換器による双方向のエンコード表現モデルによって、単語のコンテキストに基づいて意味ベクトルを動的に生成するため、取得した意味ベクトルがより豊富なコンテキスト意味を有するようにし、のちに抽出モデルによって意味ベクトルに基づいてテキスト抽出を行う際に、第１強化テキストの正確率を向上させるのに有利である。

訓練テキスト及び前記訓練テキストのタグを含む訓練サンプルを取得し、前記訓練サンプルに基づいて前記訓練サンプルの意味ベクトルを決定し、前記訓練サンプルの意味ベクトルを利用してベースモデルを訓練し、抽出モデルを得、抽出モデルの入力が入力テキストの意味ベクトルを含み、抽出モデルの出力が前記入力テキストの第１強化テキストを含む。意味ベクトルで抽出モデルを訓練し、意味ベクトルに豊富なコンテキスト意味を有するため、訓練済みの抽出モデルで抽出した強化テキストがより入力テキストのコンテキストに一致するようにすることができる。

サンプル画像の中のテキストに対して画像識別を行って初期サンプルを取得し、前記初期サンプルの中のターゲットテキストであって、前記サンプル画像の中で様式強化処理が用いられたテキストであるターゲットテキストをタギングして訓練サンプルを取得することによって、抽出モデルを訓練し、入力テキストの中の強化テキストを抽出モデルによって抽出可能にし、ランディングページ分野におけるテキストの自動的様式強化をサポートする。

上記に示された様々な形態のフローが、ステップの順序変更、追加、又は削除が使用されることが理解されるべきである。例えば、本願に記載された各ステップは、並列に実行されても、順次的に実行されても、異なる順序で実行されてもよく、本願に開示された技術案の所望の結果を実現できる限り、本明細書ではこれについて限定しない。

上述した具体的な実施形態は、本開示の保護範囲への制限にならない。当業者にとって、設計の要件や他の要素によって様々な修正、組み合わせ、サブ組み合わせ及び置換を行うことができることは、明らかである。本開示の趣旨や原則内に為した修正、均等置換及び改良などは、すべて本開示の保護範囲に含まれるべきである。

Claims

入力テキストを取得することと、
前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定することと、
前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第１強化テキストを取得することと、
前記入力テキストに基づいて前記第１強化テキストの境界校正を行ってターゲット強化テキストを取得することとを含み、
前記境界校正は、前記第１強化テキストの先頭又は末尾の意味を校正するものであり、
前記の前記入力テキストに基づいて前記第１強化テキストの境界校正を行ってターゲット強化テキストを取得することは、
前記入力テキストに対して単語分割を行って単語分割結果を取得することと、
前記単語分割結果に基づいて、前記第１強化テキストの先頭と末尾の境界校正を行って前記ターゲット強化テキストを取得することとを含み、
前記の前記単語分割結果に基づいて、前記第１強化テキストの先頭と末尾の境界校正を行って前記ターゲット強化テキストを取得することは、
前記第１強化テキストの先頭又は末尾が前記単語分割結果にマッチしないのであれば、前記単語分割結果に従って前記第１強化テキストの先頭又は末尾を補完して前記ターゲット強化テキストを取得することを含む、
情報抽出方法。
前記の前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定することは、
前記入力テキストの単語毎に、単語と一対一に対応する識別子へ変換して識別子系列を取得することと、
前記識別子系列を、変換器による双方向のエンコード表現モデルに入力して前記入力テキストの意味ベクトルを取得することとを含む、請求項１に記載の方法。
入力テキストを取得する第１取得モジュールと、
前記入力テキストに基づいて前記入力テキストの意味ベクトルを決定する決定モジュールと、
前記入力テキストの意味ベクトルを予め取得済みの抽出モデルに入力して前記入力テキストの第１強化テキストを取得する第２取得モジュールと、
前記入力テキストに基づいて前記第１強化テキストの境界校正を行ってターゲット強化テキストを取得する第３取得モジュールと、を含み、
前記境界校正は、前記第１強化テキストの先頭又は末尾の意味を校正するものであり、
前記第３取得モジュールは、
前記入力テキストに対して単語分割を行って単語分割結果を取得する単語分割サブモジュールと、
前記単語分割結果に基づいて、前記第１強化テキストの先頭と末尾の境界校正を行って前記ターゲット強化テキストを取得する第１取得サブモジュールとを含み、
前記第１取得サブモジュールは、
前記第１強化テキストの先頭又は末尾が前記単語分割結果にマッチしないのであれば、前記単語分割結果に従って前記第１強化テキストの先頭又は末尾を補完して前記ターゲット強化テキストを取得する、
情報抽出装置。
前記決定モジュールは、
前記入力テキストの単語毎に、単語と一対一に対応する識別子へ変換して識別子系列を取得する第２取得サブモジュールと、
前記識別子系列を、変換器による双方向のエンコード表現モデルに入力して前記入力テキストの意味ベクトルを取得する第３取得サブモジュールとを含む、請求項３に記載の装置。
コンピュータコマンドが格納されている非一時的コンピュータ読み取り可能な記憶媒体であって、
前記コンピュータコマンドは、請求項１又は２に記載の方法を前記コンピュータに実行させる、コンピュータコマンドが格納されている非一時的コンピュータ読み取り可能な記憶媒体。
コンピュータコマンドが含まれるコンピュータプログラムであって、
前記コンピュータコマンドがプロセッサに実行されると、請求項１又は２に記載の方法を実行する、コンピュータプログラム。