JP6653334B2

JP6653334B2 - 情報抽出方法及び装置

Info

Publication number: JP6653334B2
Application number: JP2017552070A
Authority: JP
Inventors: チン，ショウコー; ハン，ヨウ; チェン，チーヤン; マー，フェイチャオ; シュイ，ペイチー
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2015-12-30
Filing date: 2016-06-17
Publication date: 2020-02-26
Anticipated expiration: 2036-06-17
Also published as: EP3267332A4; US10679051B2; JP2018513480A; EP3267332A1; CN105677764B; WO2017113645A1; KR20170123331A; CN105677764A; US20180322341A1

Description

本願は２０１５年１２月３０日に提出した、出願番号が２０１５１１０２２９３７．Ｘである中国特許出願に基づく優先権を主張し、当該出願の全文を引用により本願に組み込む。

本願はコンピュータ技術分野に関し、具体的に情報技術分野に関し、特に情報抽出方法及び装置に関する。

インターネット技術が盛んに発展されていることに伴って、インターネットにおける情報リソースはますます豊かになる。一方、検索エンジンは、ネットワークユーザのためにインターネットにおいて求められた情報を迅速に検索することに大きな利便性をもたらす。さらに、インターネットにおけるリソースの増加、及び検索エンジンにおけるユーザ行動データの蓄積に伴って、検索エンジンは自動問答を提供する能力を有するようになる。従来の検索エンジンに比べて、自動問答システムの検索結果は、順序付けられたウェブページリストではなく、関連ウェブページから直接抽出された解答になり、ユーザは、時間をかけてウェブページから解答を探す必要がなくなるため、ユーザの時間を節約する。

自動問答システムインデックスのコンテンツがウェブページ全体のコンテンツではなく、ウェブページコンテンツにおける問答を含む１つの段落又は複数の文であり、且つインターネットにおいて既存の問題及び問題の解答のリソースが少なく、従って、ウェブページコンテンツから問題及び問題の解答の情報を抽出する必要がある。

本願は、上記背景技術に言及された技術問題を解決するために、改良された情報抽出方法及び装置を提供することを特徴とする。

本発明の第一態様によれば、情報抽出方法を提供し、この方法は、
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも１つの本文ノードを認識するステップと、
前記少なくとも１つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップと、を含む。

いくつかの実施例において、前記の前記少なくとも１つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成するステップには、
前記少なくとも１つの本文ノードに含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するステップと、
前記少なくとも１つの本文ノードに含まれるコンテンツにおける、前記タイトル以外のコンテンツに対して段落分割を行い、各段落ブロックを生成するステップと、を含む。

いくつかの実施例において、前記の予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも１つの本文ノードを認識するステップには、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをＨＴＭＬ仕様に合致させるステップと、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成するステップと、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定するステップと、を含む

いくつかの実施例において、前記の前記少なくとも１つのテキスト本文に含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するステップには、
前記少なくとも１つのテキスト本文に含まれるコンテンツの前記ウェブページコンテンツでの位置に基づいて、前記少なくとも１つのテキスト本文から少なくとも１つの候補タイトルノードを選択するステップと、
各候補タイトルノード内のテキストと、前記ウェブページファイルのタイトルタグに対応するテキストとの編集距離、及び各候補タイトルノード内のテキストと、アンカータグに対応するテキストとの編集距離を計算するステップと、
各候補タイトルノード内のタグ情報及び計算された編集距離に基づいて各候補タイトルノードを順序付けるステップと、
順序付けの結果に基づいて前記少なくとも１つの候補タイトルノードから１つのテキストタイトルノードを決定し、前記テキストタイトルノード内のテキストをウェブページコンテンツのタイトルとして決定するステップと、を含む。

いくつかの実施例において、前記の前記少なくとも１つのテキスト本文に含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップには、
各テキスト本文における少なくとも１つのブロック要素を認識するステップと、
ブロック要素がサブブロック要素を含む場合、サブブロック要素と改行タグでテキスト本文に含まれるテキストに対して段落分割を行い、少なくとも１つの段落ブロックを取得して、ブロック要素がサブブロック要素を含まない場合、改行タグでテキスト本文に含まれるテキストに対して段落分割を行い、少なくとも１つの段落ブロックを取得するステップと、
ブロック要素及びサブブロック要素に関連するタグの属性に基づいて各段落ブロックに対してタグ属性を設定するステップと、を含む。

いくつかの実施例において、前記の各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップには、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割するステップと、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識するステップと、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するステップと、を含む。

いくつかの実施例において、前記の分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップには、
認識された短タイトル構造に基づいてウェブページファイルに対応するウェブページ本文コンテンツに対してロジックブロック分割を行うステップと、
正規表現で各短タイトル構造が問題であるか否かを判断し、問題である場合、当該短タイトルを候補問題として設定するステップと、
候補問題の前記ウェブページコンテンツでの位置及びウェブページコンテンツのロジックブロック分割結果に基づいて候補問題に対応する候補解答を抽出するステップと、
候補問題と候補解答との間の間隔行数、候補解答における数字番号が連続的であるか否か、解答のエントリー数、解答のうち問題として判定されたエントリー数のうちの少なくとも１つに基づいて、問題と解答を含む情報を抽出するステップと、を含む。

本発明の第二態様によれば、情報抽出装置を提供し、この装置は、
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも１つのテキスト本文を認識するように配置される解析ユニットと、
前記少なくとも１つのテキスト本文に含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するように配置される分割ユニットと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するように配置される分類ユニットと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するように配置される抽出ユニットと、を備える。

いくつかの実施例において、前記分割ユニットは、
前記少なくとも１つのテキスト本文に含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するように配置される認識サブユニットと、
前記少なくとも１つのテキスト本文に含まれるコンテンツにおける、前記タイトル以外のコンテンツに対して段落分割を行い、各段落ブロックを生成するように配置される分割サブユニットと、を備える。

いくつかの実施例において、前記解析ユニットは、更に、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをＨＴＭＬ仕様に合致させ、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成し、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいてテキスト本文を決定するように配置される。

いくつかの実施例において、前記認識サブユニットは、更に、
前記少なくとも１つのテキスト本文に含まれるコンテンツの前記ウェブページコンテンツでの位置に基づいて、前記少なくとも１つのテキスト本文から少なくとも１つの候補タイトルノードを選択し、
各候補タイトルノード内のテキストと、前記ウェブページファイルのタイトルタグに対応するテキストとの編集距離、及び各候補タイトルノード内のテキストと、アンカータグに対応するテキストとの編集距離を計算し、
各候補タイトルノード内のタグ情報及び計算された編集距離に基づいて各候補タイトルノードを順序付け、
順序付けの結果に基づいて前記少なくとも１つの候補タイトルノードから１つのテキストタイトルノードを決定し、前記テキストタイトルノード内のテキストをウェブページコンテンツのタイトルとして決定するように配置される。

いくつかの実施例において、前記分割ユニットは、更に、
各テキスト本文における少なくとも１つのブロック要素を認識し、
ブロック要素がサブブロック要素を含む場合、サブブロック要素と改行タグでテキスト本文に含まれるテキストに対して段落分割を行い、少なくとも１つの段落ブロックを取得して、ブロック要素がサブブロック要素を含まない場合、改行タグでテキスト本文に含まれるテキストに対して段落分割を行い、少なくとも１つの段落ブロックを取得して、
ブロック要素及びサブブロック要素に関連するタグの属性に基づいて各段落ブロックに対してタグ属性を設定するように配置される。

いくつかの実施例において、前記分類ユニットは、更に、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割し、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識し、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するように配置される。

いくつかの実施例において、前記抽出ユニットは、更に、
認識された短タイトル構造に基づいてウェブページファイルに対応するウェブページ本文コンテンツに対してロジックブロック分割を行い、
正規表現で各短タイトル構造が問題であるか否かを判断し、問題である場合、当該短タイトルを候補問題として設定し、
候補問題の前記ウェブページコンテンツでの位置及びウェブページコンテンツのロジックブロック分割結果に基づいて候補問題に対応する候補解答を抽出し、
候補問題と候補解答との間の間隔行数、候補解答における数字番号が連続的であるか否か、解答のエントリー数、解答のうち問題として判定されたエントリー数のうちの少なくとも１つに基づいて、問題と解答を含む情報を抽出するように配置される。

本願に係る情報抽出方法及び装置は、ウェブページファイルをタグツリー構造として解析し、次に本文ノードに含まれるコンテンツに対して段落分割を行って段落ブロックを生成し、最後に段落ブロックに含まれるテキストコンテンツを分類し、分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出することで、情報を自動的且つ正確に抽出することを実現する。

以下の図面を参照しながら行った非限定的な実施例についての詳細な説明に基づいて、本願の他の特徴、目的や利点はより明瞭になる。

本願を適用できる例示的なシステムアーキテクチャー図である。本願に係る情報抽出方法の一実施例のフローチャートである。本願に係る情報抽出方法の一応用シナリオの模式図である。本願に係る情報抽出方法の別の実施例のフローチャートである。本願に係る情報抽出装置の一実施例の構造模式図である。本願の実施例を実現するための端末装置又はサーバに適用されるコンピュータシステムの構造模式図である。

以下、図面及び実施例を参照しながら本発明をより詳細に説明する。ここで説明する具体的な実施例は、かかる発明を説明するものに過ぎず、当該発明を限定するものではないと理解すべきである。ただし、説明の便宜上、図面に発明に関連する部分のみが示されている。

なお、衝突しない場合、本願の実施例及び実施例の特徴を相互に組み合せてもよい。以下、図面及び実施例を参照しながら本願を詳細に説明する。

図１は本願の情報抽出方法又は情報抽出装置を適用できる実施例の例示的なシステムアーキテクチャー１００を示す。

図１に示されるように、システムアーキテクチャー１００は、端末装置１０１、１０２、１０３、ネットワーク１０４及びサーバ１０５を備えてもい。ネットワーク１０４は端末装置１０１、１０２、１０３とサーバ１０５の間に通信リンクを提供する媒体に用いられている。ネットワーク１０４は様々な接続タイプ、例えば有線、無線通信リンク又は光ファイバーケーブル等を含んでもよい。

ユーザは端末装置１０１、１０２、１０３を用いてネットワーク１０４を介してサーバ１０５とインタラクションして、それによりメッセージなどを送受信することができる。端末装置１０１、１０２、１０３に、様々な通信クライアントアプリケーション、例えばウェブブラウザアプリケーション、検索アプリケーション、ニュースアプリケーション、インスタントメッセージングツール、メールボックスクライアント、ソーシャルソフトウェアプラットフォームソフトウェア等がインストールされてもよい。

端末装置１０１、１０２、１０３は情報処理をサポートする各種の電子機器であってもよく、スマートフォン、タブレットＰＣ、ｅ−Ｂｏｏｋリーダー、ＭＰ３プレーヤー (Moving Picture Experts Group Audio Layer III、ムービング・ピクチャー・エクスパーツ・グループオーディオレイヤーIII)、ＭＰ４プレーヤー(Moving Picture Experts Group Audio LayerＩＶ、ムービング・ピクチャー・エクスパーツ・グループオーディオレイヤーＩＶ)、ラップトップ型コンピュータ及びデスクトップコンピュータなどを含むが、それらに限定されるものではない。

サーバ１０５は各種のサービスを提供するサーバ、例えば端末装置１０１、１０２、１０３にウェブページファイル情報を提供するバックグラウンドウェブページサーバであってもよい。バックグラウンドウェブページサーバはインターネットにおけるウェブページファイルを端末装置に送信することができ、インターネットにおけるウェブページファイルに情報分析、抽出などの処理を行った後に処理結果を端末装置に送信することもできる。

なお、本願の実施例で提供される情報抽出方法はサーバ１０５により単独で実行されてもよく、端末装置１０１、１０２、１０３とサーバ１０５とにより共同で実行されてもよく、端末装置１０１、１０２、１０３により単独で実行されてもよい。相応に、情報抽出装置は端末１０１、１０２、１０３に設置されてもよく、情報抽出装置はサーバ１０５に設置されてもよく、情報抽出装置の一部のユニットはサーバ１０５に設置されてもよい。

なお、図１における端末装置、ネットワーク及びサーバの数は例示的なものに過ぎない。必要に応じて、端末装置、ネットワーク及びサーバの数が任意であってもよい。

続いて、本願に係る情報抽出方法の一実施例のフロー２００を示す図２を参照する。前記情報抽出方法は、ステップ２００〜ステップ２０４を含む。

ステップ２０１：予め取得されたウェブページファイルをタグツリー構造として解析し、タグツリーのノードからウェブページファイルにおけるウェブページ本文が所在する少なくとも１つの本文ノードを認識する。

本実施例では、情報抽出方法を実行する電子機器は、予めローカル又は遠隔でウェブページファイルを取得することができ、例えば、上記電子機器がウェブページサーバである場合、ローカルでウェブページファイルを取得し、上記電子機器が移動端末である場合、有線接続方式又は無線接続方式によってウェブページサーバからウェブページファイルを取得することができる。上記ウェブページファイルは、各種のフォーマットのファイル、例えば、ｈｔｍｌフォーマット、ｘｈｔｍｌフォーマット、ｄｈｔｍｌフォーマット、ａｓｐフォーマット、ｐｈｐフォーマット、ｊｓｐフォーマット、ｓｈｔｍｌフォーマット、ｎｓｐフォーマット、ｘｍｌフォーマットであってもよい。上記電子機器は、上記ウェブページファイルをタグツリー構造として解析し、つまり、ウェブページファイルにおけるタグをネスト関係に従って整理して１つのツリー構造にすることができる。上記電子機器はさらに、解析して取得されたタグツリーに対してフィルタリング処理を行い、ウェブページ本文に無関係の情報が所在するノードを除去することができ、ウェブページ本文に無関係の情報がナビゲーション情報、著作権声明情報、広告情報等を含んでもよいが、これらに制限されない。上記電子機器はさらに、各ノードに含まれるコンテンツに基づいて、更にタグツリーのノードからウェブページ本文が所在する少なくとも１つの本文ノードを認識することができ、例えば、含まれるテキストの字数が設定数量より大きく、含まれるリンク文字が設定数量より少ないノードを本文ノードとして認識することができる。なお、上記無線接続方式は、３Ｇ／４Ｇ接続、ＷｉＦｉ接続、ブルートゥース(登録商標)接続、ＷｉＭＡＸ接続、Ｚｉｇｂｅｅ接続、ＵＷＢ（ｕｌｔｒａｗｉｄｅｂａｎｄ）接続、ほかの既知又は将来開発する無線接続方式を含んでもよいが、これらに制限されない。

本実施例のいくつかの選択可能な実施形態では、上記電子機器は、まず予め取得したウェブページファイルに対して標準化処理を行い、上記ウェブページファイルをＨＴＭＬ仕様に一致させることができ、例えば、＜ｔｉｔｌｅ＞タグがあるが対応する＜／ｔｉｔｌｅ＞タグがないウェブページファイルに＜／ｔｉｔｌｅ＞を補足し、また、例えば＜ｌｉ＞、＜ｈｒ＞等の終了タグを補足し、次に、標準化したウェブページファイルに対してドキュメントオブジェクトモデル（ＤＯＭ、ＤｏｃｕｍｅｎｔＯｂｊｅｃｔＭｏｄｅｌ）ツリー解析を行い、タグツリーを生成し、最後に、生成したタグツリーの各ノードに順にアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定する。例えば、タグツリーの各ノードに含まれるテキスト字数、リンクテキスト字数、段落数、含まれるリーフノードにおけるテキスト数の分散等の統計量をそれぞれ統計し、統計量と予め設定された閾値とを比較し、条件を満たすノードを本文ノードとして選択し、例えばテキスト字数が多く、リンクテキスト字数が少なく、段落数が多く、含まれるリーフノードにおけるテキスト数の分散が大きいノードを本文ノードとして認識する。

ステップ２０２：少なくとも１つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定する。

本実施例では、上記電子機器は、上記少なくとも１つの本文ノードに含まれるテキストコンテンツに対して段落分割を行い、それぞれの段落ブロックを生成し、各段落ブロックが上記ウェブページファイルに対応するウェブページ本文の段落に対応し、同時に、各段落ブロックに関連するタグの属性（例えばカラー、太字、リンク、数字リスト、非数字リスト等）に基づいて各段落ブロックに対してタグ属性を設定する。

本実施例のいくつかの選択可能な実施形態では、上記電子機器は、まず少なくとも１つの本文ノードに含まれるコンテンツからウェブページファイルのウェブページコンテンツのタイトルを認識することができ、例えば、上記電子機器は、各ノードに含まれるコンテンツの上記ウェブページファイルに対応するウェブページ本文での位置、各ノードに含まれるテキストコンテンツに基づいて、ステップ２０１で取得された少なくとも１つの本文ノードから上記ウェブページファイルのウェブページコンテンツのタイトルを認識し、次に上記少なくとも１つの本文ノードに含まれるコンテンツにおける、当該タイトル以外のコンテンツに対して段落分割を行い、各段落ブロックを生成することができる。

オプションとして、上記電子機器は、まず少なくとも１つの本文ノードに含まれるコンテンツの上記ウェブページコンテンツでの位置に基づいて、上記少なくとも１つの本文ノードから少なくとも１つの候補タイトルノードを選択することができ、例えば、上記電子機器は、ウェブページコンテンツの上端の設定範囲内のテキストコンテンツに対応するノードを見つけて、見つけられたノードを候補タイトルノードとし、次に、各候補タイトルノード内のテキストと、上記ウェブページファイルのタイトル（ｔｉｔｌｅ）タグに対応するテキストとの編集距離、及び各候補タイトルノード内のテキストと、アンカー（ａｎｃｈｏｒ）タグに対応するテキストとの編集距離を計算し、次に、各候補タイトルノード内のタグ情報及び計算した編集距離に基づいて各候補タイトルノードを順序付け、例えば編集距離の昇順で順序付け、最後に、順序付けの結果に基づいて上記少なくとも１つの候補タイトルノードから１つのテキストタイトルノードを決定し、上記テキストタイトルノード内のテキストをウェブページコンテンツのタイトルとして決定することができる。オプションとして、上記電子機器はさらに、順序付けの結果と各候補タイトルノードに関連するタグに基づいて、上記少なくとも１つの候補タイトルノードから１つのテキストタイトルノードを決定することができ、例えば、タイトルタグ（Ｈタグ）、太字（ｓｔｒｏｎｇ）タグ等の、タイトルによく現れるタグを含み、且つ編集距離が設定値より小さい候補タイトルノードをテキストタイトルノードとして選択する。

本実施例のいくつかの選択可能な実施形態では、上記電子機器は、まず各本文ノードにおける少なくとも１つのブロック要素を認識し、ブロック要素がサブブロック要素を含む場合、サブブロック要素と改行（ｂｒ）タグで本文ノードに含まれるテキストに対して段落分割を行い、少なくとも１つの段落ブロックを取得して、ブロック要素がサブブロック要素を含まない場合、改行タグで本文ノードに含まれるテキストに対して段落分割を行い、少なくとも１つの段落ブロックを取得して、次に、ブロック要素及びサブブロック要素に関連するタグの属性（例えばカラー、太字、リンク、数字リスト、非数字リスト等）に基づいて各段落ブロックに対してタグ属性を設定する。

ステップ２０３：各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類する。

本実施例では、上記電子機器は、ステップ２０２で取得された各段落ブロック及び各段落ブロックのタグ属性に基づいて、各段落ブロックに含まれるテキストコンテンツを分類することができる。例えば、タグ属性が同じである段落ブロックを同じクラスに分割することができる。

ステップ２０４：分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出する。

本実施例では、上記電子機器は、従来の自然言語処理分析技術を用いてステップ２０３で取得された分類結果に対して分析処理を行い、各段落ブロックに含まれるテキストコンテンツから問題を抽出することができ、例えば、各段落ブロックに含まれるテキストコンテンツに対して単語分割、セマンティクス分析等の一連の処理を行い、各段落ブロックに含まれるテキストコンテンツから疑問文を抽出する。上記電子機器は、問題を抽出した後に、抽出した問題の上記ウェブページコンテンツでの位置及び各段落ブロックに含まれるテキストコンテンツに基づいて当該問題に対応する解答を抽出することができる。

続いて、本実施例に係る情報抽出方法の応用シナリオの一模式図である図３を参照する。図３の応用シナリオでは、ユーザは、Ｗｅｂブラウジングを行う端末装置で、解答を検索しようとする問題「前立腺炎の症状」を入力し、図３に示すように、ウェブページサーバは、予め記憶された複数の問題と解答の情報から、問題「前立腺炎の症状」に関連する問題と解答を検索し、検索した問題と解答をユーザにプッシュする。予め記憶された複数の問題と解答の情報は、まず、予め取得したウェブページファイルをタグツリー構造として解析し、タグツリーから当該ウェブページファイルのウェブページ本文が所在する少なくとも１つの本文ノードを認識し、次に、テキストコンテンツに対して段落分割を行って段落ブロックを取得して、各段落ブロックのタグ属性を設定し、最後に、各段落ブロックに含まれるテキストコンテンツを分類し、分類結果に基づいてテキストコンテンツからウェブページコンテンツに含まれる問題と解答を抽出する方式によって、取得される。

本願の上記実施例に係る方法は、ウェブページファイルをタグツリーとして解析し、認識した本文ノードに含まれるコンテンツに対して段落分割を行い、タグ属性を設定し、最終的にウェブページ本文における問題と解答を含む情報を抽出することで、情報を自動的且つ正確に抽出することを実現する。

更に、情報抽出方法の別の実施例のフロー４００を示す図４を参照する。当該情報抽出方法のフロー４００は、ステップ４０１〜ステップ４０６を含む。

ステップ４０１：予め取得したウェブページファイルをタグツリー構造として解析し、タグツリーのノードからウェブページファイルにおけるウェブページ本文が所在する少なくとも１つの本文ノードを認識する。

本実施例では、情報抽出方法を実行する電子機器は、予めローカル又は遠隔でウェブページファイルを取得し、上記ウェブページファイルをタグツリー構造として解析することができる。次に、上記電子機器はさらに、各ノードに含まれるコンテンツに基づいて更にタグツリーのノードからウェブページ本文が所在する少なくとも１つの本文ノードを認識することができる。

ステップ４０２：少なくとも１つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定する。

本実施例では、上記電子機器は、上記少なくとも１つの本文ノードに含まれるテキストコンテンツに対して段落分割を行い、各段落ブロックを生成し、同時に、各段落ブロックに関連するタグの属性に基づいて各段落ブロックに対してタグ属性を設定することができる。

ステップ４０３：タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割する。

本実施例では、上記電子機器は、ステップ４０２で取得された段落ブロックのうちのタグ属性が同じである段落ブロックを同じ段落ブロック集合に分割することができる。

ステップ４０４：各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識する。

本実施例では、上記電子機器は、各段落ブロック集合内の各段落ブロックの間の平均行間隔、最大連続行間隔数、平均文字数、最大文字数等を計算して閾値を設定し、所定の行間隔を有し、文字長さが均一であり且つあまり大きくない段落ブロックを短タイトル構造として認識することができる。

ステップ４０５：各段落ブロック集合における非短タイトル構造の段落ブロックを含まれるテキストに基づいて分類する。

本実施例では、上記電子機器は、各段落ブロック集合における非短タイトル構造の段落ブロックを含まれるテキストに基づいて分類することができ、例えば、段落ブロック内のテキストに数字が含んでいるか否か、段落の開始部分に強調構文があるか否かに基づいて、段落ブロックを、番号キー値型段落、キー値型段落、番号型段落及び普通型段落等のカテゴリーに分割し、番号キー値型段落とは、番号を有し且つキー値型構造である段落（例えば１、中心思想を抽出する方法：現象を通して本質をつかむこと）を意味する。

ステップ４０６：分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出する。

本実施例では、上記電子機器は、ステップ４０５で取得された分類結果に基づいて、各段落ブロックに含まれるテキストコンテンツから問題と当該問題に対応する解答を抽出することができる。

本実施例のいくつかの選択可能な実施形態では、上記電子機器は、まずステップ４０４で認識した短タイトル構造に基づいてウェブページファイルに対応するウェブページ本文コンテンツに対してロジックブロック分割を行うことができ、例えば、認識した短タイトル構造、及び、当該短タイトル構造と次の短タイトル構造との間の一部を１つのロジックブロックに分割し、次に、正規表現で各短タイトル構造が問題であるか否かを判断し、問題である場合、当該短タイトルを候補問題として設定し、次に、候補問題の上記ウェブページコンテンツでの位置及びウェブページコンテンツのロジックブロック分割結果に基づいて、候補問題に対応する候補解答を抽出し、最後に、候補問題と候補解答との間の間隔行数、候補解答における数字番号が連続的であるか否か、解答のエントリー数、解答のうち問題として判定されたエントリー数のうちの少なくとも１つに基づいて、問題と解答を含む情報を抽出することができ、例えば候補問題と最初の候補解答のコンテンツとの間の行数が所定の閾値を超える場合、当該候補問題と候補解答を除去し、候補解答が数字番号を有する複数のコンテンツを含み且つ番号が連続的ではない場合、当該候補解答及び当該候補解答に対応する候補問題を除去し、候補解答に含まれる解答のエントリー数が設定閾値より小さい場合、当該候補解答及び当該候補解答に対応する候補問題を除去し、候補解答に含まれた解答エントリーのうちの複数が問題と判断された（例えば複数が疑問句と判断される）場合、当該候補解答及び当該候補解答に対応する候補問題を除去し、ここで、解答のエントリー数は、解答に含まれるエントリーの数量を意味し、各エントリーは、１つの段落を意味してもよく、１つの文を意味してもよい。

図４からわかるように、図２に対応する実施例に比べて、本実施例における情報抽出方法のフロー４００は、各段落ブロックに対する分割及び各サブブロック集合における短タイトル構造の認識を強調する。そのため、本実施例で説明された形態は、ウェブページコンテンツにおける問題をより正確に認識して、情報を正確に抽出することができる。

更に図５に示すように、上記各図に示す方法の実施形態として、本願は、情報抽出装置の一実施例を提供し、当該装置の実施例は図２に示す方法実施例に対応し、当該装置は具体的に各種の電子機器に適用することができる。

図５に示すように、本実施例の前記情報抽出装置５００は、解析ユニット５０１、分割ユニット５０２、分類ユニット５０３及び抽出ユニット５０４を備える。解析ユニット５０１は、予め取得したウェブページファイルをタグツリー構造として解析し、上記タグツリーのノードから上記ウェブページファイルにおけるウェブページ本文が所在する少なくとも１つの本文ノードを認識するように配置され、分割ユニット５０２は、上記少なくとも１つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するように配置され、分類ユニット５０３は、各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するように配置され、抽出ユニット５０４は、分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するように配置される。

本実施例では、情報抽出装置５００の解析ユニット５０１は、予め取得したウェブページファイルをタグツリー構造として解析し、上記タグツリーのノードから上記ウェブページファイルにおけるウェブページ本文が所在する少なくとも１つの本文ノードを認識することができる。

本実施例では、上記分割ユニット５０２は、上記少なくとも１つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定することができる。

本実施例では、上記分類ユニット５０３は、上記分割ユニット５０２で取得された各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類することができる。

本実施例では、上記抽出ユニット５０４は、上記分類ユニット５０３で取得された分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出することができる。

当業者であれば、上記情報抽出装置５００はさらに、いくつかのその他の周知構造、例えばプロセッサ、記憶装置等を備え、本開示の実施例を不明瞭にしないように、これらの周知の構造が図５に示されていないことを理解することができる。

本願の実施例を実現するための端末装置又はサーバに適用されるコンピュータシステム６００の構造模式図を示す図６を参照する。

図６に示すように、コンピュータシステム６００は、読み出し専用メモリ（ＲＯＭ）６０２に記憶されているプログラム又は記憶部６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたプログラムに基づいて様々な適切な動作及び処理を実行することができる中央処理装置（ＣＰＵ）６０１を備える。ＲＡＭ６０３には、システム６００の操作に必要な様々なプログラム及びデータがさらに記憶されている。ＣＰＵ６０１、ＲＯＭ６０２及びＲＡＭ６０３は、バス６０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続されている。

キーボード、マウスなどを含む入力部６０６、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）など、及びスピーカなどを含む出力部６０７、ハードディスクなどを含む記憶部６０８、及びＬＡＮカード、モデムなどを含むネットワークインターフェースカードの通信部６０９は、Ｉ／Ｏインターフェース６０５に接続されている。通信部６０９は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ６１０は、必要に応じてＩ／Ｏインターフェース６０５に接続される。リムーバブルメディア６１１は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ６１０に取り付けられ、したがって、ドライバ６１０から読み出されたコンピュータプログラムが必要に応じて記憶部６０８にインストールされる。

特に、本発明の実施例によれば、上記フローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本発明の実施例は、コンピュータプログラム製品を含み、当該コンピュータプログラム製品は、機械可読媒体に有形に具現化されるコンピュータプログラムを含み、前記コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施例では、当該コンピュータプログラムは、通信部６０９を介してネットワークからダウンロードされてインストールされてもよく、及び／又はリムーバブルメディア６１１からインストールされてもよい。

図面におけるフローチャート及びブロック図は、本発明の各実施例に係るシステム、方法及びコンピュータプログラム製品により実現可能なアーキテクチャ、機能及び操作を示す。ここで、フローチャート又はブロック図における各枠は、１つのモジュール、プログラムセグメント、又はコードの一部を代表してもよく、前記モジュール、プログラムセグメント、又はコードの一部は、規定された論理機能を実現するための１つ以上の実行可能な命令を含む。なお、いくつかの代替実施態様として、枠に示された機能は、図面に示された順番と異なる順番で実行されてもよい。例えば、連続して示された２つの枠は、関連する機能に応じて、実際にほぼ並行に実行されてもよく、逆の順番で実行されてもよい。なお、ブロック図及び／又はフローチャートにおける各枠と、ブロック図及び／又はフローチャートにおける枠の組合せは、規定された機能又は操作を実行する、ハードウェアに基づく専用システムで実現されてもよく、あるいは、専用ハードウェアとコンピュータの命令との組合せで実行されてもよい。

本発明の実施例に記載されたユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設定されてもよく、例えば、「解析ユニット、分割ユニット、分類ユニット、及び抽出ユニットを備えるプロセッサ」として記載されてもよい。その中でも、これらのユニットの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、解析ユニットは、「予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページテキストが所在する少なくとも１つのテキストノードを認識するユニット」として記載されてもよい。

一方、本発明は、不揮発性コンピュータ記憶媒体をさらに提供し、当該不揮発性コンピュータ記憶媒体は、上記実施例の前記装置に含まれる不揮発性コンピュータ記憶媒体であってもよく、独立に存在して端末に組み立てられていない不揮発性コンピュータ記憶媒体であってもよい。前記不揮発性コンピュータ記憶媒体は、１つ以上のプログラムが記憶され、前記１つ以上のプログラムが１つの機器により実行された場合、上記機器に、予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも１つの本文ノードを認識し、前記少なくとも１つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定し、各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類し、分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するようにさせる。

以上の記載は、本発明の好ましい実施例、及び使用された技術的原理の説明に過ぎない。本発明に係る特許請求の範囲が、上記技術的特徴の特定な組合せからなる技術案に限定されることではなく、本発明の趣旨を逸脱しない範囲で、上記技術的特徴又は同等の特徴の任意の組合せからなる他の技術案も含むべきであることを、当業者は理解すべきである。例えば、上記特徴と、本発明に開示された類似の機能を持っている技術的特徴（これらに限定されていない）とを互いに置き換えてなる技術案が挙げられる。

Claims

装置により実行される方法であって、
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも１つの本文ノードを認識するステップと、
前記少なくとも１つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップと、を含み、
前記の予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも１つの本文ノードを認識するステップには、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをＨＴＭＬ仕様に合致させるステップと、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成するステップと、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定するステップと、を含み、
前記の各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップには、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割するステップと、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識するステップと、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するステップと、を含む
ことを特徴とする情報抽出方法。
前記の前記少なくとも１つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成するステップには、
前記少なくとも１つの本文ノードに含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するステップと、
前記少なくとも１つの本文ノードに含まれるコンテンツにおける、前記タイトル以外のコンテンツに対して段落分割を行い、各段落ブロックを生成するステップと、を含む
ことを特徴とする請求項１に記載の方法。
前記の前記少なくとも１つの本文ノードに含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するステップには、
前記少なくとも１つの本文ノードに含まれるコンテンツの前記ウェブページコンテンツでの位置に基づいて、前記少なくとも１つの本文ノードから少なくとも１つの候補タイトルノードを選択するステップと、
各候補タイトルノード内のテキストと、前記ウェブページファイルのタイトルタグに対応するテキストとの編集距離、及び各候補タイトルノード内のテキストと、アンカータグに対応するテキストとの編集距離を計算するステップと、
各候補タイトルノード内のタグ情報及び計算された編集距離に基づいて各候補タイトルノードを順序付けるステップと、
順序付けの結果に基づいて前記少なくとも１つの候補タイトルノードから１つのテキストタイトルノードを決定し、前記テキストタイトルノード内のテキストをウェブページコンテンツのタイトルとして決定するステップと、を含む
ことを特徴とする請求項２に記載の方法。
前記の前記少なくとも１つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップには、
各本文ノードにおける少なくとも１つのブロック要素を認識するステップと、
ブロック要素がサブブロック要素を含む場合、サブブロック要素と改行タグで本文ノードに含まれるテキストに対して段落分割を行い、少なくとも１つの段落ブロックを取得して、ブロック要素がサブブロック要素を含まない場合、改行タグで本文ノードに含まれるテキストに対して段落分割を行い、少なくとも１つの段落ブロックを取得するステップと、
ブロック要素及びサブブロック要素に関連するタグの属性に基づいて各段落ブロックに対してタグ属性を設定するステップと、を含む
ことを特徴とする請求項１に記載の方法。
前記の分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップには、
認識された短タイトル構造に基づいてウェブページファイルに対応するウェブページ本文コンテンツに対してロジックブロック分割を行うステップと、
正規表現で各短タイトル構造が問題であるか否かを判断し、問題である場合、当該短タイトルを候補問題として設定するステップと、
候補問題の前記ウェブページコンテンツでの位置及びウェブページコンテンツのロジックブロック分割結果に基づいて候補問題に対応する候補解答を抽出するステップと、
候補問題と候補解答との間の間隔行数、候補解答における数字番号が連続的であるか否か、解答のエントリー数、解答のうち問題として判定されたエントリー数のうちの少なくとも１つに基づいて、問題と解答を含む情報を抽出するステップと、を含む
ことを特徴とする請求項１に記載の方法。
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも１つの本文ノードを認識するように配置される解析ユニットと、
前記少なくとも１つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するように配置される分割ユニットと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するように配置される分類ユニットと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するように配置される抽出ユニットと、を備え、
前記解析ユニットは、更に、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをＨＴＭＬ仕様に合致させ、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成し、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定するように配置され、
前記分類ユニットは、更に、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割し、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識し、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するように配置される
ことを特徴とする情報抽出装置。
前記分割ユニットは、
前記少なくとも１つの本文ノードに含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するように配置される認識サブユニットと、
前記少なくとも１つの本文ノードに含まれるコンテンツにおける、前記タイトル以外のコンテンツに対して段落分割を行い、各段落ブロックを生成するように配置される分割サブユニットと、を備える
ことを特徴とする請求項６に記載の装置。
前記認識サブユニットは、更に、
前記少なくとも１つの本文ノードに含まれるコンテンツの前記ウェブページコンテンツでの位置に基づいて、前記少なくとも１つの本文ノードから少なくとも１つの候補タイトルノードを選択し、
各候補タイトルノード内のテキストと、前記ウェブページファイルのタイトルタグに対応するテキストとの編集距離、及び各候補タイトルノード内のテキストと、アンカータグに対応するテキストとの編集距離を計算し、
各候補タイトルノード内のタグ情報及び計算された編集距離に基づいて各候補タイトルノードを順序付け、
順序付けの結果に基づいて前記少なくとも１つの候補タイトルノードから１つのテキストタイトルノードを決定し、前記テキストタイトルノード内のテキストをウェブページコンテンツのタイトルとして決定するように配置される
ことを特徴とする請求項７に記載の装置。
前記分割ユニットは、更に、
各本文ノードにおける少なくとも１つのブロック要素を認識し、
ブロック要素がサブブロック要素を含む場合、サブブロック要素と改行タグで本文ノードに含まれるテキストに対して段落分割を行い、少なくとも１つの段落ブロックを取得して、ブロック要素がサブブロック要素を含まない場合、改行タグで本文ノードに含まれるテキストに対して段落分割を行い、少なくとも１つの段落ブロックを取得して、
ブロック要素及びサブブロック要素に関連するタグの属性に基づいて各段落ブロックに対してタグ属性を設定するように配置される
ことを特徴とする請求項６に記載の装置。
前記抽出ユニットは、更に、
認識された短タイトル構造に基づいてウェブページファイルに対応するウェブページ本文コンテンツに対してロジックブロック分割を行い、
正規表現で各短タイトル構造が問題であるか否かを判断し、問題である場合、当該短タイトルを候補問題として設定し、
候補問題の前記ウェブページコンテンツでの位置及びウェブページコンテンツのロジックブロック分割結果に基づいて候補問題に対応する候補解答を抽出し、
候補問題と候補解答との間の間隔行数、候補解答における数字番号が連続的であるか否か、解答のエントリー数、解答のうち問題として判定されたエントリー数のうちの少なくとも１つに基づいて、問題と解答を含む情報を抽出するように配置される
ことを特徴とする請求項６に記載の装置。
プロセッサと、
メモリと、を備えており、
前記メモリに前記プロセッサにより実行可能なコンピュータ可読命令が記憶され、前記コンピュータ可読命令が実行される場合、前記プロセッサが情報抽出方法を実行し、前記方法は、
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも１つの本文ノードを認識するステップと、
前記少なくとも１つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップと、を含み、
前記の予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも１つの本文ノードを認識するステップには、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをＨＴＭＬ仕様に合致させるステップと、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成するステップと、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定するステップと、を含み、
前記の各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップには、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割するステップと、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識するステップと、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するステップと、を含む
ことを特徴とする装置。
不揮発性コンピュータ記憶媒体であって、
プロセッサにより実行可能なコンピュータ可読命令が記憶され、前記コンピュータ可読命令がプロセッサに実行される場合、前記プロセッサが情報抽出方法を実行し、前記方法は、
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも１つの本文ノードを認識するステップと、
前記少なくとも１つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップと、を含み、
前記の予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも１つの本文ノードを認識するステップには、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをＨＴＭＬ仕様に合致させるステップと、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成するステップと、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定するステップと、を含み、
前記の各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップには、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割するステップと、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識するステップと、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するステップと、を含む
ことを特徴とする不揮発性コンピュータ記憶媒体。