JP6653334B2 - 情報抽出方法及び装置 - Google Patents
情報抽出方法及び装置 Download PDFInfo
- Publication number
- JP6653334B2 JP6653334B2 JP2017552070A JP2017552070A JP6653334B2 JP 6653334 B2 JP6653334 B2 JP 6653334B2 JP 2017552070 A JP2017552070 A JP 2017552070A JP 2017552070 A JP2017552070 A JP 2017552070A JP 6653334 B2 JP6653334 B2 JP 6653334B2
- Authority
- JP
- Japan
- Prior art keywords
- paragraph
- web page
- node
- block
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 38
- 238000000034 method Methods 0.000 claims description 30
- 238000010586 diagram Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 239000013589 supplement Substances 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 201000007094 prostatitis Diseases 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/154—Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するステップと、
前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップと、を含む。
前記少なくとも1つの本文ノードに含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するステップと、
前記少なくとも1つの本文ノードに含まれるコンテンツにおける、前記タイトル以外のコンテンツに対して段落分割を行い、各段落ブロックを生成するステップと、を含む。
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをHTML仕様に合致させるステップと、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成するステップと、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定するステップと、を含む
前記少なくとも1つのテキスト本文に含まれるコンテンツの前記ウェブページコンテンツでの位置に基づいて、前記少なくとも1つのテキスト本文から少なくとも1つの候補タイトルノードを選択するステップと、
各候補タイトルノード内のテキストと、前記ウェブページファイルのタイトルタグに対応するテキストとの編集距離、及び各候補タイトルノード内のテキストと、アンカータグに対応するテキストとの編集距離を計算するステップと、
各候補タイトルノード内のタグ情報及び計算された編集距離に基づいて各候補タイトルノードを順序付けるステップと、
順序付けの結果に基づいて前記少なくとも1つの候補タイトルノードから1つのテキストタイトルノードを決定し、前記テキストタイトルノード内のテキストをウェブページコンテンツのタイトルとして決定するステップと、を含む。
各テキスト本文における少なくとも1つのブロック要素を認識するステップと、
ブロック要素がサブブロック要素を含む場合、サブブロック要素と改行タグでテキスト本文に含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得して、ブロック要素がサブブロック要素を含まない場合、改行タグでテキスト本文に含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得するステップと、
ブロック要素及びサブブロック要素に関連するタグの属性に基づいて各段落ブロックに対してタグ属性を設定するステップと、を含む。
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割するステップと、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識するステップと、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するステップと、を含む。
認識された短タイトル構造に基づいてウェブページファイルに対応するウェブページ本文コンテンツに対してロジックブロック分割を行うステップと、
正規表現で各短タイトル構造が問題であるか否かを判断し、問題である場合、当該短タイトルを候補問題として設定するステップと、
候補問題の前記ウェブページコンテンツでの位置及びウェブページコンテンツのロジックブロック分割結果に基づいて候補問題に対応する候補解答を抽出するステップと、
候補問題と候補解答との間の間隔行数、候補解答における数字番号が連続的であるか否か、解答のエントリー数、解答のうち問題として判定されたエントリー数のうちの少なくとも1つに基づいて、問題と解答を含む情報を抽出するステップと、を含む。
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つのテキスト本文を認識するように配置される解析ユニットと、
前記少なくとも1つのテキスト本文に含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するように配置される分割ユニットと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するように配置される分類ユニットと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するように配置される抽出ユニットと、を備える。
前記少なくとも1つのテキスト本文に含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するように配置される認識サブユニットと、
前記少なくとも1つのテキスト本文に含まれるコンテンツにおける、前記タイトル以外のコンテンツに対して段落分割を行い、各段落ブロックを生成するように配置される分割サブユニットと、を備える。
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをHTML仕様に合致させ、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成し、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいてテキスト本文を決定するように配置される。
前記少なくとも1つのテキスト本文に含まれるコンテンツの前記ウェブページコンテンツでの位置に基づいて、前記少なくとも1つのテキスト本文から少なくとも1つの候補タイトルノードを選択し、
各候補タイトルノード内のテキストと、前記ウェブページファイルのタイトルタグに対応するテキストとの編集距離、及び各候補タイトルノード内のテキストと、アンカータグに対応するテキストとの編集距離を計算し、
各候補タイトルノード内のタグ情報及び計算された編集距離に基づいて各候補タイトルノードを順序付け、
順序付けの結果に基づいて前記少なくとも1つの候補タイトルノードから1つのテキストタイトルノードを決定し、前記テキストタイトルノード内のテキストをウェブページコンテンツのタイトルとして決定するように配置される。
各テキスト本文における少なくとも1つのブロック要素を認識し、
ブロック要素がサブブロック要素を含む場合、サブブロック要素と改行タグでテキスト本文に含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得して、ブロック要素がサブブロック要素を含まない場合、改行タグでテキスト本文に含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得して、
ブロック要素及びサブブロック要素に関連するタグの属性に基づいて各段落ブロックに対してタグ属性を設定するように配置される。
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割し、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識し、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するように配置される。
認識された短タイトル構造に基づいてウェブページファイルに対応するウェブページ本文コンテンツに対してロジックブロック分割を行い、
正規表現で各短タイトル構造が問題であるか否かを判断し、問題である場合、当該短タイトルを候補問題として設定し、
候補問題の前記ウェブページコンテンツでの位置及びウェブページコンテンツのロジックブロック分割結果に基づいて候補問題に対応する候補解答を抽出し、
候補問題と候補解答との間の間隔行数、候補解答における数字番号が連続的であるか否か、解答のエントリー数、解答のうち問題として判定されたエントリー数のうちの少なくとも1つに基づいて、問題と解答を含む情報を抽出するように配置される。
Claims (12)
- 装置により実行される方法であって、
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するステップと、
前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップと、を含み、
前記の予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するステップには、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをHTML仕様に合致させるステップと、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成するステップと、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定するステップと、を含み、
前記の各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップには、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割するステップと、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識するステップと、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するステップと、を含む
ことを特徴とする情報抽出方法。 - 前記の前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成するステップには、
前記少なくとも1つの本文ノードに含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するステップと、
前記少なくとも1つの本文ノードに含まれるコンテンツにおける、前記タイトル以外のコンテンツに対して段落分割を行い、各段落ブロックを生成するステップと、を含む
ことを特徴とする請求項1に記載の方法。 - 前記の前記少なくとも1つの本文ノードに含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するステップには、
前記少なくとも1つの本文ノードに含まれるコンテンツの前記ウェブページコンテンツでの位置に基づいて、前記少なくとも1つの本文ノードから少なくとも1つの候補タイトルノードを選択するステップと、
各候補タイトルノード内のテキストと、前記ウェブページファイルのタイトルタグに対応するテキストとの編集距離、及び各候補タイトルノード内のテキストと、アンカータグに対応するテキストとの編集距離を計算するステップと、
各候補タイトルノード内のタグ情報及び計算された編集距離に基づいて各候補タイトルノードを順序付けるステップと、
順序付けの結果に基づいて前記少なくとも1つの候補タイトルノードから1つのテキストタイトルノードを決定し、前記テキストタイトルノード内のテキストをウェブページコンテンツのタイトルとして決定するステップと、を含む
ことを特徴とする請求項2に記載の方法。 - 前記の前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップには、
各本文ノードにおける少なくとも1つのブロック要素を認識するステップと、
ブロック要素がサブブロック要素を含む場合、サブブロック要素と改行タグで本文ノードに含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得して、ブロック要素がサブブロック要素を含まない場合、改行タグで本文ノードに含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得するステップと、
ブロック要素及びサブブロック要素に関連するタグの属性に基づいて各段落ブロックに対してタグ属性を設定するステップと、を含む
ことを特徴とする請求項1に記載の方法。 - 前記の分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップには、
認識された短タイトル構造に基づいてウェブページファイルに対応するウェブページ本文コンテンツに対してロジックブロック分割を行うステップと、
正規表現で各短タイトル構造が問題であるか否かを判断し、問題である場合、当該短タイトルを候補問題として設定するステップと、
候補問題の前記ウェブページコンテンツでの位置及びウェブページコンテンツのロジックブロック分割結果に基づいて候補問題に対応する候補解答を抽出するステップと、
候補問題と候補解答との間の間隔行数、候補解答における数字番号が連続的であるか否か、解答のエントリー数、解答のうち問題として判定されたエントリー数のうちの少なくとも1つに基づいて、問題と解答を含む情報を抽出するステップと、を含む
ことを特徴とする請求項1に記載の方法。 - 予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するように配置される解析ユニットと、
前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するように配置される分割ユニットと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するように配置される分類ユニットと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するように配置される抽出ユニットと、を備え、
前記解析ユニットは、更に、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをHTML仕様に合致させ、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成し、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定するように配置され、
前記分類ユニットは、更に、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割し、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識し、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するように配置される
ことを特徴とする情報抽出装置。 - 前記分割ユニットは、
前記少なくとも1つの本文ノードに含まれるコンテンツから前記ウェブページファイルのウェブページコンテンツのタイトルを認識するように配置される認識サブユニットと、
前記少なくとも1つの本文ノードに含まれるコンテンツにおける、前記タイトル以外のコンテンツに対して段落分割を行い、各段落ブロックを生成するように配置される分割サブユニットと、を備える
ことを特徴とする請求項6に記載の装置。 - 前記認識サブユニットは、更に、
前記少なくとも1つの本文ノードに含まれるコンテンツの前記ウェブページコンテンツでの位置に基づいて、前記少なくとも1つの本文ノードから少なくとも1つの候補タイトルノードを選択し、
各候補タイトルノード内のテキストと、前記ウェブページファイルのタイトルタグに対応するテキストとの編集距離、及び各候補タイトルノード内のテキストと、アンカータグに対応するテキストとの編集距離を計算し、
各候補タイトルノード内のタグ情報及び計算された編集距離に基づいて各候補タイトルノードを順序付け、
順序付けの結果に基づいて前記少なくとも1つの候補タイトルノードから1つのテキストタイトルノードを決定し、前記テキストタイトルノード内のテキストをウェブページコンテンツのタイトルとして決定するように配置される
ことを特徴とする請求項7に記載の装置。 - 前記分割ユニットは、更に、
各本文ノードにおける少なくとも1つのブロック要素を認識し、
ブロック要素がサブブロック要素を含む場合、サブブロック要素と改行タグで本文ノードに含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得して、ブロック要素がサブブロック要素を含まない場合、改行タグで本文ノードに含まれるテキストに対して段落分割を行い、少なくとも1つの段落ブロックを取得して、
ブロック要素及びサブブロック要素に関連するタグの属性に基づいて各段落ブロックに対してタグ属性を設定するように配置される
ことを特徴とする請求項6に記載の装置。 - 前記抽出ユニットは、更に、
認識された短タイトル構造に基づいてウェブページファイルに対応するウェブページ本文コンテンツに対してロジックブロック分割を行い、
正規表現で各短タイトル構造が問題であるか否かを判断し、問題である場合、当該短タイトルを候補問題として設定し、
候補問題の前記ウェブページコンテンツでの位置及びウェブページコンテンツのロジックブロック分割結果に基づいて候補問題に対応する候補解答を抽出し、
候補問題と候補解答との間の間隔行数、候補解答における数字番号が連続的であるか否か、解答のエントリー数、解答のうち問題として判定されたエントリー数のうちの少なくとも1つに基づいて、問題と解答を含む情報を抽出するように配置される
ことを特徴とする請求項6に記載の装置。 - プロセッサと、
メモリと、を備えており、
前記メモリに前記プロセッサにより実行可能なコンピュータ可読命令が記憶され、前記コンピュータ可読命令が実行される場合、前記プロセッサが情報抽出方法を実行し、前記方法は、
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するステップと、
前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップと、を含み、
前記の予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するステップには、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをHTML仕様に合致させるステップと、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成するステップと、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定するステップと、を含み、
前記の各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップには、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割するステップと、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識するステップと、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するステップと、を含む
ことを特徴とする装置。 - 不揮発性コンピュータ記憶媒体であって、
プロセッサにより実行可能なコンピュータ可読命令が記憶され、前記コンピュータ可読命令がプロセッサに実行される場合、前記プロセッサが情報抽出方法を実行し、前記方法は、
予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するステップと、
前記少なくとも1つの本文ノードに含まれるコンテンツに対して段落分割を行い、各段落ブロックを生成し、各段落ブロックに関連するタグの属性に基づいて、各段落ブロックに対してタグ属性を設定するステップと、
各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップと、
分類結果に基づいて段落ブロックに含まれるテキストコンテンツから問題と解答を含む情報を抽出するステップと、を含み、
前記の予め取得されたウェブページファイルをタグツリー構造として解析し、前記タグツリーのノードから前記ウェブページファイルにおけるウェブページ本文が所在する少なくとも1つの本文ノードを認識するステップには、
予め取得されたウェブページファイルに対して標準化処理を行い、前記ウェブページファイルをHTML仕様に合致させるステップと、
標準化されたウェブページファイルに対してドキュメントオブジェクトモデルツリー解析を行い、タグツリーを生成するステップと、
前記タグツリーの各ノードにアクセスし、各ノードに含まれるコンテンツに基づいて本文ノードを決定するステップと、を含み、
前記の各段落ブロックのタグ属性に基づいて各段落ブロックに含まれるテキストコンテンツを分類するステップには、
タグ属性が同じである段落ブロックを同じ段落ブロック集合に分割するステップと、
各段落ブロック集合における各段落ブロックに含まれる文字数及び各段落ブロックの間の行間隔に基づいて各サブブロック集合における短タイトル構造を認識するステップと、
含まれるテキストに基づいて、各段落ブロック集合における非短タイトル構造の段落ブロックを分類するステップと、を含む
ことを特徴とする不揮発性コンピュータ記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511022937.XA CN105677764B (zh) | 2015-12-30 | 2015-12-30 | 信息提取方法和装置 |
CN201511022937.X | 2015-12-30 | ||
PCT/CN2016/086213 WO2017113645A1 (zh) | 2015-12-30 | 2016-06-17 | 信息提取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018513480A JP2018513480A (ja) | 2018-05-24 |
JP6653334B2 true JP6653334B2 (ja) | 2020-02-26 |
Family
ID=56298057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017552070A Active JP6653334B2 (ja) | 2015-12-30 | 2016-06-17 | 情報抽出方法及び装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10679051B2 (ja) |
EP (1) | EP3267332A4 (ja) |
JP (1) | JP6653334B2 (ja) |
KR (1) | KR20170123331A (ja) |
CN (1) | CN105677764B (ja) |
WO (1) | WO2017113645A1 (ja) |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677764B (zh) * | 2015-12-30 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
CN106446072B (zh) * | 2016-09-07 | 2019-10-18 | 百度在线网络技术(北京)有限公司 | 网页内容的处理方法和装置 |
CN108062291A (zh) * | 2016-11-09 | 2018-05-22 | 上海颐为网络科技有限公司 | 多媒体内容智能转换为词条结构的方法和系统 |
CN108090104B (zh) * | 2016-11-23 | 2023-05-02 | 百度在线网络技术(北京)有限公司 | 用于获取网页信息的方法和装置 |
CN106649760A (zh) * | 2016-12-27 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于深度问答的提问型搜索词搜索方法及装置 |
KR101904486B1 (ko) * | 2017-01-13 | 2018-10-05 | (주)엠더블유스토리 | 트리 구조를 비교하여 웹 페이지의 변경을 감지하는 모니터링 시스템 및 그 방법 |
CN106951505B (zh) * | 2017-03-16 | 2021-02-02 | 北京搜狐新媒体信息技术有限公司 | 网页信息获得方法及系统 |
CN108664522A (zh) * | 2017-04-01 | 2018-10-16 | 优信互联(北京)信息技术有限公司 | 网页处理方法及装置 |
CN108509469A (zh) * | 2017-05-17 | 2018-09-07 | 苏州纯青智能科技有限公司 | 一种基于分块的网页正文信息提取方法 |
CN107766328B (zh) * | 2017-10-24 | 2020-06-12 | 平安科技(深圳)有限公司 | 结构化文本的文本信息提取方法、存储介质和服务器 |
CN107943838B (zh) * | 2017-10-30 | 2021-09-07 | 北京大数元科技发展有限公司 | 一种自动获取xpath生成爬虫脚本的方法及系统 |
CN110020302A (zh) * | 2017-11-16 | 2019-07-16 | 富士通株式会社 | 提取网页内容的方法和网页内容提取装置 |
CN110209906A (zh) * | 2018-02-07 | 2019-09-06 | 北京京东尚科信息技术有限公司 | 用于提取网页信息的方法和装置 |
CN108334481B (zh) * | 2018-03-01 | 2021-08-27 | 四川语言桥信息技术有限公司 | 文档处理方法以及装置 |
US10922366B2 (en) * | 2018-03-27 | 2021-02-16 | International Business Machines Corporation | Self-adaptive web crawling and text extraction |
CN108491536A (zh) * | 2018-03-30 | 2018-09-04 | 北京智慧正安科技有限公司 | 法律条文提取方法、装置及计算机可读存储介质 |
CN109276886B (zh) * | 2018-08-16 | 2022-09-23 | 深圳木狼科技有限公司 | 一种文本生成方法、系统以及终端设备 |
CN110889280B (zh) * | 2018-09-06 | 2023-09-26 | 上海智臻智能网络科技股份有限公司 | 基于文档拆分的知识库建设方法及装置 |
US10713329B2 (en) | 2018-10-30 | 2020-07-14 | Longsand Limited | Deriving links to online resources based on implicit references |
CN109740130B (zh) * | 2018-11-22 | 2022-12-09 | 厦门市美亚柏科信息股份有限公司 | 用于生成文件的方法和装置 |
CN109635103B (zh) * | 2018-12-17 | 2022-05-20 | 北京百度网讯科技有限公司 | 摘要生成方法和装置 |
CN110175233B (zh) * | 2019-03-07 | 2022-03-11 | 平安科技(深圳)有限公司 | 目标主体画像分析的方法、装置、计算机装置及存储介质 |
JP7099397B2 (ja) * | 2019-04-16 | 2022-07-12 | 株式会社リコー | Q&a抽出装置、方法、プログラム、および応答システム |
CN110046355B (zh) * | 2019-04-25 | 2023-02-24 | 讯飞智元信息科技有限公司 | 一种标题段落检测方法及装置 |
CN110298028B (zh) * | 2019-05-21 | 2023-08-18 | 杭州未名信科科技有限公司 | 一种文本段落的关键句提取方法和装置 |
CN110222319A (zh) * | 2019-06-19 | 2019-09-10 | 北京百度网讯科技有限公司 | 用于挖掘数据的方法和装置 |
CN110427488B (zh) * | 2019-07-30 | 2022-09-23 | 北京明略软件系统有限公司 | 文档的处理方法及装置 |
CN110704573B (zh) * | 2019-09-04 | 2023-12-22 | 平安科技(深圳)有限公司 | 目录存储方法、装置、计算机设备及存储介质 |
CN110569361B (zh) * | 2019-09-06 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 一种文本识别方法及设备 |
CN110717044A (zh) * | 2019-10-08 | 2020-01-21 | 创新奇智(南京)科技有限公司 | 一种研报正文的文本分类方法 |
CN111177301B (zh) * | 2019-11-26 | 2023-05-26 | 云南电网有限责任公司昆明供电局 | 一种关键信息识别提取方法及系统 |
CN110956019B (zh) * | 2019-11-27 | 2021-10-26 | 北大方正集团有限公司 | 列表处理系统、方法、装置、计算机可读存储介质 |
CN111061860A (zh) * | 2019-12-12 | 2020-04-24 | 北京百度网讯科技有限公司 | 摘要生成方法和装置 |
CN113051390B (zh) * | 2019-12-26 | 2023-09-26 | 百度在线网络技术(北京)有限公司 | 知识库构建方法、装置、电子设备和介质 |
CN111274239B (zh) * | 2019-12-30 | 2023-07-14 | 安徽知学科技有限公司 | 试卷结构化处理方法、装置和设备 |
CN111784505A (zh) * | 2020-06-30 | 2020-10-16 | 鼎富智能科技有限公司 | 一种借贷纠纷判决书提取方法及装置 |
CN112001183B (zh) * | 2020-07-26 | 2021-11-19 | 湖南省侍禾教育科技有限公司 | 一种基于段落语义的中小学试题分割提取方法及系统 |
CN114070576B (zh) * | 2020-08-07 | 2024-03-08 | 腾讯科技(深圳)有限公司 | 内容显示方法、内容生成方法、装置、设备及存储介质 |
CN112172375B (zh) * | 2020-09-03 | 2021-11-30 | 安徽理工大学 | 一种大学生创新创业计划评价分析系统 |
CN113255303B (zh) * | 2020-09-14 | 2022-03-25 | 苏州七星天专利运营管理有限责任公司 | 一种文档辅助编辑的方法和系统 |
CN112487138A (zh) * | 2020-11-19 | 2021-03-12 | 华为技术有限公司 | 带格式文本的信息抽取方法和装置 |
CN112541359B (zh) * | 2020-11-27 | 2024-02-02 | 北京百度网讯科技有限公司 | 文档内容识别方法、装置、电子设备及介质 |
CN113407890B (zh) * | 2021-07-19 | 2024-01-12 | 北京百度网讯科技有限公司 | 信息提取方法、装置、电子设备和介质 |
CN113591657B (zh) * | 2021-07-23 | 2024-04-09 | 京东科技控股股份有限公司 | Ocr版面识别的方法、装置、电子设备及介质 |
CN114691865B (zh) * | 2022-03-03 | 2024-09-20 | 支付宝(杭州)信息技术有限公司 | 一种基金产品的审核方法、装置以及设备 |
CN114610985B (zh) * | 2022-05-10 | 2022-08-19 | 北京百炼智能科技有限公司 | 信息提取方法、装置、电子设备及存储介质 |
CN115238078A (zh) * | 2022-08-10 | 2022-10-25 | 数魔方(北京)医药科技有限公司 | 一种网页信息抽取方法、装置、设备及存储介质 |
CN115757823B (zh) * | 2022-11-10 | 2024-03-05 | 魔方医药科技(苏州)有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN117236314B (zh) * | 2023-11-06 | 2024-03-01 | 杭州同花顺数据开发有限公司 | 支持超长答案的信息抽取方法、系统、装置和存储介质 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH113335A (ja) * | 1997-06-13 | 1999-01-06 | Fuji Xerox Co Ltd | 質問回答管理装置 |
US6711585B1 (en) * | 1999-06-15 | 2004-03-23 | Kanisa Inc. | System and method for implementing a knowledge management system |
ATE522036T1 (de) * | 2000-01-12 | 2011-09-15 | Jupiter Media Metrix Inc | System und verfahren zur schätzung der verbreitung digitalem inhalts im world-wide-web |
CN100432996C (zh) * | 2004-12-07 | 2008-11-12 | 国际商业机器公司 | 基于网页页面布局提取网页核心内容的系统、方法 |
JP4512826B2 (ja) * | 2005-03-03 | 2010-07-28 | 国立大学法人 筑波大学 | 質問応答システム |
US7805289B2 (en) * | 2006-07-10 | 2010-09-28 | Microsoft Corporation | Aligning hierarchal and sequential document trees to identify parallel data |
TW200836075A (en) * | 2007-02-16 | 2008-09-01 | Esobi Inc | Method of converting hypertext markup language web page into pure text and system thereof |
US20090119374A1 (en) * | 2007-11-05 | 2009-05-07 | International Business Machines Corporation | Adaptive instant messaging awareness |
US8255793B2 (en) | 2008-01-08 | 2012-08-28 | Yahoo! Inc. | Automatic visual segmentation of webpages |
WO2010085773A1 (en) * | 2009-01-24 | 2010-07-29 | Kontera Technologies, Inc. | Hybrid contextual advertising and related content analysis and display techniques |
JP2011003182A (ja) * | 2009-05-19 | 2011-01-06 | Studio Ousia Inc | キーワード表示方法およびそのシステム |
WO2012040356A1 (en) * | 2010-09-24 | 2012-03-29 | International Business Machines Corporation | Providing question and answers with deferred type evaluation using text with limited structure |
WO2012097504A1 (en) * | 2011-01-18 | 2012-07-26 | Google Inc. | Automated answers to online questions |
CN102651002B (zh) * | 2011-02-28 | 2017-08-11 | 深圳市世纪光速信息技术有限公司 | 一种网页信息抽取方法及其系统 |
CN102631002B (zh) * | 2012-05-15 | 2013-06-05 | 安徽燕之坊食品有限公司 | 一种功能性饮料冲剂 |
US20150067476A1 (en) * | 2013-08-29 | 2015-03-05 | Microsoft Corporation | Title and body extraction from web page |
WO2015100321A1 (en) * | 2013-12-23 | 2015-07-02 | Ctext Technology Llc | Method and system for correlating conversations in a messaging environment |
CN103853834B (zh) * | 2014-03-12 | 2017-02-08 | 华东师范大学 | 基于文本结构分析的Web文档摘要的生成方法 |
CN104268192B (zh) * | 2014-09-20 | 2018-08-07 | 广州猎豹网络科技有限公司 | 一种网页信息提取方法、装置及终端 |
CN104462532B (zh) * | 2014-12-23 | 2017-07-07 | 北京奇虎科技有限公司 | 网页正文提取的方法和装置 |
US9875296B2 (en) * | 2015-03-25 | 2018-01-23 | Google Llc | Information extraction from question and answer websites |
US20170063776A1 (en) * | 2015-08-27 | 2017-03-02 | International Business Machines Coporation | FAQs UPDATER AND GENERATOR FOR MULTI-COMMUNICATION CHANNELS |
CN105677764B (zh) | 2015-12-30 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
-
2015
- 2015-12-30 CN CN201511022937.XA patent/CN105677764B/zh active Active
-
2016
- 2016-06-17 KR KR1020177027765A patent/KR20170123331A/ko active Search and Examination
- 2016-06-17 WO PCT/CN2016/086213 patent/WO2017113645A1/zh active Application Filing
- 2016-06-17 JP JP2017552070A patent/JP6653334B2/ja active Active
- 2016-06-17 EP EP16880453.2A patent/EP3267332A4/en not_active Ceased
- 2016-06-17 US US15/564,187 patent/US10679051B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP3267332A4 (en) | 2018-01-24 |
US10679051B2 (en) | 2020-06-09 |
JP2018513480A (ja) | 2018-05-24 |
EP3267332A1 (en) | 2018-01-10 |
CN105677764B (zh) | 2020-05-08 |
WO2017113645A1 (zh) | 2017-07-06 |
KR20170123331A (ko) | 2017-11-07 |
CN105677764A (zh) | 2016-06-15 |
US20180322341A1 (en) | 2018-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6653334B2 (ja) | 情報抽出方法及び装置 | |
US11062089B2 (en) | Method and apparatus for generating information | |
US11769072B2 (en) | Document structure extraction using machine learning | |
US9411790B2 (en) | Systems, methods, and media for generating structured documents | |
US20150067476A1 (en) | Title and body extraction from web page | |
CN110765235B (zh) | 训练数据的生成方法、装置、终端及可读介质 | |
US20130339840A1 (en) | System and method for logical chunking and restructuring websites | |
KR101607468B1 (ko) | 콘텐츠에 대한 키워드 태깅 방법 및 시스템 | |
CN111339250A (zh) | 新类别标签的挖掘方法及电子设备、计算机可读介质 | |
CN103166981A (zh) | 一种无线网页转码方法及装置 | |
CN110020312B (zh) | 提取网页正文的方法和装置 | |
CN111199151A (zh) | 数据处理方法、及数据处理装置 | |
CN112699232A (zh) | 文本标签提取方法、装置、设备和存储介质 | |
CN111492364A (zh) | 数据标注方法、装置及存储介质 | |
CN111143642A (zh) | 网页分类方法、装置、电子设备及计算机可读存储介质 | |
CN109033082B (zh) | 语义模型的学习训练方法、装置及计算机可读存储介质 | |
CN112989031A (zh) | 基于深度学习的广播电视新闻事件要素抽取方法 | |
CN110489740B (zh) | 语义解析方法及相关产品 | |
RU2711123C2 (ru) | Способ и система компьютерной обработки одной или нескольких цитат в цифровых текстах для определения их автора | |
CN106959945B (zh) | 基于人工智能的为新闻生成短标题的方法和装置 | |
CN114625658A (zh) | App稳定性测试方法、装置、设备和计算机可读存储介质 | |
KR100832859B1 (ko) | 모바일 웹 콘텐츠 서비스 시스템 및 그 방법 | |
CN114302227A (zh) | 基于容器采集的网络视频采集与解析的方法和系统 | |
CN109388665B (zh) | 作者关系在线挖掘方法及系统 | |
KR20130113000A (ko) | 언어 처리 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171003 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181009 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190108 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190625 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191024 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20191101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6653334 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |