JP2016201112A - ウェブページ処理装置及びウェブページ処理方法 - Google Patents
ウェブページ処理装置及びウェブページ処理方法 Download PDFInfo
- Publication number
- JP2016201112A JP2016201112A JP2016078718A JP2016078718A JP2016201112A JP 2016201112 A JP2016201112 A JP 2016201112A JP 2016078718 A JP2016078718 A JP 2016078718A JP 2016078718 A JP2016078718 A JP 2016078718A JP 2016201112 A JP2016201112 A JP 2016201112A
- Authority
- JP
- Japan
- Prior art keywords
- web page
- rdfa
- resource description
- segment
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】本発明はウェブページ処理装置及びウェブページ処理方法を提供する。【解決手段】装置は、ウェブページの実体類型を識別するための第一識別ユニット;前記ウェブページの視覚構造及び前記実体類型に基づいて、前記ウェブページを少なくとも一つの語義セグメントに分割するための第一分割ユニット;予め確定された語義セグメントとリソース・ディスクリプション・フレームワーク属性との対応関係に基づいて、前記ウェブページ中の各語義セグメントに対応するリソース・ディスクリプション・フレームワーク属性を確定するための第一確定ユニット;及び、前記ウェブページの各語義セグメントに、対応するリソース・ディスクリプション・フレームワーク属性を埋め込むための埋め込みユニットを含む。【選択図】図1
Description
本発明は情報技術分野に関し、特に、ウェブページ処理装置及びウェブページ処理方法に関する。
近年、インターネット上でのテキスト情報が急激に増えており、そのうち、大多数は、組織されていないウェブページであり、構造化テキストではない。
ウェブページ語義注釈とは、非マシン可読且つ非構造化のウェブページテキストをマシン可読なフォーマットのテキストに変換することを指す。リソース・ディスクリプション・フレームワーク属性(Resource Description Framework attribute、RDFa)を用いて、ハイパーテキスト・マークアップ・ランゲージ(Hyper Text Mark-up Language、HTML)ウェブページ中の語義属性に対して注釈を行うことは、インターネット語義注釈を行うことができる方法の一つになっている。
いまのところ、リソース・ディスクリプション・フレームワーク属性(RDFa)をハイパーテキスト・マークアップ・ランゲージ(HTML)ウェブページに埋め込むことは、通常、ウェブページ編集者が手動で完成する必要があるため、大量の時間及び人力を要する。そのため、研究者らは、自動又は半自動的な方法を開発することで、ウェブページ語義注釈及び情報抽出などの作業をこれらの方法に完成させる。ウェブページウェブページの自動語義注釈は、通常、教師有りの注釈方法であり、即ち、予め訓練ウェブページに対して人工的に注釈を行い、また、訓練(トレーニング)ウェブページに基づいて分類器を形成し、これにより、リソース・ディスクリプション・フレームワーク属性(RDFa)を注釈待ちのウェブページに埋め込む。上述の教師有りの注釈方法では、訓練ウェブページの数量が多いほど、自動注釈の正確度が高い。
本発明の発明者は、上述の教師有りの自動注釈方法が、人為的に組織されている小規模且つ良き定義の語義タグの場合にのみ適用されるが、人工注釈の訓練ウェブページ数量が不足している場合に、該方法による注釈の正確度が悪い影響を受けることがあり、且つ分類器を他の場合に拡張して使用することもできないということを発見した。よって、上述の教師有りの自動注釈方法は、良好な拡張性を有しない。
本発明の実施例は、ウェブページ処理装置及びウェブページ処理方法を提供し、間接教師あり(weak/distant supervision)の方法に基づいて、リソース・ディスクリプション・フレームワーク属性と、ウェブページ中の語義セグメントとの対応関係を構築し、そして、該対応関係に基づいて、実体類型ウェブページの語義セグメントに、対応するリソース・ディスクリプション・フレームワーク属性を埋め込むことができる。
本発明の一側面によれば、ウェブページ処理装置が提供され、前記装置は実体ウェブページにリソース・ディスクリプション・フレームワーク属性(Resource Description Framework attribute、RDFa)を埋め込むために用いられ、該装置は、
ウェブページの実体類型(entity type)を識別するための第一識別ユニットであって、前記実体類型は、少なくとも一つのリソース・ディスクリプション・フレームワーク属性(RDFa)に対応する、第一識別ユニット;
前記ウェブページの視覚構造(visual structure)及び前記実体類型に基づいて、前記ウェブページを少なくとも一つの語義セグメント(semantic fragment)に分割するための第一分割ユニット;
予め確定された語義セグメントと、リソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、前記ウェブページ中の各語義セグメントに対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を確定するための第一確定ユニットであって、前記対応関係は、ウェブページ検索により得られた訓練ウェブページに基づいて確定されたものである、第一確定ユニット;及び
前記ウェブページの各語義セグメントに、対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を嵌めこむための埋め込みユニットを含む。
ウェブページの実体類型(entity type)を識別するための第一識別ユニットであって、前記実体類型は、少なくとも一つのリソース・ディスクリプション・フレームワーク属性(RDFa)に対応する、第一識別ユニット;
前記ウェブページの視覚構造(visual structure)及び前記実体類型に基づいて、前記ウェブページを少なくとも一つの語義セグメント(semantic fragment)に分割するための第一分割ユニット;
予め確定された語義セグメントと、リソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、前記ウェブページ中の各語義セグメントに対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を確定するための第一確定ユニットであって、前記対応関係は、ウェブページ検索により得られた訓練ウェブページに基づいて確定されたものである、第一確定ユニット;及び
前記ウェブページの各語義セグメントに、対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を嵌めこむための埋め込みユニットを含む。
本発明の有益な効果は、該方法は、予め訓練ウェブページに対して人工注釈を行う必要がなく、これにより、時間及び人力を節約することが、且つ良好な拡張性を有することにある。
以下、添付した図面を参照しながら、本発明を実施するための形態を詳細に説明する。
実施例1はウェブページ処理方法を提供し、該方法は、実体ウェブページにリソース・ディスクリプション・フレームワーク属性(Resource Description Framework attribute、RDFa)を埋め込むために用いられる。図1は実施例1におけるウェブページ処理方法のフローチャートである。図1に示すように、該方法は次のステップを含む。
S101:ウェブページの実体類型(entity type)を識別し、前記実体類型は少なくとも一つのリソース・ディスクリプション・フレームワーク属性(RDFa)に対応し;
S102:前記ウェブページの視覚構造(visual structure)及び前記実体類型に基づいて、前記ウェブページを少なくとも一つの語義セグメント(semantic fragment)に分割し;
S103:予め確定された語義セグメントと、リソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、前記ウェブページ中の各語義セグメントに対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を確定し;
S104:前記ウェブページの各語義セグメントに、その対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を埋め込む。
S102:前記ウェブページの視覚構造(visual structure)及び前記実体類型に基づいて、前記ウェブページを少なくとも一つの語義セグメント(semantic fragment)に分割し;
S103:予め確定された語義セグメントと、リソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、前記ウェブページ中の各語義セグメントに対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を確定し;
S104:前記ウェブページの各語義セグメントに、その対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を埋め込む。
本実施例では、ステップS103中の語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との間の対応関係は、ウェブページ検索により得られた訓練ウェブページに基づいて確定されたものであり、人工注釈の訓練ウェブページに基づいて確定されたものではないため、本実施例では、間接教師ありの方法を採用して上述の対応関係を構築し、予め訓練ウェブページに対して人工注釈を行う必要がなく、これにより、時間及び人力を節約することができ、且つ良好な拡張性も有する。
本実施例では、実体ウェブページとは、該ウェブページ内容が1類型にのみ属する実体の関連内容を記述するものを指し、例えば、該実体ウェブページの内容は、ある人物のみの関連内容、ある建築物のみの連内容、ある会社のみの関連内容、又は、ある芸術品のみの関連内容などを記述し、そのうち、人物、建築物、会社又は芸術品などは、該実体ウェブページの実体類型である。
本実施例では、各実体類型は、少なくとも一つのリソース・ディスクリプション・フレームワーク属性(RDFa)に対応し、該リソース・ディスクリプション・フレームワーク属性(RDFa)は、実体類型を更に記述するために用いられ、例えば、実体類型が人物である時に、その対応するリソース・ディスクリプション・フレームワーク属性(RDFa)は、例えば、該人物の生年月日、学歴、職務経歴及び/又は住所などを含んでも良く、そのうち、“生年月日”、“学歴”、“職務経歴”及び“住所”などの単語は、リソース・ディスクリプション・フレームワーク属性(RDFa)の属性名称を記述するために用いられても良く、且つ、上述の生年月日、学歴、職務経歴及び/又は住所の具体的な内容は、対応するリソース・ディスクリプション・フレームワーク属性(RDFa)の属性値である。
従来の知識ベース(knowledge base)では、例えば、Freebase又はDBPediaなどのオントロジー(ontology)では、各ウェブページは特定の実体類型を有し、そのうち、Freebase中のウェブページのtopicは実体類型であり、DBPedia中のウェブページのconceptは実体類型であり、また、異なる実体類型のリソース・ディスクリプション・フレームワーク属性(RDFa)及び/又はリソース・ディスクリプション・フレームワーク属性(RDFa)のウェブページ中の組織形式は異なっても良く、例えば、人物及び会社が含むソース・ディスクリプション・フレームワーク属性(RDFa)は異なっても良い。
本実施例では、オントロジーにより、実体類型に対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を規定しても良く、言い換えると、異なるオントロジーでは、同じ実体類型は、異なる一組のリソース・ディスクリプション・フレームワーク属性(RDFa)に対応することができる。例えば、実体類型“人物”については、オントロジーであるDBPediaでは、該実体類型に対応するリソース・ディスクリプション・フレームワーク属性(RDFa)が“生年月日”及び“職務経歴”であるなどを規定しており;オントロジーであるFreebaseでは、該実体類型に対応するリソース・ディスクリプション・フレームワーク属性(RDFa)が“生年月日”、“職務経歴”、及び“結婚状況”であるなどを規定している。本実施例では、各ウェブページは、3要素集合である<S、P、O>と表されても良く、そのうち、S、P、Oはそれぞれ該ウェブページの主語、述語、目的語である。従来の知識ベース(knowledge base)中のある3要素集合に関するウェブページについて言えば、主語Sは、該ウェブページの実体類型に対応し、述語Pは、複数あっても良く、それぞれ、該実体類型が含むリソース・ディスクリプション・フレームワーク属性(RDFa)に対応し、目的語Oは、リソース・ディスクリプション・フレームワーク属性(RDFa)の値を表す。
本実施例のS101では、複数の方法を採用してウェブページの実体類型を識別することができる。例えば、従来の知識ベース中のウェブページ及びその実体類型に基づいて分類器を構築し、そして、該分類器を用いてウェブページに対して分類を行うことで、該ウェブページの実体類型を識別することができ、そのうち、分類器を構築する具体的な方法については、従来技術を参照することができるため、本実施例では詳しい説明を省略する。
本実施例のS102では、ウェブページの視覚構造及び該ウェブページの実体類型中のリソース・ディスクリプション・フレームワーク属性(RDFa)に対応する述語に基づいて、該ウェブページを少なくとも一つの語義セグメントに分割することができる。該語義セグメントは、該ウェブページ中の相互に分離するブロック(block)であり、各語義セグメントは、単一の語義情報を有し、例えば、実体類型が人物であるウェブページ上では、ある語義セグメントは、人物の職務経歴を記述し、ある語義セグメントは、人物の論文発表状況を記述する。
図2は実施例1における実体ウェブページを示す図であり、そのうち、該ウェブページ200の実体類型は人物であり、語義セグメント201-204はそれぞれそのリソース・ディスクリプション・フレームワーク属性(RDFa)に対応し、“王**”は、該ウェブページの主語Sであり、“生年月日”、“学歴”、“職務経歴”及び“住所”などの単語は、該ウェブページの述語Pであり、異なるリソース・ディスクリプション・フレームワーク属性(RDFa)に対応しても良く、その具体的な内容は、目的語Oであり、リソース・ディスクリプション・フレームワーク属性(RDFa)の属性値でもある。
本実施例では、該視覚構造は、例えば、ウェブページのドキュメント・オブジェクト・モデル・ツリー(Document Object Model Tree、DOM Tree)構造であっても良い。以下の説明ではこの樹状構造を例とするが、本実施例ではこれに限定されず、他の構造を採用しても良い。
図3は実施例1におけるウェブページを語義セグメントに分割する方法のフローチャートであり、図3に示すように、該方法は次のステップを含む。
S301:該ウェブページ中のトリガーワード(trigger word)を識別し;
S302:該トリガーワードが該ウェブページの樹状構造に位置する第一ノードの位置、及び、該樹状構造中の該第一ノードと同一レベルに位置する第二ノードの位置に基づいて、該ウェブページを少なくとも一つの語義セグメントに分割する。
S302:該トリガーワードが該ウェブページの樹状構造に位置する第一ノードの位置、及び、該樹状構造中の該第一ノードと同一レベルに位置する第二ノードの位置に基づいて、該ウェブページを少なくとも一つの語義セグメントに分割する。
本実施例では、トリガーワードは、リソース・ディスクリプション・フレームワーク属性(RDFa)の属性名称を記述し、且つ、リソース・ディスクリプション・フレームワーク属性の属性値を導くために用いられても良く、例えば、図2に示す単語である“学歴”は、一つのトリガーワードである。
図4は本実施例1におけるウェブページの樹状構造を示す図であり、図2の実体ウェブページに対応する。図4に示すように、該ウェブページの樹状構造は、複数レベルのノードを有し、そのうち、ノード4011-4014は同一レベルに位置し、ノード4021-4024は4014の子ノードであり、4025及び4026は4011の子ノードであり、4031-4033は4026の子ノードである。
本実施例のS301では、ノード4011に対応する“職務経歴”をウェブページ中のトリガーワードとして識別した時に、ノード4011は第一ノードであり、ノード4011と同一レベルに位置するノード4012、4013及び4014は第二ノードである。
本実施例の上述のステップS302では、第一ノード及び第二ノードを分割のアンカーポイントとし、該ウェブページを4個の語義セグメントに分割し、それぞれは、図2の201-204に対応する。なお、アンカーポイントに基づいてウェブページを分割する具体的な方法については、従来技術を参照することができるため、本実施例では詳しい説明を省略する。
図5は本実施例1におけるトリガーワードを識別する方法のフローチャートであり、図5に示すように、該方法は次のステップを含んでも良い。
S501:実体類型中のリソース・ディスクリプション・フレームワーク属性(RDFa)に対応する述語に基づいて、該述語を含むテキストセグメントを抽出し;
S502:該述語を含むテキストセグメントのうちから、前記述語を前記トリガーワードとするテキストセグメントを識別する。
S502:該述語を含むテキストセグメントのうちから、前記述語を前記トリガーワードとするテキストセグメントを識別する。
上述のS501では、該ウェブページの実体類型のリソース・ディスクリプション・フレームワーク属性(RDFa)に対応する複数の述語のうちの一つの述語を抽出し、該ウェブページのうちから該述語を含む全てのテキストセグメントを抽出し、テキストセグメントの集合を得ることができ、例えば、述語“職務経歴”を含むテキストセグメントを抽出しても良く、例えば、図2の“職務経歴”のうちのテキストセグメントを抽出しても良く、図2の“学歴”のうちの大学時代に関するテキストセグメントである“……、学生会に勤め、学生‘職務経歴’がある”を抽出しても良い。
上述のS502では、S501で得たテキストセグメントの集合から、該述語をトリガーワードとするテキストセグメントを識別し、そして、該トリガーワードが該ウェブページの樹状構造に位置するノードを確定する。
本実施例では、例えば、従来のマシン学習アルゴリズムにより構築された分類器を用いて、トリガーワードを識別することができる。該分類器を構築する方法については、従来技術を参照することができ、例えば、トリガーワードの特徴に基づいて該分類器を形成しても良く、該トリガーワードの特徴は、例えば、トリガーワードとしての述語が所在するテキストセグメントの長さ、トリガーワードとしての述語が所在するノードの子ノードの個数、及び、子ノードがテキスト領域を含むか、子ノードにより限定されているテキスト領域が属性値を記述する言葉を含むかなどを含んでも良い。
例えば、図2の場合、“職務経歴”の欄における“職務経歴”という単語は、トリガーワードとして識別することができるが、“学歴”の欄に出現する“職務経歴”は、トリガーワードとして識別することができない。
本実施例のS102では、実体ウェブページを語義セグメントに分割する時に、該ウェブページの視覚構造のみならず、該ウェブページの述語も考慮しているので、より正確に語義セグメントへの分割を行うことができる。
本実施例のS103では、予め確定された語義セグメントと、リソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、該ウェブページ中の各語義セグメントに対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を確定する。
本実施例のS104では、確定されたリソース・ディスクリプション・フレームワーク属性(RDFa)、該ウェブページの実体類型、及び主語を含むテキストなどを合成することで、ハイパーテキスト・マークアップ・ランゲージ(HTML)を生成し、該ウェブページの原ハイパーテキスト・マークアップ・ランゲージ(HTML)ウェブページに埋め込むことができる。
本実施例では、ステップS103中の、予め確定された語義セグメントと、リソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係は、ウェブページ検索により得られた訓練ウェブページに基づいて確定することができる。
図6は実施例1における予め語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を確定する方法のフローチャートである。図6に示すように、該方法は次のステップを含んでも良い。
S601:知識ベース中の主語に関するウェブページを検索により取得し、訓練ウェブページとし;
S602:各訓練ウェブページの実体類型を識別し、また、各訓練ウェブページを少なくとも一つの語義セグメントに分割し;
S603:全ての訓練ウェブページについての語義セグメントの分割結果に基づいて、前記語義セグメントと前記語義セグメントに含まれる述語との対応関係を生成し;
S604:前記語義セグメントと前記述語との対応関係、及び、述語とリソース・ディスクリプション・フレームワーク属性(RDFa)と対応関係に基づいて、語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を生成する。
S602:各訓練ウェブページの実体類型を識別し、また、各訓練ウェブページを少なくとも一つの語義セグメントに分割し;
S603:全ての訓練ウェブページについての語義セグメントの分割結果に基づいて、前記語義セグメントと前記語義セグメントに含まれる述語との対応関係を生成し;
S604:前記語義セグメントと前記述語との対応関係、及び、述語とリソース・ディスクリプション・フレームワーク属性(RDFa)と対応関係に基づいて、語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を生成する。
上述のS601では、知識ベース中の任意の一つの主語Sについて、インターネットにおける全てのウェブページから、該主語Sに関するウェブページを検索により取得し、訓練ウェブページとすることができる。
図7は実施例1における訓練ウェブページの検索方法のフローチャートであり、図7に示すように、該方法は次のステップを含んでも良い。
S701:該主語に関する検索用のキーワード集合を生成し;
S702:該キーワード集合に基づいて検索を行い、検索ウェブページ集合を取得し;
S703:該検索ウェブページ集合のうちのノイズウェブページをフィルタリングし、前記訓練ウェブページを得る。
S702:該キーワード集合に基づいて検索を行い、検索ウェブページ集合を取得し;
S703:該検索ウェブページ集合のうちのノイズウェブページをフィルタリングし、前記訓練ウェブページを得る。
本実施例のS701では、知識ベースのウェブページから、該主語Sを含む3要素集合<S、P、O>を抽出し、該3要素集合に基づいてキーワード集合を生成しても良く、そのうち、各キーワードは、該主語S及び任意のN個の異なる述語Pを含んでも良く、Nは自然数である。
本実施例のS702では、サーチエンジンを利用し、キーワード集合に基づいて、インターネットにおける全てのウェブページ又は一部のウェブページに対して検索を行い、検索ウェブページ集合を得ることができる。そのうち、各キーワードに関して、M個の最相関の検索ウェブページを保留することができ、Mは自然数である。
本実施例のS703では、ウェブページの特徴に基づいて量化の特徴関数を設定し、また、マシン学習アルゴリズムと併せて、ノイズウェブページをフィルタリングすることができる。そのうち、該ウェブページの特徴は、例えば、ウェブページのトップに主語が言及されているか、ウェブページに主語に関する述語についての言及があるか、ウェブページに主語に関する目的語についての言及があるか、及び、ウェブページに含まれている知識ベース中の完全な3要素集合の個数などを含んでも良い。本実施例では、ノイズウェブページをフィルタリングするアルゴリズムは、例えば、ホームページ識別、多義除去などの従来のアルゴリズムであっても良いが、本実施例ではこれに限定されず、他のアルゴリズムを採用しても良い。
ステップS703でフィルタリングを行った後に残されたウェブページは、S602-S604に用いられる訓練ウェブページとすることができる。
S602では、各訓練ウェブページの実体類型を識別し、そして、語義セグメントに分割し、なお、具体的な実体類型の識別方法及び語義セグメントの分割方法は上述のS101及びS102についての説明を参照することができるため、ここでは重複説明を省略する。
S603では、各語義セグメント中の述語を抽出し、一連の<述語,述語が所在する語義セグメントの特徴語>の2値対(ペア)を形成し、そして、上述の一連の<述語,述語が所在する語義セグメントの特徴語>の2値対に基づいて、特定の述語を指示する分類器を形成することができ、即ち、語義セグメントと該語義セグメント中の述語との対応関係を生成することができる。
S604では、S603で生成した語義セグメントと述語との対応関係、及び、述語とリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を生成することができる。
本実施例では、述語とリソース・ディスクリプション・フレームワーク属性(RDFa)のとの対応関係は予め定義されても良く、例えば、知識ベース中のウェブページに基づいて予め定義されても良い。
本実施例では、ウェブページ検索により得られた訓練ウェブページに基づいて、語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を確定し、そして、該対応関係に基づいて、実体ウェブページ中の各語義片のリソース・ディスクリプション・フレームワーク属性(RDFa)を確定し、これにより、訓練ウェブページに対して予め人工注釈を行わなくても、実体ウェブページに対して正確にRDFa語義注釈を行うことができる。よって、時間及び人力を節約することができ、且つ、良好な拡張性も有し、また、ウェブページの視覚構造及び該ウェブページの述語に基づいて、実体ウェブページを語義セグメントに分割する時に、より正確に語義セグメントに分割することができる。
実施例2はウェブページ処理装置を提供し、該装置は、実体ウェブページにリソース・ディスクリプション・フレームワーク属性を埋め込むために用いられ、実施例1におけるウェブページ処理方法に対応する。
図8は実施例2におけるウェブページ処理装置の構成図である。図8に示すように、該ウェブページ処理装置800は第一識別ユニット801、第一分割ユニット802、第一確定ユニット803、及び埋め込みユニット804を含む。
第一識別ユニット801は、ウェブページの実体類型(entity type)を識別し;第一分割ユニット802は、該ウェブページの視覚構造(visual structure)及び実体類型に基づいて、該ウェブページを少なくとも一つの語義セグメント(semantic fragment)に分割し;第一確定ユニット803は、予め確定された語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、該ウェブページ中の各語義セグメントに対応する前記実体類型中のリソース・ディスクリプション・フレームワーク属性(RDFa)を確定し、そのうち、前記対応関係は、ウェブページ検索により得られた訓練ウェブページに基づいて確定され;埋め込みユニット804は前記ウェブページの各語義セグメントに、その対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を埋め込む。
図9は実施例2における第一分割ユニット802の構成図である。図9に示すように、該第一分割ユニット802は第二識別ユニット901及び第二分割ユニット902を含んでも良く、そのうち、第二識別ユニット901は前記ウェブページ中のトリガーワードを識別し;第二分割ユニット902は、該トリガーワードが前記ウェブページの樹状構造に所在する第一ノードの位置、及び、前記樹状構造中の前記第一ノードと同一レベルに位置する第二ノードの位置に基づいて、前記ウェブページを少なくとも一つの語義セグメントに分割する。
図10は実施例2における第二識別ユニットの構成図である。図10に示すように、該第二識別ユニット901は抽出ユニット1001及び第三識別ユニット1002を含んでも良く、そのうち、抽出ユニット1001は、実体類型中のリソース・ディスクリプション・フレームワーク属性(RDFa)に対応する述語に基づいて、該述語を含むテキストセグメントを抽出し;第三識別ユニット1002は、該述語を含むテキストセグメントから、前記述語を前記トリガーワードとするテキストセグメントを抽出する。
本実施例では、図8に示すように、該ウェブページ処理装置800は更に第二確定ユニット805を含んでも良く、それは、語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を確定するために用いられる。
図11は本実施例2における第二確定ユニットの構成図である。図11に示すように、該第二確定ユニット805は検索ユニット1101、第四識別ユニット1102、第三分割ユニット1103、第一生成ユニット1104及び第二生成ユニット1105を含んでも良い。
検索ユニット1101は、知識ベース中の主語に関するウェブページを検索より取得し、訓練ウェブページとし;第四識別ユニット1102は、各訓練ウェブページの実体類型を識別し;第三分割ユニット1103は、各訓練ウェブページを少なくとも一つの語義セグメントに分割し;第一生成ユニット1104は、全ての訓練ウェブページの語義セグメントの分割結果に基づいて、前記語義セグメントと前記語義セグメント中の述語との対応関係を生成し;第二生成ユニット1105は、前記語義セグメントと前記述語との対応関係、及び、述語とリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を生成する。
本実施例では、第四識別ユニット1102は第一識別ユニット801と同じ構造及び機能を有しても良いので、第四識別ユニット1102を単独で設置せず、第一識別ユニット801を用いて第四識別ユニット1102の機能を実現することもできる。これにより、該装置の構造をより簡単にすることができる。
本実施例では、第三分割ユニット1103は第一分割ユニット802と同じ構造及び機能を有しても良いので、第三分割ユニット1103を単独で設置せず、第一分割ユニット802を用いて第三分割ユニット1103の機能を実現することもできる。これにより、該装置の構造をより簡単にすることができる。
図12は本実施例2における検索ユニットの構成図である。図12に示すように、該検索ユニット1101は第三生成ユニット1201、検索サブユニット1202、及びフィルタリングユニット1203を含んでも良く、そのうち、第三生成ユニット1201は、主語に関するキーワード集合を生成し;検索サブユニット1202は、前記キーワード集合に基づいて検索を行い、検索ウェブページ集合を取得し;フィルタリングユニット1203は、前記検索ウェブページ集合のうちのノイズウェブページをフィルタリングし、前記訓練ウェブページを得る。
本実施例では、該ウェブページ処理装置の各ユニットの説明について、実施例1中の各ステップについての説明を参照することができるため、本実施例では詳しい説明を省略する。
本実施例のウェブページ処理装置により、ウェブページ検索により得られた訓練ウェブページに基づいて、語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を取得し、そして、該対応関係に基づいて、実体ウェブページ中の各語義セグメントのリソース・ディスクリプション・フレームワーク属性(RDFa)を確定することができ、これにより、訓練ウェブページに対して前もって人工注釈を行わなくても、実体ウェブページに対して正確にRDFa語義注釈を行うことができる。よって、時間及び人力を節約することができ、且つ良好な拡張性も有し、また、ウェブページの視覚構造及び該ウェブページの述語に基づいて、実体ウェブページを語義セグメントに分割する時に、語義セグメントへの分割をより正確に行うことができる。
本発明の実施例は更にコンピュータ可読プログラムを提供し、そのうち、情報処理装置又はユーザ装置中で前記プログラムを実行する時に、前記プログラムは、コンピュータに、前記情報処理装置又はユーザ装置中で実施例1に記載のウェブページ処理方法を実行させる。
本発明の実施例は更にコンピュータ可読プログラムを記憶した記憶媒体を提供し、そのうち、前記コンピュータ可読プログラムは、コンピュータに、情報処理装置又はユーザ装置中で実施例1に記載のウェブページ処理方法を実行させる。
本発明の実施例は更にコンピュータ可読プログラム、そのうち、情報処理装置又は基地局中で前記プログラムを実行する時に、前記プログラムは、コンピュータに、前記情報処理装置又は基地局中で実施例1に記載のウェブページ処理方法を実行させる。
本発明の実施例は更にコンピュータ可読プログラムを記憶した記憶媒体を提供し、そのうち、前記コンピュータ可読プログラムは、コンピュータに、情報処理装置又は基地局中で実施例1に記載のウェブページ処理方法を実行させる。
また、本発明の実施例による装置及び方法などは、ソフトウェアにより実現されても良く、ハードウェアにより実現されてもよく、ハードウェア及びソフトウェアの組み合わせにより実現されても良い。また、本発明はこのようなコンピュータ可読プログラムにも関し、即ち、前記プログラムは、ロジカル部品により実行されるときに、前記ロジカル部品に、上述の装置又は構成要素を実現させることができ、又は、前記ロジカル部品に、上述の方法又はそのステップを実現させることもできる。さらに、本発明は上述のプログラムを記憶するための記憶媒体、例えば、ハードディスク、磁気ディスク、光ディスク、DVD、フラッシュメモリにも関する。
また、以上の実施例の実施方式に関し、更に以下の付記を開示する。
(付記1)
実体ウェブページにリソース・ディスクリプション・フレームワーク属性(Resource Description Framework attribute、RDFa)を埋め込むためのウェブページ処理装置であって、
ウェブページの実体類型(entity type)を識別するための第一識別ユニットであって、前記実体類型は、少なくとも一つのリソース・ディスクリプション・フレームワーク属性(RDFa)に対応する、第一識別ユニット;
前記ウェブページの視覚構造(visual structure)及び前記実体類型に基づいて、前記ウェブページを少なくとも一つの語義セグメント(semantic fragment)に分割するための第一分割ユニット;
予め確定された語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、前記ウェブページ中の各語義セグメントに対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を確定するための第一確定ユニットであって、前記対応関係は、ウェブページ検索により得られた訓練ウェブページに基づいて確定されたものである、第一確定ユニット;及び
前記ウェブページの各語義セグメントに、対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を埋め込むための埋め込みユニットを含む、装置。
実体ウェブページにリソース・ディスクリプション・フレームワーク属性(Resource Description Framework attribute、RDFa)を埋め込むためのウェブページ処理装置であって、
ウェブページの実体類型(entity type)を識別するための第一識別ユニットであって、前記実体類型は、少なくとも一つのリソース・ディスクリプション・フレームワーク属性(RDFa)に対応する、第一識別ユニット;
前記ウェブページの視覚構造(visual structure)及び前記実体類型に基づいて、前記ウェブページを少なくとも一つの語義セグメント(semantic fragment)に分割するための第一分割ユニット;
予め確定された語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、前記ウェブページ中の各語義セグメントに対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を確定するための第一確定ユニットであって、前記対応関係は、ウェブページ検索により得られた訓練ウェブページに基づいて確定されたものである、第一確定ユニット;及び
前記ウェブページの各語義セグメントに、対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を埋め込むための埋め込みユニットを含む、装置。
(付記2)
付記1に記載のウェブページ処理装置であって、
前記第一分割ユニットは、
前記ウェブページ中のトリガーワードを識別するための第二識別ユニット;及び
該トリガーワードが前記ウェブページの樹状構造に所在する第一ノードの位置、及び、前記樹状構造中の前記第一ノードと同一レベルに位置する第二ノードの位置に基づいて、前記ウェブページを少なくとも一つの語義セグメントに分割するための第二分割ユニットを含み、
前記トリガーワードは、前記リソース・ディスクリプション・フレームワーク属性の属性名称を記述し、且つ、前記リソース・ディスクリプション・フレームワーク属性の属性値を導くために用いられる、装置。
付記1に記載のウェブページ処理装置であって、
前記第一分割ユニットは、
前記ウェブページ中のトリガーワードを識別するための第二識別ユニット;及び
該トリガーワードが前記ウェブページの樹状構造に所在する第一ノードの位置、及び、前記樹状構造中の前記第一ノードと同一レベルに位置する第二ノードの位置に基づいて、前記ウェブページを少なくとも一つの語義セグメントに分割するための第二分割ユニットを含み、
前記トリガーワードは、前記リソース・ディスクリプション・フレームワーク属性の属性名称を記述し、且つ、前記リソース・ディスクリプション・フレームワーク属性の属性値を導くために用いられる、装置。
(付記3)
付記2に記載のウェブページ処理装置であって、
前記第二識別ユニットは、
前記実体類型のリソース・ディスクリプション・フレームワーク属性(RDFa)に対応する述語に基づいて、該述語を含むテキストセグメントを抽出するための抽出ユニット;及び
該述語を含むテキストセグメントから、前記述語を前記トリガーワードとするテキストセグメントを識別するための第三識別ユニットを含む、装置。
付記2に記載のウェブページ処理装置であって、
前記第二識別ユニットは、
前記実体類型のリソース・ディスクリプション・フレームワーク属性(RDFa)に対応する述語に基づいて、該述語を含むテキストセグメントを抽出するための抽出ユニット;及び
該述語を含むテキストセグメントから、前記述語を前記トリガーワードとするテキストセグメントを識別するための第三識別ユニットを含む、装置。
(付記4)
付記1に記載のウェブページ処理装置であって、
更に第二確定ユニットを含み、
前記第二確定ユニットは、語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を確定するために用いられる、装置。
付記1に記載のウェブページ処理装置であって、
更に第二確定ユニットを含み、
前記第二確定ユニットは、語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を確定するために用いられる、装置。
(付記5)
付記4に記載のウェブページ処理装置であって、
前記第二確定ユニットは、
知識ベース中の主語に関するウェブページを検索により取得し、訓練ウェブページとするための検索ユニット;
各訓練ウェブページの実体類型を識別するための第四識別ユニット;
各訓練ウェブページを少なくとも一つの語義セグメントに分割するための第三分割ユニット;
全ての訓練ウェブページの語義セグメントの分割結果に基づいて、前記語義セグメントと前記語義セグメントに含まれている述語との対応関係を生成するための第一生成ユニット;及び
前記語義セグメントと前記述語との対応関係、及び、述語とリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を生成するための第二生成ユニットを含む、装置。
付記4に記載のウェブページ処理装置であって、
前記第二確定ユニットは、
知識ベース中の主語に関するウェブページを検索により取得し、訓練ウェブページとするための検索ユニット;
各訓練ウェブページの実体類型を識別するための第四識別ユニット;
各訓練ウェブページを少なくとも一つの語義セグメントに分割するための第三分割ユニット;
全ての訓練ウェブページの語義セグメントの分割結果に基づいて、前記語義セグメントと前記語義セグメントに含まれている述語との対応関係を生成するための第一生成ユニット;及び
前記語義セグメントと前記述語との対応関係、及び、述語とリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を生成するための第二生成ユニットを含む、装置。
(付記6)
付記5に記載のウェブページ処理装置であって、
前記検索ユニットは、
前記主語に関する検索用のキーワード集合を生成するための第三生成ユニット;
前記キーワード集合に基づいて検索を行い、検索ウェブページ集合を得るための検索サブユニット;及び
前記検索ウェブページ集合のうちのノイズウェブページをフィルタリングし、前記訓練ウェブページを得るためのフィルタリングユニットを含む、装置。
付記5に記載のウェブページ処理装置であって、
前記検索ユニットは、
前記主語に関する検索用のキーワード集合を生成するための第三生成ユニット;
前記キーワード集合に基づいて検索を行い、検索ウェブページ集合を得るための検索サブユニット;及び
前記検索ウェブページ集合のうちのノイズウェブページをフィルタリングし、前記訓練ウェブページを得るためのフィルタリングユニットを含む、装置。
(付記7)
実体ウェブページにリソース・ディスクリプション・フレームワーク属性(Resource Description Framework attribute、RDFa)を埋め込むためのウェブページ処理方法であって、
ウェブページの実体類型(entity type)を識別し、前記実体類型は、少なくとも一つのリソース・ディスクリプション・フレームワーク属性(RDFa)に対応し;
前記ウェブページの視覚構造(visual structure)及び前記実体類型に基づいて、前記ウェブページを少なくとも一つの語義セグメント(semantic fragment)に分割し;
予め確定された語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、前記ウェブページ中の各語義セグメントに対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を確定し、前記対応関係は、ウェブページ検索により得られた訓練ウェブページに基づいて確定されたものであり;及び
前記ウェブページの各語義セグメントに、対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を埋め込むことを含む、方法。
実体ウェブページにリソース・ディスクリプション・フレームワーク属性(Resource Description Framework attribute、RDFa)を埋め込むためのウェブページ処理方法であって、
ウェブページの実体類型(entity type)を識別し、前記実体類型は、少なくとも一つのリソース・ディスクリプション・フレームワーク属性(RDFa)に対応し;
前記ウェブページの視覚構造(visual structure)及び前記実体類型に基づいて、前記ウェブページを少なくとも一つの語義セグメント(semantic fragment)に分割し;
予め確定された語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、前記ウェブページ中の各語義セグメントに対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を確定し、前記対応関係は、ウェブページ検索により得られた訓練ウェブページに基づいて確定されたものであり;及び
前記ウェブページの各語義セグメントに、対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を埋め込むことを含む、方法。
(付記8)
付記7に記載のウェブページ処理方法であって、
前記ウェブページを少なくとも一つの語義セグメントに分割することは、
前記ウェブページ中のトリガーワードを識別し;及び
該トリガーワードが前記ウェブページの樹状構造に所在する第一ノードの位置、及び、前記樹状構造中の前記第一ノードと同一レベルに位置する第二ノードの位置に基づいて、前記ウェブページを少なくとも一つの語義セグメントに分割することを含み、
前記トリガーワードは、前記リソース・ディスクリプション・フレームワーク属性の属性名称を記述し、且つ、前記リソース・ディスクリプション・フレームワーク属性の属性値を導くために用いられる、方法。
付記7に記載のウェブページ処理方法であって、
前記ウェブページを少なくとも一つの語義セグメントに分割することは、
前記ウェブページ中のトリガーワードを識別し;及び
該トリガーワードが前記ウェブページの樹状構造に所在する第一ノードの位置、及び、前記樹状構造中の前記第一ノードと同一レベルに位置する第二ノードの位置に基づいて、前記ウェブページを少なくとも一つの語義セグメントに分割することを含み、
前記トリガーワードは、前記リソース・ディスクリプション・フレームワーク属性の属性名称を記述し、且つ、前記リソース・ディスクリプション・フレームワーク属性の属性値を導くために用いられる、方法。
(付記9)
付記8に記載のウェブページ処理方法であって、
前記ウェブページ中のトリガーワードを識別することは、
前記実体類型のリソース・ディスクリプション・フレームワーク属性(RDFa)に対応する述語に基づいて、該述語を含むテキストセグメントを抽出し;及び
該述語を含むテキストセグメントから、前記述語を前記トリガーワードとするテキストセグメントを識別することを含む、方法。
付記8に記載のウェブページ処理方法であって、
前記ウェブページ中のトリガーワードを識別することは、
前記実体類型のリソース・ディスクリプション・フレームワーク属性(RDFa)に対応する述語に基づいて、該述語を含むテキストセグメントを抽出し;及び
該述語を含むテキストセグメントから、前記述語を前記トリガーワードとするテキストセグメントを識別することを含む、方法。
(付記10)
付記7に記載のウェブページ処理方法であって、
予め語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を確定することは、
知識ベース中の主語に関するウェブページを検索により取得して、訓練ウェブページとし;
各訓練ウェブページの実体類型を識別し、また、各訓練ウェブページを少なくとも一つの語義セグメントに分割し;
全ての訓練ウェブページの語義セグメントの分割結果に基づいて、前記語義セグメントと前記語義セグメントに含まれている述語との対応関係を生成し;及び
前記語義セグメントと前記述語との対応関係、及び、述語とリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を生成することを含む、方法。
付記7に記載のウェブページ処理方法であって、
予め語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を確定することは、
知識ベース中の主語に関するウェブページを検索により取得して、訓練ウェブページとし;
各訓練ウェブページの実体類型を識別し、また、各訓練ウェブページを少なくとも一つの語義セグメントに分割し;
全ての訓練ウェブページの語義セグメントの分割結果に基づいて、前記語義セグメントと前記語義セグメントに含まれている述語との対応関係を生成し;及び
前記語義セグメントと前記述語との対応関係、及び、述語とリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を生成することを含む、方法。
(付記11)
付記10に記載のウェブページ処理方法であって、
知識ベース中の主語に関するウェブページを検索により所得して訓練ウェブページとすることは、
前記主語に関する検索用のキーワード集合を生成し;
前記キーワード集合に基づいて検索を行い、検索ウェブページ集合を取得し;及び
前記検索ウェブページ集合のうちのノイズウェブページをフィルタリングし、前記訓練ウェブページを得ることを含む、方法。
付記10に記載のウェブページ処理方法であって、
知識ベース中の主語に関するウェブページを検索により所得して訓練ウェブページとすることは、
前記主語に関する検索用のキーワード集合を生成し;
前記キーワード集合に基づいて検索を行い、検索ウェブページ集合を取得し;及び
前記検索ウェブページ集合のうちのノイズウェブページをフィルタリングし、前記訓練ウェブページを得ることを含む、方法。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。
Claims (11)
- 実体ウェブページにリソース・ディスクリプション・フレームワーク属性(Resource Description Framework attribute、RDFa)を埋め込むためのウェブページ処理装置であって、
ウェブページの実体類型(entity type)を識別するための第一識別ユニットであって、前記実体類型は、少なくとも一つのリソース・ディスクリプション・フレームワーク属性(RDFa)に対応する、第一識別ユニット;
前記ウェブページの視覚構造(visual structure)及び前記実体類型に基づいて、前記ウェブページを少なくとも一つの語義セグメント(semantic fragment)に分割するための第一分割ユニット;
予め確定された語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、前記ウェブページ中の各語義セグメントに対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を確定するための第一確定ユニットであって、前記対応関係は、ウェブページ検索により得られた訓練ウェブページに基づいて確定されたものである、第一確定ユニット;及び
前記ウェブページの各語義セグメントに、対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を埋め込むための埋め込みユニットを含む、装置。 - 請求項1に記載のウェブページ処理装置であって、
前記第一分割ユニットは、
前記ウェブページ中のトリガーワードを識別するための第二識別ユニットであって、前記トリガーワードは、前記リソース・ディスクリプション・フレームワーク属性の属性名称を記述し、且つ、前記リソース・ディスクリプション・フレームワーク属性の属性値を導くために用いられる、第二識別ユニット;及び
前記トリガーワードが前記ウェブページの樹状構造に所在する第一ノードの位置、及び、前記樹状構造中の前記第一ノードと同一レベルに位置する第二ノードの位置に基づいて、前記ウェブページを少なくとも一つの語義セグメントに分割するための第二分割ユニットを含む、装置。 - 請求項2に記載のウェブページ処理装置であって、
前記第二識別ユニットは、
前記実体類型のリソース・ディスクリプション・フレームワーク属性(RDFa)に対応する述語に基づいて、前記述語を含むテキストセグメントを抽出するための抽出ユニット;及び
前記述語を含むテキストセグメントから、前記述語を前記トリガーワードとするテキストセグメントを識別するための第三識別ユニットを含む、装置。 - 請求項1に記載のウェブページ処理装置であって、
第二確定ユニットを更に含み、
前記第二確定ユニットは、語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を確定するために用いられる、装置。 - 請求項4に記載のウェブページ処理装置であって、
前記第二確定ユニットは、
知識ベース中の主語に関するウェブページを検索により取得して訓練ウェブページとするための検索ユニット;
各訓練ウェブページの実体類型を識別するための第四識別ユニット;
各訓練ウェブページを少なくとも一つの語義セグメントに分割するための第三分割ユニット;
全ての訓練ウェブページの語義セグメントの分割結果に基づいて、前記語義セグメントと前記語義セグメントに含まれている述語との対応関係を生成するための第一生成ユニット;及び
前記語義セグメントと前記述語との対応関係、及び、述語とリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を生成するための第二生成ユニットを含む、装置。 - 請求項5に記載のウェブページ処理装置であって、
前記検索ユニットは、
前記主語に関する検索用のキーワード集合を生成するための第三生成ユニット;
前記キーワード集合に基づいて検索を行い、検索ウェブページ集合を得るための検索サブユニット;及び
前記検索ウェブページ集合のうちのノイズウェブページをフィルタリングし、前記訓練ウェブページを得るためのフィルタリングユニットを含む、装置。 - 実体ウェブページにリソース・ディスクリプション・フレームワーク属性(Resource Description Framework attribute、RDFa)を埋め込むためのウェブページ処理方法であって、
ウェブページの実体類型(entity type)を識別し、前記実体類型は、少なくとも一つのリソース・ディスクリプション・フレームワーク属性(RDFa)に対応し;
前記ウェブページの視覚構造(visual structure)及び前記実体類型に基づいて、前記ウェブページを少なくとも一つの語義セグメント(semantic fragment)に分割し;
予め確定された語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、前記ウェブページ中の各語義セグメントに対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を確定し、前記対応関係は、ウェブページ検索により得られた訓練ウェブページに基づいて確定されたものであり;及び
前記ウェブページの各語義セグメントに、対応するリソース・ディスクリプション・フレームワーク属性(RDFa)を埋め込むことを含む、方法。 - 請求項7に記載のウェブページ処理方法であって、
前記ウェブページを少なくとも一つの語義セグメントに分割することは、
前記ウェブページ中のトリガーワードを識別し、前記トリガーワードは、前記リソース・ディスクリプション・フレームワーク属性の属性名称を記述し、且つ、前記リソース・ディスクリプション・フレームワーク属性の属性値を導くために用いれ;及び
前記トリガーワードが前記ウェブページの樹状構造に所在する第一ノードの位置、及び、前記樹状構造中の前記第一ノードと同一レベルに位置する第二ノードの位置に基づいて、前記ウェブページを少なくとも一つの語義セグメントに分割することを含む、方法。 - 請求項8に記載のウェブページ処理方法であって、
前記ウェブページ中のトリガーワードを識別することは、
前記実体類型のリソース・ディスクリプション・フレームワーク属性(RDFa)に対応する述語に基づいて、前記述語を含むテキストセグメントを抽出し;及び
前記述語を含むテキストセグメントから、前記述語を前記トリガーワードとするテキストセグメントを識別することを含む、方法。 - 請求項7に記載のウェブページ処理方法であって、
予め語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を確定することは、
知識ベース中の主語に関するウェブページを検索により取得して訓練ウェブページとし;
各訓練ウェブページの実体類型を識別し、また、各訓練ウェブページを少なくとも一つの語義セグメントに分割し;
全ての訓練ウェブページの語義セグメントの分割結果に基づいて、前記語義セグメントと前記語義セグメントに含まれている述語との対応関係を生成し;及び
前記語義セグメントと前記述語との対応関係、及び、述語とリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係に基づいて、語義セグメントとリソース・ディスクリプション・フレームワーク属性(RDFa)との対応関係を生成することを含む、方法。 - 請求項10に記載のウェブページ処理方法であって、
知識ベース中の主語に関するウェブページを検索により取得して訓練ウェブページとすることは、
前記主語に関する検索用のキーワード集合を生成し;
前記キーワード集合に基づいて検索を行い、検索ウェブページ集合を取得し;及び
前記検索ウェブページ集合のうちのノイズウェブページをフィルタリングし、前記訓練ウェブページを得ることを含む、方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510172386.9A CN106156143A (zh) | 2015-04-13 | 2015-04-13 | 网页处理装置和网页处理方法 |
CN201510172386.9 | 2015-04-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016201112A true JP2016201112A (ja) | 2016-12-01 |
Family
ID=57336692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016078718A Pending JP2016201112A (ja) | 2015-04-13 | 2016-04-11 | ウェブページ処理装置及びウェブページ処理方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2016201112A (ja) |
CN (1) | CN106156143A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175020A (zh) * | 2019-04-10 | 2019-08-27 | 阿里巴巴集团控股有限公司 | 框架属性信息扩展方法和装置、框架加载方法和装置 |
JP2020098596A (ja) * | 2018-12-18 | 2020-06-25 | 富士通株式会社 | ウェブページから情報を抽出する方法、装置及び記憶媒体 |
CN111506844A (zh) * | 2020-04-08 | 2020-08-07 | 聚好看科技股份有限公司 | 页面处理方法、设备及计算机存储介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108694206A (zh) * | 2017-04-11 | 2018-10-23 | 富士通株式会社 | 信息处理方法和装置 |
CN108694208A (zh) * | 2017-04-11 | 2018-10-23 | 富士通株式会社 | 用于构造数据库的方法和装置 |
CN110728148B (zh) * | 2018-06-29 | 2023-07-14 | 富士通株式会社 | 实体关系抽取方法和装置 |
CN109344187B (zh) * | 2018-08-28 | 2021-11-12 | 合肥工业大学 | 一种司法判决书案情信息结构化处理系统 |
CN112989766B (zh) * | 2021-05-11 | 2021-08-03 | 金锐同创(北京)科技股份有限公司 | 文档标注信息的处理方法、装置及终端设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101526898A (zh) * | 2009-04-17 | 2009-09-09 | 武汉大学 | 面向语义Web服务程序设计的语义数据表示和处理方法 |
CN102567314B (zh) * | 2010-12-07 | 2015-03-04 | 中国电信股份有限公司 | 知识查询装置和方法 |
CN102332013A (zh) * | 2011-09-14 | 2012-01-25 | 王楠 | 基于owl的互联网语言本体学习系统 |
CN102779161B (zh) * | 2012-06-14 | 2015-03-04 | 杜小勇 | 基于rdf知识库的语义标注方法 |
CN103970820B (zh) * | 2014-01-23 | 2017-03-08 | 河海大学 | Web多媒体资源开放标注数据的可视化方法及装置 |
CN104239513B (zh) * | 2014-09-16 | 2019-03-08 | 西安电子科技大学 | 一种面向领域数据的语义检索方法 |
-
2015
- 2015-04-13 CN CN201510172386.9A patent/CN106156143A/zh active Pending
-
2016
- 2016-04-11 JP JP2016078718A patent/JP2016201112A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020098596A (ja) * | 2018-12-18 | 2020-06-25 | 富士通株式会社 | ウェブページから情報を抽出する方法、装置及び記憶媒体 |
JP7434867B2 (ja) | 2018-12-18 | 2024-02-21 | 富士通株式会社 | ウェブページから情報を抽出する方法、装置及び記憶媒体 |
CN110175020A (zh) * | 2019-04-10 | 2019-08-27 | 阿里巴巴集团控股有限公司 | 框架属性信息扩展方法和装置、框架加载方法和装置 |
CN110175020B (zh) * | 2019-04-10 | 2023-08-22 | 创新先进技术有限公司 | 框架属性信息扩展方法和装置、框架加载方法和装置 |
CN111506844A (zh) * | 2020-04-08 | 2020-08-07 | 聚好看科技股份有限公司 | 页面处理方法、设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106156143A (zh) | 2016-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016201112A (ja) | ウェブページ処理装置及びウェブページ処理方法 | |
US9542477B2 (en) | Method of automated discovery of topics relatedness | |
JP6954049B2 (ja) | 知識グラフを完成させるための方法および装置 | |
US11886494B2 (en) | Utilizing natural language processing automatically select objects in images | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
WO2018036239A1 (zh) | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 | |
WO2022218186A1 (zh) | 个性化知识图谱的生成方法、装置及计算机设备 | |
US9239875B2 (en) | Method for disambiguated features in unstructured text | |
WO2021073254A1 (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
US10713306B2 (en) | Content pattern based automatic document classification | |
CN102779114B (zh) | 利用自动规则生成的非结构化数据支持 | |
US9224103B1 (en) | Automatic annotation for training and evaluation of semantic analysis engines | |
WO2021134524A1 (zh) | 数据处理方法、装置、电子设备和存储介质 | |
WO2021175009A1 (zh) | 预警事件图谱的构建方法、装置、设备及存储介质 | |
JP2017508214A (ja) | 検索推奨の提供 | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
JP2015505082A (ja) | 情報ドメインに対する自然言語処理モデルの生成 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
WO2020063524A1 (zh) | 一种法律文书的确定方法及系统 | |
CN106815190B (zh) | 一种词语识别方法、装置及服务器 | |
US20150379112A1 (en) | Creating an on-line job function ontology | |
CN106663123B (zh) | 以评论为中心的新闻阅读器 | |
JP2022088540A (ja) | ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体 | |
US20190147109A1 (en) | Methods for performing a search and devices thereof | |
CN112529743B (zh) | 合同要素抽取方法、装置、电子设备及介质 |