JP2020144846A - Method of searching web page and computer-readable storage medium - Google Patents

Method of searching web page and computer-readable storage medium Download PDF

Info

Publication number
JP2020144846A
JP2020144846A JP2020006671A JP2020006671A JP2020144846A JP 2020144846 A JP2020144846 A JP 2020144846A JP 2020006671 A JP2020006671 A JP 2020006671A JP 2020006671 A JP2020006671 A JP 2020006671A JP 2020144846 A JP2020144846 A JP 2020144846A
Authority
JP
Japan
Prior art keywords
web page
search
entity
attribute
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020006671A
Other languages
Japanese (ja)
Inventor
ジョン・ジョォングアン
Zhongguang Zheng
遥 孟
Yao Meng
遥 孟
迎炬 夏
Yingju Xia
迎炬 夏
俊 孫
Shun Son
俊 孫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2020144846A publication Critical patent/JP2020144846A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

To provide a method of searching a web page executed by at least one processor.SOLUTION: The method includes the steps of: receiving a piece of information in which the content of search waiting is limited; recognizing the entity involved in the information to determine the type and attribute of the entity; generating search conditions based on the entity type and attributes; and, searching a data set using the search conditions to acquire a web page address that meets the search conditions. The data set is formed by extracting a web page part that has a predetermined structure from each web page in the web page set, and the search is performed over the web page set.SELECTED DRAWING: Figure 9

Description

本発明は、情報抽出及び情報検索技術に関し、特に、ウェブページ(Web)内容の抽出及びウェブページ内容に対しての検索に関する。 The present invention relates to information extraction and information retrieval technology, and more particularly to extraction of web page (Web) content and search for web page content.

インターネットや固定アクセス装置、移動アクセス端末の迅速な進展に伴い、ウェブページが、情報の取得や情報の作成を行うための主なメディアになっている。しかし、ウェブページの数の激増に伴い、必要な情報を快速且つ正確に取得することが困難である。 With the rapid development of the Internet, fixed-access devices, and mobile access terminals, web pages have become the main medium for acquiring and creating information. However, with the rapid increase in the number of web pages, it is difficult to obtain necessary information quickly and accurately.

ウェブページ情報抽出がウェブページを情報源とする情報抽出であり、即ち、半構造化のWeb文書からの情報抽出である。その核心は、インターネット上で分散している半構造化のHTMLページ中の隠れ情報ポイントを抽出し、より明確な語義を有し且つより構造的な形式で表すことである。これは、ユーザがWeb文書に対してデータのクエリ(query)を行うことや、アプリケーションプログラムがWeb文書におけるデータを直接利用することに非常に便利である。 Web page information extraction is information extraction using a web page as an information source, that is, information extraction from a semi-structured Web document. The core is to extract hidden information points in semi-structured HTML pages that are distributed on the Internet and express them in a clearer sense and more structured format. This is very convenient for users to query data in Web documents and for application programs to directly use data in Web documents.

今のところ、検索エンジン(Search Engine、SE)が知識のサーチ(search)のために用いられる重要なツールである。ユーザが1つのクエリ(Query)を入力すると、SEは、索引から、Queryとマッチしたウェブページ集合を見つけ、並べ替えを行い、そして、ウェブページをユーザにリターン(return)することができる。また、ユーザは、リターンされてきた結果から、欲しがる内容をさらにサーチにより取得することができる。 For now, the Search Engine (SE) is an important tool used for knowledge search. When the user enters a single query, the SE can find the set of web pages that match the query from the index, sort them, and return the web pages to the user. In addition, the user can further search for the desired content from the returned result.

従来のSEがユーザの大部分のニーズを満たすことができるが、ネットワーク資源(リソース)が豊富になるにつれて、ユーザのニーズも増える。幾つかの場合、従来のSEは、このように増加したニーズに応えることができない。例えば、ユーザの欲しがる内容が複数のウェブページに分散しているとき、SEは、ユーザの検索の意図を満足するために、一連のウェブページの集合を見つける必要がある。例えば、ユーザが従来のSEにより“どのような携帯電話のスクリーンが5インチよりも大きいか”、“千代田区にどのような外資系企業があるか”、“機器翻訳分野の専門家が何人くらいいるか”などの質問の答えを得ようとするときに、従来のSEにより得られた1つのみのウェブページにはこれらの質問の答えがすべて含まれることがまれである。 Traditional SEs can meet most of the needs of users, but as network resources become more abundant, so do the needs of users. In some cases, traditional SEs cannot meet this increased need. For example, when the content a user wants is spread across multiple web pages, the SE needs to find a set of web pages to satisfy the user's search intent. For example, users can use conventional SE to find out what kind of mobile phone screen is larger than 5 inches, what kind of foreign-affiliated company is in Chiyoda Ward, and how many experts are in the field of device translation. When trying to get answers to questions such as "is it?", It is rare that only one web page obtained by a traditional SE will contain all the answers to these questions.

上述のような問題を解決するために、本発明は、従来の検索エンジンを改良したウェブページサーチ方法及びコンピュータ可読記憶媒体を提供し、ネットワーク上で分散している情報を統合することで、相対的に完全且つ正確な統合結果を提供することができる。 In order to solve the above-mentioned problems, the present invention provides a web page search method and a computer-readable storage medium that are improved from conventional search engines, and integrates information distributed on a network to make relative information. It is possible to provide a complete and accurate integration result.

本発明の一側面によれば、少なくとも1つの処理器が実行するウェブページサーチ方法が提供され、それは、サーチ待ち内容が限定される情報を受信し;該情報に関わる実体を認識し、実体の種類及び属性を確定し;実体の種類及び属性に基づいてサーチ条件を生成し;及び、サーチ条件を用いてデータ集合に対してサーチを行い、サーチ条件を満足するウェブページアドレスを取得することを含み、そのうち、前記データ集合が、ウェブページ集合における各ウェブページから抽出された所定の構造を有するウェブページ部分により形成され、前記サーチが前記ウェブページ集合に対して行われる。 According to one aspect of the invention, a web page search method performed by at least one processor is provided, which receives information with limited search awaiting content; recognizes the entity involved in that information, and of the entity. Determine the type and attributes; generate search conditions based on the type and attributes of the entity; and search the data set using the search conditions to obtain a web page address that satisfies the search conditions. Including, the data set is formed by web page portions having a predetermined structure extracted from each web page in the web page set, and the search is performed on the web page set.

本発明の他の側面によれば、プログラムを記憶したコンピュータプログラム記憶媒体が提供される。該プログラムは、コンピュータにより実行されるときに、コンピュータに、上述のようなウェブページサーチ方法を実行させる。 According to another aspect of the present invention, a computer program storage medium for storing a program is provided. The program causes the computer to perform the web page search method as described above when executed by the computer.

従来のSEと統合SEとのサーチ結果の比較図である。It is a comparison diagram of the search result of the conventional SE and the integrated SE. 従来のSEを用いて例示的な検索を行う検索結果の一例を示す図である。It is a figure which shows an example of the search result which performs the exemplary search using the conventional SE. 例示的なウェブページにおけるテーブル情報の一例を示す図である。It is a figure which shows an example of the table information in an exemplary web page. 本発明の実施例における統合SEを用いて統合検索を行う方法と、従来のSEを用いて検索を行う方法との比較図である。It is a comparison figure of the method of performing an integrated search using the integrated SE in the Example of this invention, and the method of performing a search using the conventional SE. ウェブページにおけるテーブルのHTML様式の一例を示す図である。It is a figure which shows an example of the HTML style of a table in a web page. 図3に示す例示的なウェブページにおけるテーブル情報のDOMツリー構造を示す図である。It is a figure which shows the DOM tree structure of the table information in the example web page shown in FIG. ウェブページにおけるテーブルに対する変換操作を示す図である。It is a figure which shows the conversion operation to the table in a web page. 本発明の実施例における例示的な検索プロセスを示す図である。It is a figure which shows the exemplary search process in the Example of this invention. 本発明の実施例におけるウェブページサーチ方法のフローチャートである。It is a flowchart of the web page search method in the Example of this invention. 本発明の実施例を実現し得る例示的システムのブロック図である。It is a block diagram of the exemplary system which can realize the Example of this invention.

以下、添付した図面を参照しながら、本発明を実施するための好適な形態を詳細に説明する。なお、このような実施形態は、例示に過ぎず、本発明を限定するものでない。 Hereinafter, preferred embodiments for carrying out the present invention will be described in detail with reference to the attached drawings. It should be noted that such an embodiment is merely an example and does not limit the present invention.

図1は、従来のSEと統合SEとのサーチ結果の比較図である。 FIG. 1 is a comparison diagram of search results between the conventional SE and the integrated SE.

多年にわたりSEが既に成熟しており、且つある程度の知能化を有する。しかし、SEの検索範囲が依然として狭く、即ち、従来のSEに基づく検索により得られた各ウェブページには、すべて、ユーザの欲しがる内容が含まれる。例えば、“富士通”をキーワードとして検索を行うときに、富士通株式会社のホームページ、ウィキペディア(Wikipedia)ページなどの複数のウェブページを得ることができる。各ウェブページには、すべて、“富士通”についての記載が含まれ、ユーザは、そのうちのあるウェブページをさらに選択すれば、欲しがる情報を取得することができる。図1は、従来のSEと統合SEとのサーチ結果の比較を示す図である。図1中のサークルがユーザの検索時の入力内容を表し、比較すれば分かるように、従来のSEに基づく検索により得られた各ウェブページには、すべて、ユーザの検索時の入力内容が含まれるが、統合SE(ここで、統合SEという用語は、従来のSEと区別するために命名されるものである)に基づく検索により得られた各ウェブページには、検索結果の一部のみが含まれる。従来のSEがユーザの大部分のニーズを満足することができるが、ネットワーク資源が豊富になるにつれて、ユーザのニーズも増加し、幾つかの場合、従来のSEは、このように増えたニーズに応えることができない。例えば、ユーザの欲しがる内容が複数のウェブページに分散しているとき、SEは、一連のウェブページの集合を見つけなければ、ユーザの検索の意図を満たすことができない(図1中のbで示されるように)。例えば、ユーザが従来のSEにより“どのような携帯電話のスクリーンが5インチよりも大きいか”、“千代田区にどのような外資系企業があるか”、“機器翻訳分野の専門家が何人くらいいるか”などの質問の答えを得ようとするときに、従来のSEにより得られた1つのみのウェブページにはこれらの質問の答えがすべて含まれることがまれである(図2は、従来のSEによる検索結果(中国語)を示し、図2は、従来のSEを用いて例示的な検索を行った検索結果の一例(中国語)を示す図である)。言い換えると、類似の情報が異なるウェブページに存在し、例えば、異なるウェブページに異なるブランド・モデルの携帯電話が含まれると同時に、スクリーンの大小(size)情報も含まれる。これらのウェブページの集合は、質問の検索結果を構成し、ここでは、このような検索が統合検索と称される。即ち、従来のSEによる答えは、page1 or page2 or …or pageNであり、統合SEによる答えは、page1+page2+…+pageNである。 SE has already matured for many years and has some intelligence. However, the search scope of SE is still narrow, that is, each web page obtained by a conventional SE-based search contains the content that the user wants. For example, when searching with "Fujitsu" as a keyword, it is possible to obtain a plurality of web pages such as the homepage of Fujitsu Limited and the Wikipedia page. Each web page contains a description of "Fujitsu", and the user can obtain the desired information by further selecting a certain web page. FIG. 1 is a diagram showing a comparison of search results between the conventional SE and the integrated SE. The circles in Figure 1 represent the user's search input, and as you can see by comparison, each web page obtained by a conventional SE-based search contains the user's search input. However, each web page obtained by searching based on the integrated SE (where the term integrated SE is named to distinguish it from the traditional SE) contains only a portion of the search results. included. While traditional SEs can meet most of the needs of users, as network resources become more abundant, so do the needs of users, and in some cases traditional SEs meet these increased needs. I can't respond. For example, when the content that a user wants is distributed over multiple web pages, the SE cannot meet the user's search intent without finding a set of web pages (b in Figure 1). As shown by). For example, users can use conventional SE to "what kind of mobile phone screen is larger than 5 inches", "what kind of foreign-affiliated company is in Chiyoda Ward", "how many experts in the field of device translation". When trying to get answers to questions such as "is it?", It is rare that only one web page obtained by a traditional SE will contain all the answers to these questions (Figure 2 is traditional). The search results (Chinese) by SE are shown, and FIG. 2 is a diagram showing an example (Chinese) of the search results obtained by performing an exemplary search using the conventional SE). In other words, similar information exists on different web pages, for example, different web pages contain mobile phones of different brands and models, as well as screen size information. A collection of these web pages constitutes the search results for a question, and such searches are referred to herein as integrated searches. That is, the answer by the conventional SE is page1 or page2 or… or pageN, and the answer by the integrated SE is page1 + page2 +… + pageN.

今のところ、ユーザは、電子商取引プラットフォームのような多くのウェブサイトを用いて、垂直検索(例えば、商品、グルメ情報など)を行うことができる。しかし、より多くの他の種類の実体、例えば、機構、人、化学品、薬品などについては、検索サービスを直接行えるプラットフォームが依然として少ない。よって、ネットワーク上で分散している情報を統合し、1つの相対的に完全な統合結果を提供することができれば、より良いユーザーエクスペリエンスをもたらすことができるだけでなく、より広い応用前景も有する。 For now, users can use many websites, such as e-commerce platforms, to perform vertical searches (eg, product, gourmet information, etc.). However, for more other types of entities, such as mechanisms, people, chemicals, drugs, etc., there are still few platforms that can directly provide search services. Therefore, if we can integrate the information distributed on the network and provide one relatively complete integration result, we can not only bring about a better user experience, but also have a wider application foreground.

上述のような問題を解決するために、本発明では、ウェブページから各種の実体の属性を有効に認識及び抽出することで、通常の情報検索を行うとともに、実体の属性に対しての検索も行い、検索条件に合致したすべての実体の所在するウェブページ集合を全体としてユーザにフィードバックすることができる方法が提供される。 In order to solve the above-mentioned problems, in the present invention, by effectively recognizing and extracting the attributes of various entities from a web page, ordinary information retrieval can be performed, and the attributes of the entities can also be searched. A method is provided in which the web page set in which all the entities that match the search conditions are located can be fed back to the user as a whole.

図3は、例示的なウェブページにおけるテーブル情報の一例(中国語)を示す図である。 FIG. 3 is a diagram showing an example (Chinese) of table information in an exemplary web page.

インターネット上の多くのウェブページには、人物、機構、商品などの対象についての記述が含まれ、これらの対象は、“実体(entity)”と称する。インターネット上の大量の実体情報がテーブルの形式で存在する(図3に示すように)。テキストに比べて、テーブルに対しての処理が容易であり、また、テーブルには、しばしば、実体についての属性又は実体に関する他の属性の情報が含まれる。よって、テーブルに基づいて検索を行うことで得られた結果の信頼性が高い。以下、各実施例では、テーブルを例として説明を行うが、本発明は、これに限定されない。また、ウェブページには、さらに、実体の属性又は関連属性を表す他の構造も存在するが、ここでは、網羅的な列挙を省略する。なお、理解すべきは、他の構造を抽出する方法が、以下の例示的なテーブルの抽出の方法を参照することにより実現され得るということである。 Many web pages on the Internet contain descriptions of objects such as people, mechanisms, and goods, and these objects are referred to as "entities." There is a large amount of physical information on the Internet in the form of tables (as shown in Figure 3). Compared to text, it is easier to work with tables, and tables often contain information about attributes about an entity or other attributes about an entity. Therefore, the reliability of the result obtained by performing the search based on the table is high. Hereinafter, in each embodiment, a table will be described as an example, but the present invention is not limited thereto. Web pages also have other structures that represent the attributes of an entity or related attributes, but a comprehensive list is omitted here. It should be understood that methods for extracting other structures can be realized by referring to the following exemplary methods for extracting tables.

図4は、本発明の実施例における統合SEを用いて統合検索を行う方法と、従来のSEを用いて検索を行う全体的な処理フローとの比較図である。 FIG. 4 is a comparison diagram between the method of performing an integrated search using the integrated SE in the embodiment of the present invention and the overall processing flow of performing the search using the conventional SE.

ウェブページ情報を処理するときに、たびたび、Web上のウェブページからテーブルを抽出し、実体の属性を認識する必要がある。しかし、従来の方法では、ウェブページにおける標準のテーブル要素、即ち、“table”要素のみを処理する。“table”要素がウェブページにおける標準のテーブル要素であるが、多くのテーブルが非“table”要素により構成される。“table”要素のみを処理すれば、多くの情報が捨てられる恐れがある。例えば、図5は、ウェブページにおけるテーブルのHTML様式を示している。図5中のaは、図3に示すような見た目上でテーブルである例のテーブルのHTML様式であり、該テーブルは、“dl”、“dt”、“dd”の要素により構成され、図5中のbは、通常の“table”要素のテーブルである。任意のHTML要素により見た目上のテーブルを構成することが可能であるから、事前にテンプレートを作ることができない。よって、ウェブページにおける標準のテーブル要素に対しての通常の方法では、このような見た目上でテーブルである非通常テーブルを処理することができない。しかし、発明者は、実体の属性を記述するテーブルが往々にして以下のような2つの重要な性質を有することを発見した。 When processing web page information, it is often necessary to extract tables from web pages on the web to recognize the attributes of the entity. However, traditional methods only process standard table elements in web pages, namely "table" elements. The "table" element is the standard table element for web pages, but many tables are made up of non- "table" elements. Processing only the "table" element can result in a lot of information being discarded. For example, Figure 5 shows the HTML format of a table on a web page. A in FIG. 5 is an HTML format of an example table which is a table in appearance as shown in FIG. 3, and the table is composed of elements of “dl”, “dt”, and “dd”. B in 5 is a table of normal "table" elements. Since it is possible to construct an apparent table with arbitrary HTML elements, it is not possible to create a template in advance. Therefore, the usual method for standard table elements in a web page cannot handle such an unusual table, which is a table in appearance. However, the inventor has found that tables that describe the attributes of an entity often have two important properties:

1)テーブルに属性の名称がある。例えば、図3に示すように、そのテーブルには、“価格”(5388元、6388元)、“色”(金、銀、ローズゴールド、黒、亮黒、紅)などの属性キーワードがあり、また、与えられる所定の実体について、その属性が有限範囲内で列挙され得るので、属性キーワードを形成し、その後、HTMLページの中でマッチングを行うことで、属性が出現する位置を見つけることができる。また、属性の名称がある箇所は、テーブルの位置である可能性が高い。 1) There is an attribute name in the table. For example, as shown in Figure 3, the table has attribute keywords such as "price" (5388 yuan, 6388 yuan) and "color" (gold, silver, rose gold, black, bright black, red). In addition, since the attributes of a given entity can be listed within a finite range, it is possible to find the position where the attribute appears by forming an attribute keyword and then performing matching in the HTML page. .. In addition, the place where the attribute name is given is likely to be the position of the table.

2)テーブルのHTML要素に繰り返し構造がある。図5に示すように、“table”要素により構成されるテーブルであるかどうかにもかかわらず、その各行に対応する要素は繰り返しの特徴がある。例えば、図5中のaでは、テーブル中の各行が“dd、dt”の2つの要素に対応し、また、“dd、dt”要素が繰り返して“dl”ノードの下に現れ、また、図5中のbでは、各行の“tr”要素も同様に繰り返して“tbody”ノードの下に現れる。 2) The HTML element of the table has a repeating structure. As shown in FIG. 5, the element corresponding to each row has a repeating feature, regardless of whether the table is composed of "table" elements. For example, in a in FIG. 5, each row in the table corresponds to two elements "dd, dt", and the "dd, dt" elements repeatedly appear under the "dl" node, and also in the figure. In b in 5, the "tr" element in each row repeats in the same way and appears under the "tbody" node.

よって、属性の名称のマッチングによりテーブルの可能な位置を見つけ、そして、繰り返し構造の特征によりテーブルの位置を確定することが考えられる。そのために、先ず、実体の属性を記述する1つの辞典を構築する必要がある。 Therefore, it is conceivable to find a possible position of the table by matching the names of the attributes, and to determine the position of the table by special conquest of the repeating structure. Therefore, first, it is necessary to construct one dictionary that describes the attributes of the entity.

<属性辞典の構築>
今のところ、属性の記述を提供する幾つかの取得可能なデータベースが既に存在する。よって、従来の複数のデータベースから属性キーワードの辞典を構築することができる。例えば、図3における例は、「百度百科(Baidu Baike)」に由来するものであり、図5のbにおける例は、「ウィキペディア(Wikipedia)」に由来するものである。これらの従来の資源は、取得が容易であり、品質が良好であり、且つ分類情報がある。
<Construction of attribute dictionary>
For now, there are already some retrievable databases that provide a description of the attributes. Therefore, it is possible to construct a dictionary of attribute keywords from a plurality of conventional databases. For example, the example in FIG. 3 is derived from "Baidu Baike", and the example in b in FIG. 5 is derived from "Wikipedia". These conventional resources are easy to obtain, of good quality, and have classification information.

先ず、1つの辞典D={cat1、cat2、……、catn}を形成し、そのうち、catiは、種類、即ち、実体の種類、例えば、人物、機構、薬品などを表す。各種類は、cat=[<term1、value1>、<term2、value2>、…、<termn、valuen>]と表され、そのうち、termは、属性キーワードを表し、valueは、属性値リストを表す。例えば、図3及び図5における例に基づい、以下のような辞典を得ることができる。 First, one dictionary D = {cat 1 , cat 2 , ..., cat n } is formed, of which cat i represents a type, that is, a type of entity, such as a person, mechanism, or drug. Each type is represented as cat = [<term 1 , value 1 >, <term 2 , value 2 >,…, <term n , value n >], of which term represents the attribute keyword and value is Represents a list of attribute values. For example, the following dictionaries can be obtained based on the examples in FIGS. 3 and 5.

D={[‘手机(中国語。意味は、celluar phone。以下同様)’:[<’発布(中国語。意味は、release。以下同様)時間’、’…’>、<’価格’、’…’>、<’顔色(中国語。意味は、color。以下同様)’、’…’>、……、<’首次発布(中国語。意味は、first release。以下同様)’、’…’>、<’類型’、’…’>、<’尺寸(中国語。意味は、size。以下同様)’、’…’>、……]]}
初期形成の辞典は局限性がある。なぜなら、その中には、ウェブページにおけるすべての属性キーワードが含まれない可能性があるかである。よって、辞典に対して拡張を行う必要がある。各種類catについて、その中の属性キーワードtermに対してCWD(Chinese Word Distinguishing)操作を行い、その後、長さが1よりも大きい語(word)の頻度(frequency)を統計し、頻度が所定の回数(所定の閾値)よりも大きい名語又は動語を属性の語根として辞典に挿入する。上述の例の場合、頻度が1よりも大きい語(word)が属性の語根であると設定すると、語根“発布”(頻度=2)を得ることができ、“%発布%”と記し、その属性値は、該語根を含むすべての属性に対応する値の集合である。それが辞典に挿入されると、辞典は、以下のようになる。
D = {['Handset (Chinese. Meaning is celluar phone. Same below)': [<'Promulgation (Chinese. Meaning is release. Same below) Time','…'>, <'Price', '…'>, <'Complex (Chinese. Meaning is color. Same below)','…'>, ……, <'First release (Chinese. Meaning is first release. Same below)','…'>,<'Type','…'>,<'Scale (Chinese. Meaning is size. Same below)','…'>, ……]]}
Early-form dictionaries are localized. That's because it may not include all the attribute keywords on a web page. Therefore, it is necessary to extend the dictionary. For each type of cat, perform a CWD (Chinese Word Distinguishing) operation on the attribute keyword term in it, and then stat the frequency of words with a length greater than 1, and the frequency is predetermined. Insert a famous word or a moving word that is larger than the number of times (predetermined threshold) into the dictionary as the root of the attribute. In the case of the above example, if a word with a frequency higher than 1 is set as the root of the attribute, the root "promulgation" (frequency = 2) can be obtained, and it is described as "% promulgation%". An attribute value is a set of values corresponding to all attributes including the root. When it is inserted into the dictionary, the dictionary looks like this:

D={[‘手机’:[<’発布時間’、’…’>、<’価格’、’…’>、<’顔色’、’…’>、……、<’首次発布’、’…’>、<’類型’、’…’>、<’尺寸’、’…’>、<’%発布%’、’…’>……]]}
語根の作用は、幾つかの属性が語根と関連することを表すためである。なお、複数の表現方式、例えば、“発布時間”及び“首次発布”が“発布”と関連する場合があり、また、“発布”を含む他の表現方式があれば、同じ概念を表す可能性もある。よって、語根を用いて属性の名称のファジーマッチングを行うことができる。
D = {['Handset': [<'Promulgation time','…'>, <'Price','…'>, <'Complex','...'>, ……, <'Primary promulgation','…'>,<'Type','…'>,<'Scale','…'>,<'%Promulgation%','…'> ……]]}
The action of the root is to show that some attributes are related to the root. In addition, multiple expression methods, for example, "promulgation time" and "primary promulgation" may be related to "promulgation", and if there are other expression methods including "promulgation", the same concept may be expressed. There is also. Therefore, fuzzy matching of attribute names can be performed using roots.

辞典は、上述のような方式で絶えずに更新され得る。また、生成された辞典は、後続の各操作に用いられる。 The dictionary can be constantly updated in the manner described above. In addition, the generated dictionary is used for each subsequent operation.

<ウェブページ中のテーブルの抽出>
以下、如何にウェブページ中のテーブルを抽出するかについて説明する。1つのHTMLウェブページを得る場合、先ず、HTMLページをDOMツリーに変換する。図6は、図3における例示的なウェブページ中のテーブル情報のDOMツリー構造を示す図である。便宜のため、図6では、一部のテーブルノード及びすべての文字ノードが省略される。DOMツリーの最下層のノードが葉ノードと見なされる。DOMツリー中の各ノードについて、経路patternを生成し、patと記す。各ノードの経路patは、該ノードからその第N個目の先祖ノードまで通過するすべてのノードのノード名称及び該ノードのclass属性により構成される。例えば、N=2のときに、図6中の“dl”のpatは、以下の通りである。
<Extracting tables in web pages>
The following describes how to extract the table in the web page. To get one HTML web page, first convert the HTML page to a DOM tree. FIG. 6 is a diagram showing a DOM tree structure of table information in an exemplary web page in FIG. For convenience, some table nodes and all character nodes are omitted in Figure 6. The nodes at the bottom of the DOM tree are considered leaf nodes. For each node in the DOM tree, generate a path pattern and write it as pat. The path pat of each node is composed of the node names of all the nodes passing from the node to the Nth ancestor node and the class attribute of the node. For example, when N = 2, the pat of “dl” in FIG. 6 is as follows.

pat=dl-basicInfo-block-basicInfo-left_div-basic-info-cmn-clearfix_div
各葉ノードについて、前述のように生成された辞典Dの中で該葉ノードのところの文字のマッチングを行い、マッチングにより同じ文字が得られた場合、該ノードをアンカーノード(anchor node)と認定する。図6では、濃い色の葉ノードは、マッチングにより得られたアンカーノードである。
pat = dl-basicInfo-block-basicInfo-left_div-basic-info-cmn-clearfix_div
For each leaf node, the characters at the leaf node are matched in the dictionary D generated as described above, and if the same character is obtained by matching, the node is recognized as an anchor node. To do. In FIG. 6, the dark leaf node is the anchor node obtained by matching.

アンカーノードを確定した後に、各非葉ノードについて、以下の2つの基準に基づいてテーブルの位置を特定するためのテーブルノードを選択する。 After determining the anchor node, for each non-leaf node, select a table node to locate the table based on the following two criteria.

1)その子ノードが繰り返して出現するpatを有し、且つ繰り返して出現する回数がt1以上であり;
2)そのカバーする葉ノードのうち、少なくともt2個のアンカーノードがある(カバーされる)。
1) The child node has a pat that appears repeatedly, and the number of times it appears repeatedly is t1 or more;
2) Of the leaf nodes it covers, there are at least t2 anchor nodes (covered).

なお、t1及びt2の値がニーズに応じて設定されても良く、例えば、サーチ待ちの対象の類型に基づいて設定されても良く、又は、対象の類型によらずに設定されても良い。t1の値が3であり、且つt2の値が3であるときに、“dl”がテーブルノードとして選択されるとし、その子ノードのうち、dt+ddのpatが繰り返して3回出現し、また、3個のアンカーノードをカバーするためである。 The values of t1 and t2 may be set according to the needs, and may be set based on, for example, the type of the target waiting for search, or may be set regardless of the type of the target. When the value of t1 is 3 and the value of t2 is 3, "dl" is selected as the table node, and among its child nodes, pat of dt + dd appears three times repeatedly, and also. , To cover 3 anchor nodes.

テーブルノードを確定した後に、即ち、テーブルの位置を確定した後に、続いて、テーブルの様式を確定する必要がある。ウェブページにおけるテーブルの様式に基づいて、テーブルを以下のような2種類を分けることができる。 After determining the table node, that is, after determining the position of the table, it is necessary to subsequently determine the format of the table. Based on the format of the table on the web page, the table can be divided into the following two types.

1)上下構造:第1行がテーブルヘッダであり、第2行乃至最後の行がその対応する値であり;
2)左右構造:第1列がテーブルヘッダであり、第2列乃至最後の列がその対応する値である。
1) Vertical structure: The first row is the table header, and the second to last rows are the corresponding values;
2) Left and right structure: The first column is the table header, and the second to last columns are the corresponding values.

このように分ける理由は、テーブルが、通常、見た目上で横のテーブル又は縦のテーブルである。よって、上記のように分けることで、この2種類のテーブルの形式を有するすべてのテーブルを認識することができる。 The reason for this division is that the tables are usually aesthetically horizontal or vertical tables. Therefore, by dividing as described above, all tables having these two types of table formats can be recognized.

テーブルの様式の確定は、例えば、テーブルの行の数及び列の数を確定することであり、テーブルの行の数及び列の数の計算は、テーブルを内部表示の形式に変換する必要がある。行の数は、経路patの繰り返す回数であっても良く、図6に示すように、“dt+dd”が繰り返して3回出現するから、テーブルは3行を有し、また、列の数については、経路patに対応するノードの子ノードの数を計算し、その後、すべての行の中の子ノードの数の最大値を列の数としても良い。図6を例とすると、各patが2つのノード“dd”及び“dt”に対応し、この2つのノードは、それぞれ、1つの子ノードを有する。よって、各行に対応する子ノードの数がすべて2であるため、列の数が2である。これにより、1つの3*2のテーブルを取得し、その後、HTMLのノードを対応するユニットに挿入する。該プロセスは、図7に示されている。 Determining the format of a table is, for example, determining the number of rows and columns of a table, and the calculation of the number of rows and columns of a table requires converting the table to an internal display format. .. The number of rows may be the number of repetitions of the path pat, and as shown in FIG. 6, since “dt + dd” appears three times repeatedly, the table has three rows and the number of columns. For, the number of child nodes of the node corresponding to the route pat may be calculated, and then the maximum number of child nodes in all rows may be set as the number of columns. Taking FIG. 6 as an example, each pat corresponds to two nodes "dd" and "dt", and each of these two nodes has one child node. Therefore, the number of columns is 2 because the number of child nodes corresponding to each row is all 2. This gets one 3 * 2 table and then inserts the HTML node into the corresponding unit. The process is shown in FIG.

<テーブルの分類及び属性の抽出>
テーブルに対して上述のような変換操作を行った後に、テーブルに対して分類を行い、即ち、テーブルに記述される実体の種類を得る。例えば、図3のテーブルに記述される実体が“手机”であることを知る必要がある。先ず、変換操作後のテーブルの中から、特征ベクトルfeat=[[term1、[v11、v12、…、v1n]]、[term2、[v21、v22、…、v2n]]、…、[termm、[vm1、vm2、…、vmn]]]を抽出し、そのうち、termは、テーブルヘッダ中の属性要素であり、vは、属性に対応する値を表す。図7中のテーブルを例とすれば、feat=[[dt1、[dd11]]、[dt2、[dd21]]、[dt3、[dd31]]]を得ることができる。ここで、便宜のため、dt、ddを用いて表すが、実際には、その対応する葉ノードのところのテキストである。辞典Dにおける各種類catについて、以下の公式(1)によりfeatとの余弦(コサイン)類似度を計算する。

Figure 2020144846
<Table classification and attribute extraction>
After performing the above conversion operation on the table, the table is classified, that is, the type of entity described in the table is obtained. For example, it is necessary to know that the entity described in the table in Fig. 3 is a "hand desk". First, from the table after the conversion operation, the special conquest vector feat = [[term 1 , [v 11 , v 12 , ..., v 1n ]], [term 2 , [v 21 , v 22 , ..., v 2n ]] ],…, [term m , [v m1 , v m2 ,…, v mn ]]], of which term is the attribute element in the table header and v represents the value corresponding to the attribute. .. Taking the table in Fig. 7 as an example, feat = [[dt 1 , [dd 11 ]], [dt 2 , [dd 21 ]], [dt 3 , [dd 31 ]]] can be obtained. Here, for convenience, it is expressed using dt and dd, but it is actually the text at the corresponding leaf node. For each type cat in Dictionary D, calculate the cosine similarity with feat by the following formula (1).
Figure 2020144846

そのうち、|a|は、aにおける語彙の数を表し、sim(a,b)は、以下の公式(2)により計算することができる。

Figure 2020144846
Of these, | a | represents the number of vocabularies in a, and sim (a, b) can be calculated by the following formula (2).
Figure 2020144846

そのうち、tcatは、種類catに含まれるすべての属性要素termのリストを示し、tfeatは、テーブル特征ベクトルにおけるテーブルヘッダ属性リストを表し、vcatは、種類catにおける属性要素termに対応するすべてのvalueリストを示し、vfeatは、特征ベクトルにおけるすべての値のリストを表し、α及びβは、それぞれ、この2つの部分の重み(weight)を表し、且つα+β=1であり、tsim(*)は、以下の公式(3)及び(4)により計算することができる。

Figure 2020144846
Of these, t cat represents a list of all attribute element terms contained in the type cat, t feat represents the table header attribute list in the table special conquest vector, and v cat represents all corresponding attribute element terms in the type cat. Indicates the value list of, v feat represents the list of all values in the special conquest vector, α and β each represent the weight of these two parts, and α + β = 1, tsim. (*) Can be calculated by the following formulas (3) and (4).
Figure 2020144846

そのうち、lは、語(word)のリストであり、w1及びw2は、それぞれ、計算待ちの2つのリストにおける語(word)であり、ssim(*)は、2つの文字列の類似度を計算することを示し、2つの文字列が完全に同じであるときに、類似度は1であり、一部が同じである(ファジーマッチング)ときに、0.6である。 Of these, l is a list of words, w1 and w2 are words in the two lists waiting to be calculated, respectively, and ssim (*) calculates the similarity between the two strings. When the two strings are exactly the same, the similarity is 1, and when some are the same (fuzzy matching), it is 0.6.

類似度を計算した後に、最大値(且つ、所定の閾値よりも大きい)を有する種類catをテーブルの種類としても良い。テーブルの種類があると、トリプル(3つの要素からなる組)を生成することができる。生成されたトリプルは、リモートデータベース又はローカルデータベースに保存され、例えば、sparqlによるクエリが行われるために用いられる。例えば、図7中のテーブルについて上述のような処理を行うことで以下の形式のトリプルを得ることができる。 After calculating the similarity, the type cat having the maximum value (and larger than a predetermined threshold value) may be used as the table type. With table types, triples (sets of three elements) can be generated. The generated triples are stored in a remote or local database and are used, for example, to be queried by sparql. For example, by performing the above processing on the table in FIG. 7, a triple having the following format can be obtained.

page_url category cat
page_url dt1 dd1
page_url dt2 dd3
page_url dt3 dd3
そのうち、page_urlは、現在のウェブページのurlを示し、categoryは、テーブルの分類結果であり、dt及びddは、すべて、ウェブページにおける文字である。上記のように生成されたトリプルを用いることで、クエリを行って対応するurl集合に対しての検索及びクエリを行うことができる。
page_url category cat
page_url dt1 dd1
page_url dt2 dd3
page_url dt3 dd3
Among them, page_url indicates the url of the current web page, category is the classification result of the table, and dt and dd are all characters in the web page. By using the triple generated as described above, it is possible to query and search and query the corresponding url set.

図8は、本発明の実施例における例示的な検索プロセスを示す図である。 FIG. 8 is a diagram illustrating an exemplary search process in an embodiment of the present invention.

まず、ユーザにより、予め、検索用のクエリ語句テンプレートを設定する。図8に示すように、テンプレート中の横線部分が位置slotと称され、検索語句を生成するプロセスは、実際には、ユーザ入力のクエリqueryから情報を抽出し、位置slotに充填(fill)するプロセスである。まず、上述のように生成された辞典Dを用いて、クエリqueryに関わる種類catのマッチングを行い、それを取得し;クエリにより種類catを得た後に、テーブルの分類結果categoryの位置slotに充填し;その後、種類catに対応する属性要素termリストを用いて、クエリquery中の属性のマッチングを行い、マッチングにより複数が得られたら、複数の検索条件を生成し、条件の間は“又は”の関係であり;最後に、条件中の属性値を補充し、その後、検索を行い、検索により得られた結果は、HTMLのurl集合であり、さらに、HTMLページに変換してユーザにリターン(return)することもできる。なお、図8に示すように、属性を充填するときに、語義に基づいて生成される属性名称及び属性値を用いても良く、例えば、“スクリーン”が“スクリーンサイズ”であっても良く、“5インチよりも大きい”が“>5インチ”に変換されても良い。このような変換により、検索時に、より正確且つ全面的な検索結果を得ることができる。図8に示すのは、ユーザのクエリqueryをsparql言語に変換するselectテンプレートであり、もちろん、sparqlクエリに限られず、ユーザの検索内容の入力は、他の言語に基づくクエリに変換されても良い。 First, the user sets a query phrase template for search in advance. As shown in Figure 8, the horizontal line in the template is called the position slot, and the process of generating the search term actually extracts information from the user-entered query query and fills the position slot. It's a process. First, using the dictionary D generated as described above, match the type cat related to the query query and obtain it; after obtaining the type cat by the query, fill the position slot of the classification result category of the table. After that, match the attributes in the query query using the attribute element term list corresponding to the type cat, and if multiple are obtained by matching, generate multiple search conditions and "or" between the conditions. Finally, the attribute value in the condition is replenished, and then the search is performed, and the result obtained by the search is an HTML url set, which is further converted into an HTML page and returned to the user ( You can also return). As shown in FIG. 8, when filling the attributes, the attribute name and the attribute value generated based on the meaning may be used. For example, "screen" may be "screen size". “Greater than 5 inches” may be converted to “> 5 inches”. By such conversion, more accurate and complete search results can be obtained at the time of search. Figure 8 shows a select template that translates a user's query query into a sparql language, and of course, the user's search content input is not limited to sparql queries and may be translated into queries based on other languages. ..

図9は、本発明の実施例におけるウェブページサーチ方法のフローチャートである。 FIG. 9 is a flowchart of the web page search method according to the embodiment of the present invention.

方法は、ステップ901でスタートする。ステップ901では、サーチ待ち内容が限定される情報を受信し、例えば、図8に示すユーザ入力の“スクリーンが5インチよりも大きい携帯電話”を受信し;続いて、ステップ902では、入力された情報に関わる実体を認識し、そして、実体の種類(例えば、図8中の“携帯電話”)及び属性(属性は、属性名称及び属性値を含み、例えば、図8中の“スクリーン”、“スクリーンサイズ”、“>5リンチ”)を確定し、具体的には、前述の実体の種類と属性との関係のテンプレート(辞典D)を用いて、前記サーチ待ち内容に関わる実体の種類及び属性を確定し;ステップ903では、実体の種類及び属性に基づいてサーチ条件を生成し、例えば、図8に示すように、3つの並列的なサーチ条件を生成し;ステップ904では、サーチ条件を用いて、データ集合に対してサーチを行い、サーチ条件を満足するウェブページアドレスを取得し、そのうち、該データ集合は、サーチが行われるウェブページ集合における各ウェブページから抽出された、所定の構造を有するウェブページ部分により形成され、データ集合は、例えば、前述のように抽出された各トリプルからなる集合であっても良く、具体的には、上述のような実体の種類と属性との関係のテンプレート(辞典D)を用いて、所定の構造を有するウェブページ部分を抽出し、さらに、前記ウェブページ部分をトリプルに変換することを含み、そのうち、トリプルは、実体の種類、実体の属性及び実体の種類又は属性に対応するウェブページアドレス間の関係を表すために用いられ、データ集合は、異なる実体の種類に対応するトリプルからなる。 The method starts at step 901. In step 901, information with a limited search wait content is received, for example, the user-entered "mobile phone with a screen larger than 5 inches" shown in FIG. 8 is received; subsequently, in step 902, the information is input. It recognizes the entity involved in the information, and the type of entity (eg, "mobile phone" in FIG. 8) and attributes (attributes include attribute names and attribute values, eg, "screen", "" in FIG. "Screen size", "> 5 Lynch") are confirmed, and specifically, the type and attribute of the entity related to the search waiting content are used using the template (Dictionary D) of the relationship between the type of entity and the attribute described above. In step 903, search conditions are generated based on the type and attributes of the entity, for example, as shown in FIG. 8, three parallel search conditions are generated; in step 904, the search conditions are used. Then, a search is performed on the data set to obtain a web page address that satisfies the search conditions, and the data set has a predetermined structure extracted from each web page in the web page set in which the search is performed. The data set formed by the web page portion having may be, for example, a set consisting of each triple extracted as described above, and specifically, the relationship between the type of entity and the attribute as described above. A template (Dictionary D) is used to extract a web page portion having a predetermined structure and further convert the web page portion into a triple, in which the triple is the type of entity, the attribute of the entity and the entity. Used to represent the relationships between web page addresses that correspond to a type or attribute of, the data set consists of triples that correspond to different entity types.

本発明の実施例によれば、分類情報を有する情報源から実体の種類と属性との関係のテンプレート(前述の辞典)を取得する。 According to the embodiment of the present invention, a template (dictionary described above) of the relationship between the type of entity and the attribute is obtained from an information source having classification information.

本発明の実施例によれば、所定の構造は、所定の方向の調整後のテーブル構造であり、所定の方向は、横方向又は縦方向である。 According to the embodiment of the present invention, the predetermined structure is a table structure adjusted in a predetermined direction, and the predetermined direction is a horizontal direction or a vertical direction.

本発明の実施例によれば、リモートサーバでトリプルの集合を生成することができ、この場合、ローカルユーザがリモートサーバに対してクエリを行うためのクエリインターフェースを提供する。 According to an embodiment of the present invention, a remote server can generate a set of triples, in which case providing a query interface for a local user to query the remote server.

本発明の各実施例によれば、ローカルコンピュータ、マシン、ホストなどでトリプルの集合を生成することができ、これにより、ユーザは、ローカルコンピュータ、マシン、ホストなどでクエリを実現することができる。 According to each embodiment of the present invention, a set of triples can be generated on a local computer, machine, host, etc., whereby a user can execute a query on the local computer, machine, host, etc.

また、上述の一連の処理は、ソフトウェア及び/又はファームウェアにより実現されても良い。ソフトウェア及び/又はファームウェアにより実現される場合、記憶媒体又はネットワークから、専用ハードウェア構造を有するコンピュータ、例えば、図10に示す汎用マシン1000(例えば、コンピュータ)に、該ソフトウェアを構成するプログラムをインストールし、該コンピュータは、各種のプログラムがインストールされているときに、各種の機能などを実行することができる。 Further, the above-mentioned series of processes may be realized by software and / or firmware. When implemented by software and / or firmware, install the programs that make up the software from a storage medium or network on a computer with a dedicated hardware structure, such as the general-purpose machine 1000 (eg, computer) shown in FIG. , The computer can perform various functions and the like when various programs are installed.

図10は、本発明の実施例を実現し得る例示的なシステムのブロック図である。 FIG. 10 is a block diagram of an exemplary system that can realize the embodiments of the present invention.

図10では、中央処理装置(CPU)1001は、ROM 1002に記憶されているプログラム又は記憶部1008からRAM 1003にロッドされているプログラムに基づいて各種の処理を行う。RAM 1003では、ニーズに応じて、CPU 1001が各種の処理を行うときに必要なデータなどを記憶することもできる。CPU 1001、ROM 1002及びRAM 1003は、バズ1004を経由して互いに接続される。入力/出力インターフェース1005もバス1004に接続される。 In FIG. 10, the central processing unit (CPU) 1001 performs various processes based on the program stored in the ROM 1002 or the program rodged from the storage unit 1008 to the RAM 1003. The RAM 1003 can also store data required when the CPU 1001 performs various processes according to needs. CPU 1001, ROM 1002 and RAM 1003 are connected to each other via buzz 1004. The input / output interface 1005 is also connected to the bus 1004.

また、入力/出力インターフェース1005には、さらに、次のような部品が接続され、即ち、キーボードなどを含む入力部1006、液晶表示器(LCD)などのような表示器及びスピーカーなどを含む出力部1007、ハードディスクなどを含む記憶部1008、ネットワークインターフェースカード、例えば、LANカード、モデムなどを含む通信部1009である。通信部1009は、例えば、インターネット、LANなどのネットワークを経由して通信処理を行う。 Further, the following components are connected to the input / output interface 1005, that is, an input unit 1006 including a keyboard and the like, an output unit including a display such as a liquid crystal display (LCD), and a speaker. 1007, storage unit 1008 including hard disk, etc., communication unit 1009 including network interface card, for example, LAN card, modem, etc. The communication unit 1009 performs communication processing via a network such as the Internet or LAN.

ドライブ1010は、ニーズに応じて、入力/出力インターフェース1005に接続されても良い。取り外し可能な媒体1011、例えば、半導体メモリなどは、必要に応じて、ドライブ1010にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部1008にインストールすることができる。 Drive 1010 may be connected to input / output interface 1005, if desired. The removable medium 1011 such as a semiconductor memory can be set in the drive 1010 as needed, and the computer program read from the medium can be installed in the storage unit 1008.

本発明は、さらに、プログラムを記憶したコンピュータ記憶媒体に関し、該プログラムは、実行されるときに上述の実施例における方法を実現することができり。 The present invention further relates to a computer storage medium in which the program is stored, the program being able to realize the method of the above-described embodiment when executed.

また、本発明は、さらに、マシン可読指令コードを含むプログラムプロダクトを提供する。このような指令コードは、マシンにより読み取られて実行されるときに、上述の本発明の実施形態における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー(carry)する、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶器などの各種の記憶媒体も、本発明に含まれる。 The present invention also provides a program product that includes a machine-readable command code. When such a command code is read and executed by the machine, the method according to the embodiment of the present invention described above can be executed. Correspondingly, carry such program products, such as magnetic disks (including floppy disks (registered trademarks)), optical disks (including CD-ROMs and DVDs), magneto-optical disks (MD (registered trademarks)). ), And various storage media such as semiconductor storage devices are also included in the present invention.

上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などを含んでも良いが、これらに限定されない。 The above-mentioned storage medium may include, but is not limited to, for example, a magnetic disk, an optical disk, a magneto-optical disk, a semiconductor storage device, and the like.

また、上述の方法における各操作(処理)は、各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現することもできる。 Further, each operation (process) in the above method can be realized by a method of a computer-executable program stored in various machine-readable storage media.

また、以上の実施例などに関し、さらに以下のように付記として開示する。 In addition, the above examples and the like will be further disclosed as additional notes as follows.

(付記1)
少なくとも1つの処理器が実行するウェブページサーチ方法であって、
サーチ待ち内容が限定される情報を受信し;
前記情報に関わる実体を認識し、前記実体の種類及び属性を確定し;
前記実体の種類及び属性に基づいてサーチ条件を生成し;及び
前記サーチ条件を用いてデータ集合に対してサーチを行い、前記サーチ条件を満たすウェブページアドレスを取得することを含み、
ウェブページ集合における各ウェブページから所定の構造を有するウェブページ部分を抽出して前記データ集合を形成し、前記サーチが、前記ウェブページ集合に対して行われる、方法。
(Appendix 1)
A web page search method performed by at least one processor,
Received information with limited search waiting content;
Recognize the entity related to the information and determine the type and attributes of the entity;
A search condition is generated based on the type and attribute of the entity; and a search is performed on a data set using the search condition to obtain a web page address satisfying the search condition.
A method in which a web page portion having a predetermined structure is extracted from each web page in a web page set to form the data set, and the search is performed on the web page set.

(付記2)
付記1に記載の方法であって、
実体の種類と属性との関係のテンプレートを用いて、前記サーチ待ち内容に関わる実体の種類及び属性を確定する、方法。
(Appendix 2)
The method described in Appendix 1
A method for determining the type and attribute of an entity related to the search waiting content by using a template of the relationship between the type of entity and the attribute.

(付記3)
付記1に記載の方法であって、
実体の種類と属性との関係のテンプレートを用いて、前記所定の構造を有するウェブページ部分を抽出する、方法。
(Appendix 3)
The method described in Appendix 1
A method of extracting a web page portion having the predetermined structure by using a template of a relationship between an entity type and an attribute.

(付記4)
付記1〜3のうちの何れか1つに記載の方法であって、
前記ウェブページ集合における各ウェブページから所定の構造を有するウェブページ部分を抽出して前記データ集合を形成することは、
前記ウェブページ部分をトリプルに変換することを含み、
前記トリプルは、実体の種類、実体の属性、及び、実体の種類又は属性に対応するウェブページアドレス間の関係を表すために用いられ、
前記データ集合は、異なる実体の種類に対応するトリプルからなる、方法。
(Appendix 4)
The method described in any one of Supplementary notes 1 to 3.
Extracting a web page portion having a predetermined structure from each web page in the web page set to form the data set can be performed.
Including converting the web page portion to a triple
The triple is used to represent the type of entity, the attributes of the entity, and the relationship between the type of entity or the web page address corresponding to the attribute.
A method in which the data set consists of triples corresponding to different entity types.

(付記5)
付記2又は3に記載の方法であって、
分類情報を有する情報源から、前記実体の種類と属性との関係のテンプレートを取得する、方法。
(Appendix 5)
The method described in Appendix 2 or 3,
A method of obtaining a template of a relationship between the type of an entity and an attribute from an information source having classification information.

(付記6)
付記1〜3のうちの何れか1つに記載の方法であって、
前記所定の構造がテーブル構造である、方法。
(Appendix 6)
The method described in any one of Supplementary notes 1 to 3.
A method in which the predetermined structure is a table structure.

(付記7)
付記6に記載の方法であって、
前記所定の構造が所定の方向の調整後のテーブル構造であり、前記所定の方向が横方向又は縦方向である、方法。
(Appendix 7)
The method described in Appendix 6
A method in which the predetermined structure is a table structure after adjustment in a predetermined direction, and the predetermined direction is a horizontal direction or a vertical direction.

(付記8)
付記1〜3のうちの何れか1つに記載の方法であって、
前記属性が属性名称及び属性値を含む、方法。
(Appendix 8)
The method described in any one of Supplementary notes 1 to 3.
A method in which the attribute comprises an attribute name and an attribute value.

(付記9)
付記1〜3のうちの何れか1つに記載の方法であって、
前記実体の種類及び属性に基づいてサーチ条件を生成することは、
前記実体の種類及び属性の語義に類似している表現を用いて並列的な複数のサーチ条件を生成し、サーチ時に、‘又は’を用いて前記並列的なの複数のサーチ条件を接続してサーチ語句を形成することを含む、方法。
(Appendix 9)
The method described in any one of Supplementary notes 1 to 3.
Generating search conditions based on the type and attributes of the entity
Multiple parallel search conditions are generated using expressions similar to the meanings of the substance types and attributes, and when searching, the multiple parallel search conditions are connected and searched using'or'. A method that involves forming a phrase.

(付記10)
付記1〜3のうちの何れか1つに記載の方法であって、
前記実体の種類及び属性に基づいてサーチ条件を生成することは、
前記実体の種類及び属性をクエリ語句テンプレートに変換することを含む、方法。
(Appendix 10)
The method described in any one of Supplementary notes 1 to 3.
Generating search conditions based on the type and attributes of the entity
A method comprising converting the entity type and attributes into a query phrase template.

(付記11)
付記10に記載の方法であって、
前記クエリ語句テンプレートがsparqlクエリ語句テンプレートである、方法。
(Appendix 11)
The method described in Appendix 10
A method in which the query phrase template is a sparql query phrase template.

(付記12)
付記1〜3のうちの何れか1つに記載の方法であって、
前記実体の種類及び属性の関係のテンプレートが「百度百科」及び/又は「ウィキペディア」に基づいて生成される、方法。
(Appendix 12)
The method described in any one of Supplementary notes 1 to 3.
A method in which a template for the relationship between the types and attributes of the entity is generated based on "Baidu Baike" and / or "Wikipedia".

(付記13)
プログラムを記憶したコンピュータ可読記憶媒体であって、
該プログラムは、コンピュータにより実行されるときに、コンピュータに付記1〜12のうちの何れか1つに記載の方法を実行させる、記憶媒体。
(Appendix 13)
A computer-readable storage medium that stores programs
The program is a storage medium that, when executed by a computer, causes the computer to perform the method according to any one of Appendix 1-12.

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。 Although the preferred embodiment of the present invention has been described above, the present invention is not limited to this embodiment, and any modification to the present invention belongs to the technical scope of the present invention unless the gist of the present invention is abandoned.

Claims (10)

少なくとも1つの処理器が実行するウェブページサーチ方法であって、
サーチ待ち内容が限定される情報を受信し;
前記情報に関わる実体を認識し、前記実体の種類及び属性を確定し;
前記実体の種類及び属性に基づいてサーチ条件を生成し;及び
前記サーチ条件を用いてデータ集合に対してサーチを行い、前記サーチ条件を満たすウェブページアドレスを取得することを含み、
ウェブページ集合における各ウェブページから所定の構造を有するウェブページ部分を抽出して前記データ集合を形成し、前記サーチが前記ウェブページ集合に対して行われる、方法。
A web page search method performed by at least one processor,
Received information with limited search waiting content;
Recognize the entity related to the information and determine the type and attributes of the entity;
A search condition is generated based on the type and attribute of the entity; and a search is performed on a data set using the search condition to obtain a web page address satisfying the search condition.
A method in which a web page portion having a predetermined structure is extracted from each web page in a web page set to form the data set, and the search is performed on the web page set.
請求項1に記載の方法であって、
実体の種類と属性との関係のテンプレートを用いて、前記サーチ待ち内容に関わる実体の種類及び属性を確定する、方法。
The method according to claim 1.
A method for determining the type and attribute of an entity related to the search waiting content by using a template of the relationship between the type of entity and the attribute.
請求項1に記載の方法であって、
実体の種類と属性との関係のテンプレートを用いて、前記所定の構造を有するウェブページ部分を抽出する、方法。
The method according to claim 1.
A method of extracting a web page portion having the predetermined structure by using a template of a relationship between an entity type and an attribute.
請求項1〜3のうちの何れか1項に記載の方法であって、
前記ウェブページ集合における各ウェブページから所定の構造を有するウェブページ部分を抽出して前記データ集合を形成することは、
前記ウェブページ部分をトリプルに変換することを含み、
前記トリプルが、実体の種類、実体の属性、及び、実体の種類又は属性に対応するウェブページアドレス間の関係を表すために用いられ、
前記データ集合が、異なる実体の種類に対応するトリプルからなる、方法。
The method according to any one of claims 1 to 3.
Extracting a web page portion having a predetermined structure from each web page in the web page set to form the data set can be performed.
Including converting the web page portion to a triple
The triple is used to represent the type of entity, the attributes of the entity, and the relationships between the types or attributes of the entity and the web page addresses that correspond to them.
A method in which the data set consists of triples corresponding to different entity types.
請求項2又は3に記載の方法であって、
分類情報を有する情報源から、前記実体の種類と属性との関係のテンプレートを取得する、方法。
The method according to claim 2 or 3,
A method of obtaining a template of a relationship between the type of an entity and an attribute from an information source having classification information.
請求項1〜3のうちの何れか1項に記載の方法であって、
前記所定の構造がテーブル構造である、方法。
The method according to any one of claims 1 to 3.
A method in which the predetermined structure is a table structure.
請求項6に記載の方法であって、
前記所定の構造が所定の方向の調整後のテーブル構造であり、前記所定の方向が横方向又は縦方向である、方法。
The method according to claim 6.
A method in which the predetermined structure is a table structure after adjustment in a predetermined direction, and the predetermined direction is a horizontal direction or a vertical direction.
請求項1〜3のうちの何れか1項に記載の方法であって、
前記属性が属性名称及び属性値を含む、方法。
The method according to any one of claims 1 to 3.
A method in which the attribute comprises an attribute name and an attribute value.
請求項1〜3のうちの何れか1項に記載の方法であって、
前記実体の種類及び属性に基づいてサーチ条件を生成することは、
前記実体の種類及び属性の語義に類似している表現を用いて並列的な複数のサーチ条件を生成し、サーチ時に、「又は」を用いて前記並列的なの複数のサーチ条件を接続してサーチ語句を形成することを含む、方法。
The method according to any one of claims 1 to 3.
Generating search conditions based on the type and attributes of the entity
A plurality of parallel search conditions are generated using expressions similar to the meanings of the substance types and attributes, and at the time of search, the multiple parallel search conditions are connected and searched using "or". A method that involves forming a phrase.
コンピュータに、請求項1〜9のうちの何れか1項に記載の方法を実行させるためのプログラムを記憶したコンピュータ可読記憶媒体。 A computer-readable storage medium that stores a program for causing a computer to execute the method according to any one of claims 1 to 9.
JP2020006671A 2019-03-06 2020-01-20 Method of searching web page and computer-readable storage medium Pending JP2020144846A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910167209.X 2019-03-06
CN201910167209.XA CN111666479A (en) 2019-03-06 2019-03-06 Method for searching web page and computer readable storage medium

Publications (1)

Publication Number Publication Date
JP2020144846A true JP2020144846A (en) 2020-09-10

Family

ID=72353689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020006671A Pending JP2020144846A (en) 2019-03-06 2020-01-20 Method of searching web page and computer-readable storage medium

Country Status (2)

Country Link
JP (1) JP2020144846A (en)
CN (1) CN111666479A (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632106B (en) * 2020-12-29 2023-05-23 重庆农村商业银行股份有限公司 Knowledge graph query method, device, equipment and storage medium
CN113239009A (en) * 2021-04-08 2021-08-10 大唐软件技术股份有限公司 Database operation method, device, equipment and storage medium

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239340B (en) * 2013-06-19 2018-03-16 北京搜狗信息服务有限公司 Search result screening technique and device
CN104679783B (en) * 2013-11-29 2019-08-02 北京搜狗信息服务有限公司 A kind of network search method and device
CN104850554B (en) * 2014-02-14 2020-05-19 北京搜狗科技发展有限公司 Searching method and system
JP6440542B2 (en) * 2014-03-18 2018-12-19 株式会社Nttドコモ Knowledge engine for managing large amounts of complex structured data
CN105279277A (en) * 2015-11-12 2016-01-27 百度在线网络技术(北京)有限公司 Knowledge data processing method and device
CN108694208A (en) * 2017-04-11 2018-10-23 富士通株式会社 Method and apparatus for constructs database
CN109408743B (en) * 2018-08-21 2020-11-17 中国科学院自动化研究所 Text link embedding method

Also Published As

Publication number Publication date
CN111666479A (en) 2020-09-15

Similar Documents

Publication Publication Date Title
CN108415902B (en) Named entity linking method based on search engine
US9514216B2 (en) Automatic classification of segmented portions of web pages
US7739258B1 (en) Facilitating searches through content which is accessible through web-based forms
KR101646754B1 (en) Apparatus and Method of Mobile Semantic Search
KR101661198B1 (en) Method and system for searching by using natural language query
US20090300046A1 (en) Method and system for document classification based on document structure and written style
US20080215550A1 (en) Search support apparatus, computer program product, and search support system
CN108319583B (en) Method and system for extracting knowledge from Chinese language material library
US9864795B1 (en) Identifying entity attributes
CN111177591A (en) Knowledge graph-based Web data optimization method facing visualization demand
JP5057474B2 (en) Method and system for calculating competition index between objects
CN111428494A (en) Intelligent error correction method, device and equipment for proper nouns and storage medium
JP2011529600A (en) Method and apparatus for relating datasets by using semantic vector and keyword analysis
JP2020144846A (en) Method of searching web page and computer-readable storage medium
US11487795B2 (en) Template-based automatic software bug question and answer method
KR100455439B1 (en) Internet resource retrieval and browsing method based on expanded web site map and expanded natural domain names assigned to all web resources
TWI674511B (en) Product information display system, product information display method, and program product
KR101140724B1 (en) Method and system of configuring user profile based on a concept network and personalized query expansion system using the same
JP2008077252A (en) Document ranking method, document retrieval method, document ranking device, document retrieval device, and recording medium
KR101602342B1 (en) Method and system for providing information conforming to the intention of natural language query
Tabarcea et al. Framework for location-aware search engine
JP5688754B2 (en) Information retrieval apparatus and computer program
CN111831884B (en) Matching system and method based on information search
JP2008026964A (en) Retrieval processor and program
CN114691845A (en) Semantic search method and device, electronic equipment, storage medium and product