JP5718213B2 - Web page topic determination device, Web page topic determination method, and Web page topic determination program - Google Patents

Web page topic determination device, Web page topic determination method, and Web page topic determination program Download PDF

Info

Publication number
JP5718213B2
JP5718213B2 JP2011256179A JP2011256179A JP5718213B2 JP 5718213 B2 JP5718213 B2 JP 5718213B2 JP 2011256179 A JP2011256179 A JP 2011256179A JP 2011256179 A JP2011256179 A JP 2011256179A JP 5718213 B2 JP5718213 B2 JP 5718213B2
Authority
JP
Japan
Prior art keywords
character string
web page
topic
language
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011256179A
Other languages
Japanese (ja)
Other versions
JP2013109709A (en
Inventor
滋 藤村
滋 藤村
杉崎 正之
正之 杉崎
健司 江崎
健司 江崎
内山 匡
匡 内山
典子 高屋
典子 高屋
裕介 市川
裕介 市川
翔一 長野
翔一 長野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011256179A priority Critical patent/JP5718213B2/en
Publication of JP2013109709A publication Critical patent/JP2013109709A/en
Application granted granted Critical
Publication of JP5718213B2 publication Critical patent/JP5718213B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、例えばHTML(Hyper Text Markup Language)などのハイパーテキスト記述言語でよって記述されるWebページの話題を判定する技術に関する。   The present invention relates to a technique for determining the topic of a Web page described in a hypertext description language such as HTML (Hyper Text Markup Language).

Webページに限らず、電子化された文書の話題を抽出する技術としては、特許文献1のトピック抽出方法が知られている。ここでは電子文書に含まれるテキストから名詞を特徴語として抽出し、抽出された特徴語を検索語としてウェブ検索を実行し、得られた検索結果に共通に出現する語句を話題とする。   As a technique for extracting a topic of an electronic document as well as a Web page, the topic extraction method of Patent Document 1 is known. Here, a noun is extracted as a feature word from text included in an electronic document, a web search is performed using the extracted feature word as a search word, and a phrase commonly appearing in the obtained search result is used as a topic.

ところが、特定の話題だけを含むWebページ集合を収集する検索エンジンのクローラプログラム(スパイダー、ロボット)は、Webページ中のハイパーリンクの情報に基づき自動的に繰り返しリンクを辿りWebページを収集することから、話題の判定に特許文献1を適用しようとした場合にはリンク先のWebページにアクセスする前に、該ページのテキスト情報を得ることができず、特定の話題に関するWebページのみを収集したいといった場合には、収集効率に問題があった。   However, a search engine crawler program (spider, robot) that collects a set of Web pages including only a specific topic automatically collects Web pages by repeatedly following links based on information on hyperlinks in the Web pages. When trying to apply Patent Document 1 to topic determination, it is not possible to obtain text information of the page before accessing the linked Web page, and it is desired to collect only Web pages related to a specific topic. In some cases, there was a problem with collection efficiency.

そこで、リンク先のWebページにアクセスする前に利用可能なURLを情報源として利用し、話題を判定する技術が非特許文献1に提案されている。ここではURLを記号等で処理単位の文字列(以下、トークン「token」と呼ぶ)に区切り、さらにトークンの部分文字列を特徴量として抽出する。この特徴量に対して、訓練事例によって機械的な学習を済ませた該当の話題か否かを判定器で判定する。   Therefore, Non-Patent Document 1 proposes a technique for determining a topic by using an available URL as an information source before accessing a linked Web page. Here, the URL is divided into character strings in units of processing (hereinafter referred to as tokens “token”) with symbols or the like, and further, partial character strings of tokens are extracted as feature amounts. With respect to this feature quantity, it is determined by a determiner whether or not it is a corresponding topic for which mechanical learning has been completed by a training example.

特開2009−15796JP2009-15796A

Eda Baykan,Monika Henzinger,Ludmila Marian,Ingmar Weber ”Purely URL-based Topic Classification” Proceedings of the 18th international conference on World wide web(WWW'09).pp1109-1110Eda Baykan, Monika Henzinger, Ludmila Marian, Ingmar Weber `` Purely URL-based Topic Classification '' Proceedings of the 18th international conference on World wide web (WWW'09) .pp1109-1110 ”Web便利ツール/URLエンコード・デコードフォーム−TAG index Webサイト”、「online」、「平成23年11月10日検索」、インターネット<URL:http://www.tagindex.com/tool/url.html"Web convenient tool / URL encoding / decoding form-TAG index website", "online", "November 10, 2011 search", Internet <URL: http://www.tagindex.com/tool/url. html

Webページの話題を判定するにあたって事前に収集済みの正解集合を学習データに用いる機械学習を採用する場合、話題の判定精度は正解集合の質およびWebページの特徴に何を利用するかに帰着する。特に、判定の情報源としてWebページのURLのみしか利用できない状況においてはURLからどの様な特徴を作り出すかが重要となる。   When using machine learning that uses a collection of correct answers collected in advance as learning data when determining the topic of a Web page, topic determination accuracy results in what is used for the quality of the correct set and the characteristics of the Web page. . In particular, in a situation where only the URL of a Web page can be used as an information source for determination, what kind of features are created from the URL is important.

非特許文献1では、前述のように判定可能なWebページを最大化するためにURLから得られたトークンの部分文字列を特徴として利用している。しかしながら、トークンがWebページの主要閲覧者の利用言語における単語をURLの規約によって表現した文字列であった場合には、該言語としては望ましくない区切りの部分文字列が特徴とされ、話題判定の精度に悪影響を与えるおそれがあった。   In Non-Patent Document 1, a token partial character string obtained from a URL is used as a feature in order to maximize the Web page that can be determined as described above. However, if the token is a character string that represents a word in the language used by the main viewer of the Web page according to the URL convention, it is characterized by a partial character string that is not desirable for the language. There was a risk of adversely affecting accuracy.

例えば、URL「http://example.co.jp/suitouchou/」のWebページについてみれば該URLのトークンの一つ「suitouchou」は日本語では「出納帳」に該当する。ところが、非特許文献1では、利用言語を考慮せずにアルファベットのままトークンの部分文字列を取得するため、「suit」のような部分文字列も特徴として利用されるおそれがある。これでは英語で紳士服のスーツを表す単語と同一表記となるため、処理対象のWebページの本来的な話題と異なるファッション関連の話題と判定されてしまう。   For example, in the case of a Web page with a URL “http://example.co.jp/suitouchou/”, one of the tokens “suitouchou” of the URL corresponds to a “book” in Japanese. However, in Non-Patent Document 1, since a partial character string of a token is acquired as an alphabet without considering the language used, a partial character string such as “suit” may be used as a feature. This is the same notation as a word representing a suit for men's clothing in English, so it is determined that it is a fashion-related topic different from the original topic of the Web page to be processed.

本発明は、上述のような従来技術の問題点を解決するためになされたものであり、WebページのURLから主要閲覧者が利用する言語を考慮した特徴を構築し、該言語に特化した適切な話題判定を行うことを解決課題としている。   The present invention has been made in order to solve the above-described problems of the prior art, and has constructed a feature that takes into account the language used by the main viewer from the URL of the Web page, and has specialized in that language. The problem is to perform appropriate topic determination.

そこで、本発明は、URLの文字構成からWebページの主要閲覧者が利用する言語を特定するため、URL中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する。例えば事前に作成された公用語辞書などを用いて主要言語を特定することができる。   Therefore, according to the present invention, in order to specify the language used by the main viewer of the Web page from the character configuration of the URL, the host use country is specified from the host name in the URL, and the main language in the use country is determined. For example, the main language can be specified using an official language dictionary created in advance.

また、URLを任意単位に分解した各文字列から主要言語に応じた特徴量を抽出する。例えば前記各文字列が前記主要言語の言語特徴に応じた文字列に変換可能であれば該変換された各文字列を特徴候補として抽出する。この各特徴候補から部分文字列を取得し、取得した部分文字列の出現頻度を特徴量として抽出することができる。   Also, feature amounts corresponding to the main language are extracted from each character string obtained by decomposing URL into arbitrary units. For example, if each character string can be converted into a character string corresponding to the language feature of the main language, the converted character string is extracted as a feature candidate. A partial character string can be acquired from each feature candidate, and the appearance frequency of the acquired partial character string can be extracted as a feature amount.

ここで抽出された特徴量を話題判定に用いることにより、Webページの主要閲覧者の利用言語を考慮した話題判定が可能となる。すなわち、Webページで利用されている言語において言葉として不適切な特徴量の抽出を抑制し、誤った話題判定を防止することができる。話題判定の手法としては、特定の話題に属するか否かを学習した判定器を用いて前記特徴量からWebページの話題を判定すればよい。   By using the feature amount extracted here for topic determination, it is possible to determine the topic in consideration of the language used by the main viewer of the Web page. That is, it is possible to suppress extraction of feature quantities inappropriate as words in a language used on a Web page, and to prevent erroneous topic determination. As a topic determination method, a topic of a Web page may be determined from the feature amount using a determiner that has learned whether or not it belongs to a specific topic.

本発明によれば、WebページのURLから主要閲覧者が利用する言語を考慮した特徴が構築でき、該言語に特化した適切な話題判定が可能となる。   According to the present invention, it is possible to construct a feature that takes into account the language used by the main viewer from the URL of the Web page, and it is possible to perform appropriate topic determination specialized for the language.

本発明の実施形態に係るWebページの話題判定装置の構成図。The block diagram of the topic determination apparatus of the web page which concerns on embodiment of this invention. 同 言語判定部の処理フロー図。The processing flow figure of the same language determination part. 同 特徴量抽出部の処理フロー図。The processing flow figure of the same feature quantity extraction part. 図3の処理フローの処理例。4 is a processing example of the processing flow of FIG.

以下、本発明の実施形態に係るWebページの話題判定装置を説明する。この話題判定装置は、URLの文字構成から主要閲覧者が利用する言語を特定し、判定された利用言語に応じた特徴量を抽出する。ここで抽出された特徴量を用いてWebページの話題を判定する。   A web page topic determination apparatus according to an embodiment of the present invention will be described below. This topic determination device specifies the language used by the main viewer from the character configuration of the URL, and extracts a feature amount corresponding to the determined usage language. The topic of the Web page is determined using the feature amount extracted here.

≪構成例≫
図1に基づき前記話題判定装置の構成例を説明する。ここでは前記話題判定装置1は、特定の話題を含むWebページ集合を収集する検索エンジンのクローラプログラム(スパイダー、ロボットなど)に利用される。
≪Configuration example≫
A configuration example of the topic determination device will be described with reference to FIG. Here, the topic determination device 1 is used in a crawler program (spider, robot, etc.) of a search engine that collects a set of Web pages including a specific topic.

具体的には前記話題判定装置1は、検索エンジンのサーバ群に構成され、通常のコンピュータのハードウェアリソース、例えばCPU.メモリ(RAM)やハードディスクドライブ装置などの記憶装置を備える。このハードウェアリソースとソフトウェアリソース(OS.アプリケーションなど)との協働の結果、前記話題判定装置1は、入力部10.言語判定部11.特徴量抽出部12.話題判定部13.出力部14を実装する。   Specifically, the topic determination device 1 is configured as a server group of search engines, and is a normal computer hardware resource such as a CPU. A storage device such as a memory (RAM) or a hard disk drive device is provided. As a result of the cooperation between the hardware resource and the software resource (OS. Application, etc.), the topic determination device 1 has the input unit 10. Language determination unit 11. Feature amount extraction unit 12. Topic determination unit 13. The output unit 14 is mounted.

この入力部10には話題判定対象のWebページ、即ちクローラプログラムで収集された各WebページのURLが入力される。ここで入力されたURLは言語判定部11に出力され、該URLのみを材料とするWebページの話題判定が開始される。   The URL of each Web page collected by the crawler program is input to the input unit 10 as a topic determination target Web page. The URL input here is output to the language determination unit 11, and the topic determination of the Web page using only the URL as a material is started.

すなわち、言語判定部11は、入力部10からの出力情報を入力とし、該URL中のホスト名から該ホスト名の利用国を特定し、さらに該ホスト名の利用国における主要言語を判定する。この主要言語をWebページで利用される言語、即ちWebページの主要閲覧者の利用言語と推定する。この主要言語およびURLは特徴量抽出部12に出力される。   That is, the language determination unit 11 receives the output information from the input unit 10, specifies the country of use of the host name from the host name in the URL, and further determines the main language in the country of use of the host name. This main language is estimated as the language used in the Web page, that is, the language used by the main viewer of the Web page. The main language and URL are output to the feature amount extraction unit 12.

特徴量抽出部12は、言語判定部11からの出力情報を入力とし、主要言語の言語特性を考慮してURLから特徴量を抽出する。ここではURLを処理単位の文字列に分解し、各文字列から主要言語に応じた特徴量を抽出する。このとき主要言語の言語特徴に応じた文字列に変換可能であれば、変換された各文字列の出現頻度を特徴量として抽出する。例えば主要言語として日本語が特定されれば、ローマ字かな変換・漢字かな変換などを行って特徴量を抽出することができる。抽出された特徴量は話題判定部13に出力される。   The feature quantity extraction unit 12 receives the output information from the language determination unit 11 and extracts the feature quantity from the URL in consideration of the language characteristics of the main language. Here, the URL is broken down into character strings in units of processing, and feature quantities corresponding to the main language are extracted from the character strings. At this time, if it can be converted into a character string corresponding to the language feature of the main language, the appearance frequency of each converted character string is extracted as a feature amount. For example, if Japanese is specified as the main language, it is possible to extract features by performing Romaji-kana conversion or Kanji conversion. The extracted feature amount is output to the topic determination unit 13.

話題判定部13は、特徴量抽出部12からの出力情報を入力とし、前記特徴量に基づきWebページの話題を判定する。ここでは事前に特定の話題に属するか否かを学習した判定器を利用する。この判定器に入力された前記特徴量が事前学習した話題を有するか否かでWebページの話題を判定する。この判定結果は、出力部14を通じて検索エンジンなどに出力される。以下、前記各部11〜13の処理内容を詳述する。   The topic determination unit 13 receives the output information from the feature amount extraction unit 12 and determines the topic of the Web page based on the feature amount. Here, a determiner that has learned in advance whether or not it belongs to a specific topic is used. The topic of the Web page is determined based on whether or not the feature value input to the determiner has a previously learned topic. The determination result is output to a search engine or the like through the output unit 14. Hereinafter, the processing content of each part 11-13 is explained in full detail.

≪言語判定部11の処理内容≫
図2に基づき言語判定部11の処理内容を詳述する。ここでは言語判定部11は、入力されたWebページのURL中におけるホスト名(サイト名)を取得する。この取得後に図2の処理を開始するものとする。この処理はURL毎に行われるものとする。
<< Processing content of language determination unit 11 >>
The processing content of the language determination unit 11 will be described in detail based on FIG. Here, the language determination unit 11 acquires the host name (site name) in the URL of the input Web page. Assume that the processing of FIG. 2 is started after this acquisition. This process is performed for each URL.

S01:前記ホスト名に国別コードトップレベルドメインが含まれているか否かを判定する。判定の結果、該ドメインが含まれていなければS02に進む一方、該ドメインが含まれていれば国別コードに基づき前記ホスト名の利用国を特定する。ここで特定された前記ホスト名の利用国をWebページの対象国と決定し、S03に進む。例えば、前記ホスト名に「.jp」などが含まれていれば日本国をWebページの対象国と決定する。   S01: It is determined whether or not a country code top level domain is included in the host name. As a result of the determination, if the domain is not included, the process proceeds to S02. If the domain is included, the country of use of the host name is specified based on the country code. The country of use of the host name specified here is determined as the target country of the Web page, and the process proceeds to S03. For example, if “.jp” is included in the host name, Japan is determined as the target country of the Web page.

S02:前記ホスト名(より正確にはホスト名中のドメイン名)に対してwhois(フーイズ)システム、即ちインターネット上でのドメイン名の所有者を検索するプロトコルを利用することで前記ホスト名の利用国が特定できるか否か確認する。確認の結果、前記ホスト名の利用国が特定できれば該利用国をWebページの対象国に決定してS03に進む一方、特定できなければ処理を終了する。   S02: Use of the host name by using a whois system for the host name (more precisely, the domain name in the host name), that is, a protocol for searching for the owner of the domain name on the Internet. Check if the country can be identified. As a result of the confirmation, if the country of use of the host name can be identified, the country of use is determined as the target country of the Web page, and the process proceeds to S03.

S03:S01.S02で決定されたWebページの対象国における主要言語を事前に作成された公用語辞書を用いて判定し、処理を終了する。この公用語辞書には国別に主要言語が掲載されていればよい。この主要言語に複数言語が掲載されていれば、該各言語を前記対象国の主要言語と判定できるものとする。   S03: S01. The main language in the target country of the Web page determined in S02 is determined using an official language dictionary created in advance, and the process ends. This official language dictionary only needs to contain major languages by country. If a plurality of languages are listed in the main language, each language can be determined as the main language of the target country.

≪特徴量抽出部12の処理内容≫
図3に基づき特徴量抽出部12の処理内容を詳述する。ここでは言語判定部11において主要言語として日本語が特定された場合の処理内容を説明する。この特徴量抽出部12の処理もURL毎に行われるものとする。
≪Processing content of feature quantity extraction unit 12≫
The processing content of the feature amount extraction unit 12 will be described in detail based on FIG. Here, the processing contents when Japanese is specified as the main language in the language determination unit 11 will be described. It is assumed that the process of the feature amount extraction unit 12 is also performed for each URL.

S11:入力されたURLを記号「.」「-」「/」などの区切り文字によって複数個のトークン、即ち処理対象の各文字列に分解する。このトークン毎にS12以降の処理が実行される。   S11: The inputted URL is decomposed into a plurality of tokens, that is, respective character strings to be processed, by delimiters such as symbols “.”, “-”, “/”. The processing after S12 is executed for each token.

S12:S11で分解された各トークンが、パーセントエンコード(Percent−Encode)、即ち文字コードを16進数で表して「%xx」(xxは16進数)の形に変換するエンコード方式が施されているか否かを判定する。   S12: Is each token decomposed in S11 subjected to percent encoding (Percent-Encode), that is, an encoding method in which the character code is expressed in hexadecimal and converted into the form of “% xx” (xx is hexadecimal)? Determine whether or not.

ここでURLの規則を定めるRFC3986によれば、URL中のASCII以外の文字およびASCIIの予約文字は「%xx」に変換される。例えば「SHIFT_JIS」で書かれた文字「あ」であれば「%82%a0」の形に変換され、文字「い」であれば「%82%a2」の形に変換される。このような変換表記に基づき前記トークンにパーセントエンコードが施されているか否か判定する。   Here, according to RFC3986 that defines the URL rule, characters other than ASCII and ASCII reserved characters in the URL are converted to “% xx”. For example, the character “A” written in “SHIFT_JIS” is converted into the form “% 82% a0”, and the character “I” is converted into the form “% 82% a2”. Based on such conversion notation, it is determined whether or not the token is percent-encoded.

S13.S14:S11の判定の結果、パーセントエンコードが施されたトークンに対してはデコードを実行する。このデコード結果の文字列にカタカナや漢字が含まれていれば、ひらがな変換を行ったうえで変換後の文字列を取得する(S13)。ここで取得した文字列を図示省略のリストに特徴候補として登録する(S14)。   S13. S14: As a result of the determination in S11, decoding is executed for the token that has been percent-encoded. If the decoded character string contains katakana or kanji, hiragana conversion is performed and the converted character string is acquired (S13). The character string acquired here is registered as a feature candidate in a list not shown (S14).

なお、前記デコードには、例えば非特許文献2のような汎用ツールを用いることができ、また前記の漢字ひらがな変換は事前に用意された漢和辞書を用いればよい。   For the decoding, a general-purpose tool such as Non-Patent Document 2, for example, can be used, and the Kanji-Hiragana conversion may be performed using a previously prepared Han-Japanese dictionary.

S15.S16:S11の判定の結果、パーセントエンコードが施されていないトークン(非パーセントエンコードのトークン)に対しては、トークンの文字列にローマ字かな変換を行う。ここではトークンの文字列がひらがな文字列に変換可能か否か、即ち完全に平仮名で表現可能か否かを確認する(S15)。   S15. S16: As a result of the determination in S11, for tokens that have not been percent-encoded (non-percent-encoded tokens), Roman character kana conversion is performed on the token character string. Here, it is confirmed whether or not the character string of the token can be converted into a hiragana character string, that is, whether or not it can be completely expressed in hiragana (S15).

確認の結果、トークンの文字列が完全にひらがなで表現可能な場合は、変換後のひらがな文字列を前記リストに特徴候補として登録する(S16)。例えばトークンの文字列が「suitouchou」であれば、ひらがな文字列「すいとうちょう」を特徴候補として登録する。一方、ひらがなに変換できない文字列は、ローマ字かな変換により完全に平仮名で表現できないため、アルファベット文字列のまま前記リストに特徴候補として登録する(S16)。   As a result of the confirmation, if the token character string can be expressed completely in hiragana, the converted hiragana character string is registered as a feature candidate in the list (S16). For example, if the character string of the token is “suitouchou”, the hiragana character string “Sato Ito” is registered as a feature candidate. On the other hand, since a character string that cannot be converted into hiragana cannot be completely expressed in hiragana by romaji-kana conversion, it is registered as a feature candidate in the list as an alphabetic character string (S16).

S17:S14又はS16で前記リストに登録されたすべての特徴候補から部分文字列を抽出した部分文字列集合を取得する。ここでは各部分文字列の前記集合内における出現頻度(出現回数)をカウントし、カウント結果の数量を特徴量として抽出する。この抽出後に特徴量を話題判定部13に出力し、処理を終了する。この出力後に前記リストが初期化され、次のURLの処理が開始される。   S17: A partial character string set obtained by extracting partial character strings from all feature candidates registered in the list in S14 or S16 is acquired. Here, the appearance frequency (number of appearances) of each partial character string in the set is counted, and the quantity of the count result is extracted as a feature amount. After the extraction, the feature amount is output to the topic determination unit 13 and the process is terminated. After this output, the list is initialized and the processing of the next URL is started.

なお、S15.S16では、非パーセントエンコードのトークンの文字列に対して、ローマ字かな変換でひらがな文字列に変換可能か否かを判定し、ひらがな文字列とアルファベット文字列とを排他的に利用する方式を示しているが、ひらがな文字列に変換可能な場合には、本来のアルファベット文字とひらがな文字列の双方を特徴候補として利用する方式としてもよい。   S15. In S16, it is determined whether or not a character string of a non-percent-encoded token can be converted into a hiragana character string by romaji kana conversion, and a method of using the hiragana character string and the alphabet character string exclusively is shown. However, when it can be converted into a hiragana character string, both the original alphabetic character and the hiragana character string may be used as feature candidates.

また、S13では、パーセントエンコードが施されたトークンに対して、デコード後の文字列に漢字やカタカナが含まれている場合にひらがなに変換する方式を示しているが、デコード語の文字列をそのまま特徴候補として登録する方式としてもよい。   Further, S13 shows a method of converting hiragana to a token subjected to percent encoding when the decoded character string includes kanji or katakana. However, the decoded character string is used as it is. A method of registering as feature candidates may be used.

さらに、特徴候補や特徴候補の部分文字列に対して文字列の長さの制約を設けてもよく、出現頻度があまりにも大きすぎる文字列をストップ文字列として事前に除外する方式を採用することもできる。   Furthermore, character string length restrictions may be set for feature candidates and partial character strings of feature candidates, and a method of excluding a character string with an appearance frequency that is too large in advance as a stop character string should be adopted. You can also.

≪特徴量抽出部12の処理例≫
以下、図4に基づき特徴量抽出部12の処理例を説明する。ここではURL「http://www.example.co.jp/ichirei.html?category=%e3%82%b5%e3%83%b3%e3%83%97%e3%83%ab」が入力部10に入力され,言語判定部11で日本語が主要言語と判定されているものとする。また、特徴候補および特徴候補の部分文字列には文字列長「3〜8」の制約が設定され、ストップ文字列として「www」.「html」が事前に設定されているものとする。
<< Processing Example of Feature Quantity Extraction Unit 12 >>
Hereinafter, a processing example of the feature amount extraction unit 12 will be described with reference to FIG. Here, the URL “http://www.example.co.jp/ichirei.html?category=%e3%82%b5%e3%83%b3%e3%83%97%e3%83%ab” is the input section 10 and the language determination unit 11 determines that Japanese is the main language. In addition, the restriction of the character string length “3 to 8” is set for the feature candidate and the partial character string of the feature candidate, and “www”. It is assumed that “html” is set in advance.

まず、特徴量抽出部12に前記URLおよび前記主要言語が入力されると、S11において前記URLに対するトークン化が実行される。このトークン化の結果、前記URLは、「www」.「example」.「co」.「jp」.「ichirei」.「html」.「category」.「%e3%82%b5%e3%83%b3%e3%83%97%e3%83%ab」のトークンに分解される。   First, when the URL and the main language are input to the feature amount extraction unit 12, tokenization of the URL is executed in S11. As a result of the tokenization, the URL is “www”. “Example”. “Co”. “Jp”. “Ichirei”. “Html”. “Category”. It is broken down into tokens of “% e3% 82% b5% e3% 83% b3% e3% 83% 97% e3% 83% ab”.

つぎにトークン「example」.「category」.「ichirei」は、S12で非パーセントエンコードと判定され、S15に進む。ここでトークン「example」.「category」は、ローマ字かな変換でひらがな変換できないため、S16ではアルファベット文字のまま特徴候補として登録される。一方、トークン「ichirei」は、ローマ字かな変換により「いちれい」と表現できるため、S16では「いちれい」のひらがな文字列が特徴候補として登録される。   Next, the token “example”. “Category”. “Ichirei” is determined to be non-percent encoding in S12, and the process proceeds to S15. Here token "example". Since “category” cannot be converted to hiragana by romaji kana conversion, it is registered as a feature candidate as an alphabetic character in S16. On the other hand, since the token “ichirei” can be expressed as “Ichirei” by converting the Roman character to Kana, the hiragana character string “Ichirei” is registered as a feature candidate in S16.

また、トークン「%e3%82%b5%e3%83%b3%e3%83%97%e3%83%ab」は、S12でパーセントエンコードが施されていると判定される。この判定後にS13で「サンプル」にデコードされ、さらに「さんぷる」にひらがな変換される。この変換後にS14で「さんぷる」のひらがな文字列が特徴候補として登録される。なお、トークン「www」.「html」は、ストップ文字列に該当するため、S12〜S16の処理から除外される。さらにトークン「co」.「jp」も、文字列長の制約から同様に除外される。   The token “% e3% 82% b5% e3% 83% b3% e3% 83% 97% e3% 83% ab” is determined to have been percent-encoded in S12. After this determination, it is decoded into “sample” in S13, and further hiragana converted to “sample”. After this conversion, the hiragana character string “Sample” is registered as a feature candidate in S14. The token “www”. Since “html” corresponds to a stop character string, it is excluded from the processes of S12 to S16. Furthermore, the token “co”. “Jp” is also excluded from the restriction on the character string length.

このS11〜S16の処理の結果、「example」.「いちれい」.「category」.「さんぷる」の文字列が特徴候補として登録される。そして、S17において各特徴候補の文字列から長さ「3〜8」の範囲内で部分文字列を取得し、各部分文字列の出現頻度をカウントしてURLの特徴量、例えば「exa:1」.「xam:1」.「amp:1」などを抽出する。この特徴量の「1」は部分文字列集合内の出現回数を示している。   As a result of the processing of S11 to S16, “example”. “Ichirei”. “Category”. The character string “Sampuru” is registered as a feature candidate. Then, in S17, partial character strings are acquired from the character strings of the respective feature candidates within the range of length “3 to 8”, and the frequency of appearance of each partial character string is counted, for example, “exa: 1 ". “Xam: 1”. Extract “amp: 1” and so on. The feature quantity “1” indicates the number of appearances in the partial character string set.

≪話題判定部13の処理内容≫
以下、話題判定部13の処理内容を詳述する。具体的には話題判定部13は、特徴量抽出部12から出力された特徴量を入力とし、Webページの話題を判定した結果を出力する。この話題判定部13では、事前に判定対象の話題に対して機械学習を利用した判定器の学習を行う必要がある。ここでは一例として「政治」を判定対象の話題とする場合を説明する。
≪Processing content of topic determination unit 13≫
Hereinafter, the processing content of the topic determination part 13 is explained in full detail. Specifically, the topic determination unit 13 receives the feature amount output from the feature amount extraction unit 12 and outputs the result of determining the topic of the Web page. The topic determination unit 13 needs to learn a determiner using machine learning on a topic to be determined in advance. Here, as an example, a case where “politics” is the subject of determination will be described.

この学習にあたっては、あらかじめ「政治」に関連したWebページ集合と、「政治」に関連しないWebページ集合とを準備する必要がある。すなわち、「政治」に関連するWebページ集合のURL群から得られた特徴量を、特徴量抽出部12によって得られた特徴量の2値判定における正例として判定器の学習事例に利用する。同様に「政治」に関連しないWebページ集合のURL群から得られた特徴量を、特徴量抽出部12によって得られた特徴量の2値判定における負例として利用する。   In this learning, it is necessary to prepare a Web page set related to “politics” and a Web page set not related to “politics” in advance. That is, the feature amount obtained from the URL group of the Web page set related to “politics” is used as a learning example of the determiner as a positive example in the binary determination of the feature amount obtained by the feature amount extraction unit 12. Similarly, the feature quantity obtained from the URL group of the web page set not related to “politics” is used as a negative example in the binary judgment of the feature quantity obtained by the feature quantity extraction unit 12.

この正例・負例を学習済みの判定器に特徴量抽出部12によって得られた特徴量を入力として与えることにより、処理対象のWebページが「政治」に関連した話題を有するか否かを判定する。   Whether or not the Web page to be processed has a topic related to “politics” by giving the feature quantity obtained by the feature quantity extraction unit 12 as an input to the discriminator that has already learned positive examples and negative examples. judge.

この判定結果は、出力部14を通じて検索エンジンに出力され、全文索引を構築するための分類アルゴリズムなどに利用される。このとき前記話題判定装置1によれば、S11〜S17の処理を通じて主要言語の特徴を考慮した特徴量が抽出されることから、Webページの主要閲覧者の利用言語として望ましくない部分文字列における特徴量の抽出が防止され、該利用言語に特化した適切な話題判定を行うことができる。   This determination result is output to the search engine through the output unit 14 and used for a classification algorithm for constructing a full-text index. At this time, according to the topic determination device 1, the feature amount considering the feature of the main language is extracted through the processing of S 11 to S 17, so the feature in the partial character string that is not desirable as the language used by the main viewer of the Web page Extraction of the amount is prevented, and appropriate topic determination specialized in the language used can be performed.

例えばURL「http://example.co.jp/suitouchou/」についてみれば、URLに国別コードトップレベルドメイン「.jp」を含むため、日本語が主要言語と判定される。このURLを分解したトークン「suitouchou」は、S15のローマ字かな変換により「すいとうちょう」と表現可能なため、S16において「すいとうちょう」の文字列が特徴候補として登録される。   For example, regarding the URL “http://example.co.jp/suitouchou/”, the country code top-level domain “.jp” is included in the URL, so that Japanese is determined as the main language. Since the token “suitouchou” obtained by decomposing the URL can be expressed as “Suichou” by the Roman character Kana conversion in S15, the character string “Suichou” is registered as a feature candidate in S16.

したがって、非特許文献1のように「suit」の部分文字列が特徴量として抽出されることはなく、Webページの言語(ここでは日本語)の言葉としては不適切な特徴量の抽出が抑制され、誤った話題判定を防止することができる。   Therefore, unlike the non-patent document 1, the partial character string “suit” is not extracted as a feature amount, and the extraction of a feature amount inappropriate as a language of a Web page language (in this case, Japanese) is suppressed. This makes it possible to prevent erroneous topic determination.

なお、本発明は、上記実施形態に限定されるものではなく、各請求項に記載された範囲内で適宜変形して実施することができる。例えば言語判定部11で日本語が特定された場合のみならず、他の外国語が特定された場合にも適用することができる。この場合にはS13.S15を特定された外国語に応じた変換にすればよい。   In addition, this invention is not limited to the said embodiment, It can deform | transform suitably and implement within the range described in each claim. For example, the present invention can be applied not only when the language determination unit 11 specifies Japanese but also when other foreign languages are specified. In this case, S13. S15 may be converted according to the specified foreign language.

また、話題判定部13の処理内容では「政治」に関連するか否かという2値判定を示したが、あらかじめ複数の判定対象の話題(例えばスポーツやファッションなど)に関するWebページ集合を準備し、それぞれの話題に応じた2値判定器を用意することによって、判定器から得られる分類の確信度の最も高い話題を話題判定対象のWebページが有する話題として判定する方式を採用することもできる。さらに話題を一意に定めずに確信度が一定値以上の話題を処理対象のWebページに対するメタデータとして付与する方式を採用してもよい。   In addition, the processing content of the topic determination unit 13 indicates a binary determination as to whether or not it is related to “politics”, but prepares a set of Web pages related to a plurality of determination target topics (for example, sports and fashion) in advance. By preparing a binary determiner corresponding to each topic, it is possible to adopt a method for determining the topic having the highest classification certainty obtained from the determiner as the topic of the topic determination target Web page. Further, a method may be adopted in which a topic having a certainty level or more is given as metadata for a Web page to be processed without uniquely defining the topic.

≪プログラムなど≫
本発明は、前記話題判定装置1の各部10〜14の一部もしくは全部として、コンピュータを機能させるWebページの話題判定プログラムとして構成することもできる。このプログラムによれば、S01〜S03.S11〜S17の一部あるいは全部をコンピュータに実行させることが可能となる。
≪Programs≫
The present invention may be configured as a topic determination program for a Web page that causes a computer to function as part or all of the units 10 to 14 of the topic determination device 1. According to this program, S01 to S03. It becomes possible to cause the computer to execute part or all of S11 to S17.

前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。   The program can be provided through a network such as a website or e-mail. The program is stored in a recording medium such as a CD-ROM, DVD-ROM, CD-R, CD-RW, DVD-R, DVD-RW, MO, HDD, BD-ROM, BD-R, or BD-RE. It is also possible to record, save and distribute. This recording medium is read using a recording medium driving device, and the program code itself realizes the processing of the above embodiment, so that the recording medium also constitutes the present invention.

1…Webページの話題判定装置
10…入力部
11…言語判定部(言語判定手段)
12…特徴量抽出部(特徴量抽出手段)
13…話題判定部(話題判定手段)
14…出力部
DESCRIPTION OF SYMBOLS 1 ... Web page topic determination apparatus 10 ... Input unit 11 ... Language determination unit (language determination unit)
12 ... feature quantity extraction unit (feature quantity extraction means)
13 ... Topic determination unit (topic determination means)
14 ... Output section

Claims (7)

Webページの言及する話題をURLに基づき判定するWebページの話題判定装置であって、
URL中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する言語判定手段と、
URLを任意の単位に分解した各文字列から言語判定手段で特定された主要言語に応じた特徴量を抽出する特徴量抽出手段と、
特定の話題に属するか否かを学習した判定器を用いて特徴量抽出手段の抽出した特徴量からWebページの話題を判定する話題判定手段と、を備え、
言語判定手段は、あらかじめ作成された公用語辞書に基づき前記利用国の主要言語を判定する一方、
特徴量抽出手段は、前記各文字列が主要言語の言語特徴に応じた文字列に変換可能であれば該変換された各文字列を特徴候補として抽出し、
該各特徴候補から部分文字列を取得し、各部分文字列の出現頻度を特徴量として抽出することを特徴とするWebページの話題判定装置。
A web page topic determination apparatus for determining a topic referred to by a web page based on a URL,
Language determination means for identifying the host user country from the host name in the URL and determining the main language in the user country;
Feature quantity extraction means for extracting feature quantities according to the main language specified by the language determination means from each character string obtained by decomposing URL into arbitrary units;
Topic determination means for determining the topic of a web page from the feature quantity extracted by the feature quantity extraction means using a determiner that has learned whether or not it belongs to a specific topic ,
The language determining means determines the main language of the user country based on an official language dictionary created in advance,
The feature amount extraction unit extracts each converted character string as a feature candidate if each of the character strings can be converted into a character string corresponding to a language feature of a main language,
A Web page topic determination device characterized in that a partial character string is obtained from each feature candidate, and an appearance frequency of each partial character string is extracted as a feature amount.
特徴量抽出手段は、言語判定手段の判定が日本語であれば、前記各文字列にパーセントエンコードが施されているか否か判定し、
パーセントエンコードが施された文字列に対してはデコードを実行し、デコード後の文字列にカタカナや漢字が含まれていれば、ひらがな変換後の文字列を特徴候補とする一方、
非パーセントエンコードの文字列に対してはローマ字かな変換を実行し、完全にひらがなで表現可能であれば該変換後の文字列を特徴候補とする
ことを特徴とする請求項1記載のWebページの話題判定装置。
If the determination of the language determination means is Japanese, the feature amount extraction means determines whether or not each character string is subjected to percent encoding,
Decode the character string that has been percent-encoded, and if the decoded character string contains katakana or kanji, the character string after hiragana conversion is used as a feature candidate.
2. The Web page according to claim 1, wherein a non-percent-encoded character string is subjected to Roman-kana conversion, and if the character string can be expressed completely in hiragana, the converted character string is used as a feature candidate . Topic determination device.
特徴候補あるいは前記部分文字列から除外する文字列を設定可能なことを特徴とする請求項1または2のいずれか1項に記載のWebページの話題判定装置。The topic determination device for a Web page according to claim 1, wherein a feature candidate or a character string to be excluded from the partial character string can be set. Webページの言及する話題をURLに基づき判定する装置の実行するWebページの話題判定方法であって、
URL中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する言語判定ステップと、
URLを任意の単位に分解した各文字列から言語判定手段で特定された主要言語に応じた特徴量を抽出する特徴量抽出ステップと、
特定の話題に属するか否かを学習した判定器を用いて特徴量抽出手段の抽出した特徴量からWebページの話題を判定する話題判定ステップと、を有し、
言語判定ステップは、あらかじめ作成された公用語辞書に基づき前記利用国の主要言語を判定するステップと、
特徴量抽出ステップは、前記各文字列が主要言語の言語特徴に応じた文字列に変換可能であれば該変換された各文字列を特徴候補として抽出するステップと、
該各特徴候補から部分文字列を取得し、各部分文字列の出現頻度を特徴量として抽出するステップと、
を有することを特徴とするWebページの話題判定方法。
A method for determining a topic of a Web page executed by an apparatus for determining a topic referred to by a Web page based on a URL,
A language determination step of identifying a host user country from a host name in a URL and determining a main language in the user country;
A feature amount extraction step of extracting a feature amount according to the main language specified by the language determination means from each character string obtained by decomposing the URL into arbitrary units;
A topic determination step of determining the topic of the web page from the feature amount extracted by the feature amount extraction means using a determiner that has learned whether or not it belongs to a specific topic ,
The language determination step includes a step of determining a main language of the user country based on an official language dictionary created in advance,
The feature amount extraction step includes extracting each converted character string as a feature candidate if each character string can be converted into a character string corresponding to a language feature of a main language;
Obtaining a partial character string from each feature candidate and extracting the appearance frequency of each partial character string as a feature amount; and
A method for determining the topic of a Web page, comprising:
特徴量抽出ステップは、言語判定手段の判定が日本語であれば、前記各文字列にパーセントエンコードが施されているか否か判定するステップと、
パーセントエンコードが施された文字列に対してはデコードを実行し、デコード後の文字列にカタカナや漢字が含まれていれば、ひらがな変換後の文字列を特徴候補とするステップと、
非パーセントエンコードの文字列に対してはローマ字かな変換を実行し、完全にひらがなで表現可能であれば該変換後の文字列を特徴候補とするステップと、
を有することを特徴とする請求項4記載のWebページの話題判定方法。
If the determination of the language determination means is Japanese, the feature amount extraction step includes a step of determining whether or not percent encoding is applied to each character string;
Perform decoding on the character string that has been subjected to percent encoding, and if the decoded character string contains katakana or kanji, the character string after hiragana conversion is used as a feature candidate,
Performing a romaji kana conversion on a non-percent encoded character string, and if the character string can be expressed completely in hiragana, the converted character string as a feature candidate;
The method for determining the topic of a Web page according to claim 4, comprising:
特徴量抽出ステップは、事前に設定された条件に合致する文字列を特徴候補あるいは前記部分文字列から除外する
ことを特徴とする請求項4または5のいずれか1項に記載のWebページの話題判定方法。
6. The topic of a Web page according to claim 4, wherein the feature quantity extraction step excludes a character string that matches a preset condition from the feature candidates or the partial character string. Judgment method.
請求項1〜3のいずれか1項に記載されたWebページの話題判定装置としてコンピュータを機能させるWebページの話題判定プログラム。 A Web page topic determination program for causing a computer to function as the Web page topic determination device according to any one of claims 1 to 3 .
JP2011256179A 2011-11-24 2011-11-24 Web page topic determination device, Web page topic determination method, and Web page topic determination program Active JP5718213B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011256179A JP5718213B2 (en) 2011-11-24 2011-11-24 Web page topic determination device, Web page topic determination method, and Web page topic determination program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011256179A JP5718213B2 (en) 2011-11-24 2011-11-24 Web page topic determination device, Web page topic determination method, and Web page topic determination program

Publications (2)

Publication Number Publication Date
JP2013109709A JP2013109709A (en) 2013-06-06
JP5718213B2 true JP5718213B2 (en) 2015-05-13

Family

ID=48706368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011256179A Active JP5718213B2 (en) 2011-11-24 2011-11-24 Web page topic determination device, Web page topic determination method, and Web page topic determination program

Country Status (1)

Country Link
JP (1) JP5718213B2 (en)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212225A (en) * 1995-01-31 1996-08-20 Matsushita Electric Ind Co Ltd Language judgement device
US5909510A (en) * 1997-05-19 1999-06-01 Xerox Corporation Method and apparatus for document classification from degraded images
JP2002189721A (en) * 2000-10-11 2002-07-05 Mieko Tsuyusaki Web page retrieval system and translation system
JP4489994B2 (en) * 2001-05-11 2010-06-23 富士通株式会社 Topic extraction apparatus, method, program, and recording medium for recording the program
JP2003288338A (en) * 2002-03-27 2003-10-10 Toshiba Corp Device and method for machine translation
US7941418B2 (en) * 2005-11-09 2011-05-10 Microsoft Corporation Dynamic corpus generation
JP5317061B2 (en) * 2009-07-30 2013-10-16 独立行政法人情報通信研究機構 A simultaneous classifier in multiple languages for the presence or absence of a semantic relationship between words and a computer program therefor.

Also Published As

Publication number Publication date
JP2013109709A (en) 2013-06-06

Similar Documents

Publication Publication Date Title
CN108459874B (en) Code automatic summarization method integrating deep learning and natural language processing
US11762926B2 (en) Recommending web API&#39;s and associated endpoints
CN107229668B (en) Text extraction method based on keyword matching
CN111651198B (en) Automatic code abstract generation method and device
CN106599160B (en) Content rule library management system and coding method thereof
CN102693279B (en) Method, device and system for fast calculating comment similarity
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
WO2008014702A1 (en) Method and system of extracting new words
CN110019820B (en) Method for detecting time consistency of complaints and symptoms of current medical history in medical records
CN104750820A (en) Filtering method and device for corpuses
CN106446072A (en) Webpage content processing method and apparatus
CN110008473B (en) Medical text named entity identification and labeling method based on iteration method
CN101308512B (en) Mutual translation pair extraction method and device based on web page
US20240311432A1 (en) System and method for search discovery
CN113010679A (en) Question and answer pair generation method, device and equipment and computer readable storage medium
WO2015024429A1 (en) Method and device for acquiring movie and television subject from webpage
CN113806483A (en) Data processing method and device, electronic equipment and computer program product
WO2013143362A1 (en) Method, device, and computer storage media for adding hyperlink to text
CN115526176A (en) Text recognition method and device, electronic equipment and storage medium
JP5757551B2 (en) Semantic classification assignment device, semantic classification provision method, semantic classification provision program
CN109241438B (en) Element-based cross-channel hot event discovery method and device and storage medium
JP5718213B2 (en) Web page topic determination device, Web page topic determination method, and Web page topic determination program
JP6168057B2 (en) Failure occurrence cause extraction device, failure occurrence cause extraction method, and failure occurrence cause extraction program
CN107451215B (en) Feature text extraction method and device
CN109885827B (en) Deep learning-based named entity identification method and system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140805

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150318

R150 Certificate of patent or registration of utility model

Ref document number: 5718213

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150