JP2013109709A - Webページの話題判定装置、Webページの話題判定方法、Webページの話題判定プログラム - Google Patents
Webページの話題判定装置、Webページの話題判定方法、Webページの話題判定プログラム Download PDFInfo
- Publication number
- JP2013109709A JP2013109709A JP2011256179A JP2011256179A JP2013109709A JP 2013109709 A JP2013109709 A JP 2013109709A JP 2011256179 A JP2011256179 A JP 2011256179A JP 2011256179 A JP2011256179 A JP 2011256179A JP 2013109709 A JP2013109709 A JP 2013109709A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- web page
- language
- character string
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】Webページの話題判定装置1の入力部10には、判定対象のWebページのURLが入力される。言語判定部11は、入力部10に入力されたURL中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する。特徴量抽出部12は、URLを記号等で区切ったトークンの文字列から主要言語に応じた特徴量を抽出する。話題判定部13は、特定の話題に属するか否かを学習した判定器を用いて前記特徴量からWebページの話題を判定する。この判定結果は出力部14を通じて出力される。
【選択図】図1
Description
図1に基づき前記話題判定装置の構成例を説明する。ここでは前記話題判定装置1は、特定の話題を含むWebページ集合を収集する検索エンジンのクローラプログラム(スパイダー、ロボットなど)に利用される。
図2に基づき言語判定部11の処理内容を詳述する。ここでは言語判定部11は、入力されたWebページのURL中におけるホスト名(サイト名)を取得する。この取得後に図2の処理を開始するものとする。この処理はURL毎に行われるものとする。
図3に基づき特徴量抽出部12の処理内容を詳述する。ここでは言語判定部11において主要言語として日本語が特定された場合の処理内容を説明する。この特徴量抽出部12の処理もURL毎に行われるものとする。
以下、図4に基づき特徴量抽出部12の処理例を説明する。ここではURL「http://www.example.co.jp/ichirei.html?category=%e3%82%b5%e3%83%b3%e3%83%97%e3%83%ab」が入力部10に入力され,言語判定部11で日本語が主要言語と判定されているものとする。また、特徴候補および特徴候補の部分文字列には文字列長「3〜8」の制約が設定され、ストップ文字列として「www」.「html」が事前に設定されているものとする。
以下、話題判定部13の処理内容を詳述する。具体的には話題判定部13は、特徴量抽出部12から出力された特徴量を入力とし、Webページの話題を判定した結果を出力する。この話題判定部13では、事前に判定対象の話題に対して機械学習を利用した判定器の学習を行う必要がある。ここでは一例として「政治」を判定対象の話題とする場合を説明する。
本発明は、前記話題判定装置1の各部10〜14の一部もしくは全部として、コンピュータを機能させるWebページの話題判定プログラムとして構成することもできる。このプログラムによれば、S01〜S03.S11〜S17の一部あるいは全部をコンピュータに実行させることが可能となる。
10…入力部
11…言語判定部(言語判定手段)
12…特徴量抽出部(特徴量抽出手段)
13…話題判定部(話題判定手段)
14…出力部
Claims (5)
- Webページの言及する話題をURLに基づき判定するWebページの話題判定装置であって、
URL中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する言語判定手段と、
URLを任意の単位に分解した各文字列から言語判定手段で特定された主要言語に応じた特徴量を抽出する特徴量抽出手段と、
特定の話題に属するか否かを学習した判定器を用いて特徴量抽出手段の抽出した特徴量からWebページの話題を判定する話題判定手段と、
を備えることを特徴とするWebページの話題判定装置。 - 言語判定手段は、あらかじめ作成された公用語辞書に基づき前記利用国の主要言語を判定する一方、
特徴量抽出手段は、前記各文字列が主要言語の言語特徴に応じた文字列に変換可能であれば該変換された各文字列を特徴候補として抽出し、
該各特徴候補から部分文字列を取得し、該各部分文字列の出現頻度を特徴量として抽出する
ことを特徴とする請求項1に記載されたWebページの話題判定装置。 - Webページの言及する話題をURLに基づき判定する装置の実行するWebページの話題判定方法であって、
URL中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する言語判定ステップと、
URLを任意の単位に分解した各文字列から言語判定手段で特定された主要言語に応じた特徴量を抽出する特徴量抽出ステップと、
特定の話題に属するか否かを学習した判定器を用いて特徴量抽出手段の抽出した特徴量からWebページの話題を判定する話題判定ステップと、
を有することを特徴とするWebページの話題判定方法。 - 言語判定ステップは、あらかじめ作成された公用語辞書に基づき前記利用国の主要言語を特定する一方、
特徴量抽出ステップは、前記各文字列が主要言語の言語特徴に応じた文字列に変換可能であれば該変換された各文字列を特徴候補として抽出するステップと、
該各特徴候補から部分文字列を取得し、該各部分文字列の出現頻度を特徴量として抽出するステップと、
を有することを特徴とする請求項3に記載されたWebページの話題判定方法。 - 請求項1または2のいずれか1項に記載されたWebページの話題判定装置としてコンピュータを機能させるWebページの話題判定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011256179A JP5718213B2 (ja) | 2011-11-24 | 2011-11-24 | Webページの話題判定装置、Webページの話題判定方法、Webページの話題判定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011256179A JP5718213B2 (ja) | 2011-11-24 | 2011-11-24 | Webページの話題判定装置、Webページの話題判定方法、Webページの話題判定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013109709A true JP2013109709A (ja) | 2013-06-06 |
JP5718213B2 JP5718213B2 (ja) | 2015-05-13 |
Family
ID=48706368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011256179A Active JP5718213B2 (ja) | 2011-11-24 | 2011-11-24 | Webページの話題判定装置、Webページの話題判定方法、Webページの話題判定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5718213B2 (ja) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08212225A (ja) * | 1995-01-31 | 1996-08-20 | Matsushita Electric Ind Co Ltd | 言語判定装置 |
JPH1125127A (ja) * | 1997-05-19 | 1999-01-29 | Fuji Xerox Co Ltd | 文書分類方法及び文書分類装置 |
JP2002189721A (ja) * | 2000-10-11 | 2002-07-05 | Mieko Tsuyusaki | Webページ検索システム及び翻訳システム |
JP2002334106A (ja) * | 2001-05-11 | 2002-11-22 | Fujitsu Ltd | 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体 |
JP2003288338A (ja) * | 2002-03-27 | 2003-10-10 | Toshiba Corp | 機械翻訳装置及び機械翻訳方法 |
US20070106977A1 (en) * | 2005-11-09 | 2007-05-10 | Microsoft Corporation | Dynamic corpus generation |
JP2011034171A (ja) * | 2009-07-30 | 2011-02-17 | National Institute Of Information & Communication Technology | 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 |
-
2011
- 2011-11-24 JP JP2011256179A patent/JP5718213B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08212225A (ja) * | 1995-01-31 | 1996-08-20 | Matsushita Electric Ind Co Ltd | 言語判定装置 |
JPH1125127A (ja) * | 1997-05-19 | 1999-01-29 | Fuji Xerox Co Ltd | 文書分類方法及び文書分類装置 |
JP2002189721A (ja) * | 2000-10-11 | 2002-07-05 | Mieko Tsuyusaki | Webページ検索システム及び翻訳システム |
JP2002334106A (ja) * | 2001-05-11 | 2002-11-22 | Fujitsu Ltd | 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体 |
JP2003288338A (ja) * | 2002-03-27 | 2003-10-10 | Toshiba Corp | 機械翻訳装置及び機械翻訳方法 |
US20070106977A1 (en) * | 2005-11-09 | 2007-05-10 | Microsoft Corporation | Dynamic corpus generation |
JP2011034171A (ja) * | 2009-07-30 | 2011-02-17 | National Institute Of Information & Communication Technology | 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 |
Non-Patent Citations (2)
Title |
---|
CSNG199700252001; 菊井 玄一郎: '"インターネットと多言語情報処理"' 情報処理 第38巻,第1号, 19970115, p.1-8, 社団法人情報処理学会 * |
JPN6014032208; 菊井 玄一郎: '"インターネットと多言語情報処理"' 情報処理 第38巻,第1号, 19970115, p.1-8, 社団法人情報処理学会 * |
Also Published As
Publication number | Publication date |
---|---|
JP5718213B2 (ja) | 2015-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI636452B (zh) | 語音識別方法及系統 | |
Zaidan et al. | The arabic online commentary dataset: an annotated dataset of informal arabic with high dialectal content | |
CN108459874B (zh) | 融合深度学习和自然语言处理的代码自动化摘要方法 | |
CN111651198B (zh) | 代码摘要自动化生成方法及装置 | |
CN102693279B (zh) | 一种快速计算评论相似度的方法、装置及系统 | |
US11762926B2 (en) | Recommending web API's and associated endpoints | |
US10467256B2 (en) | Automatic query pattern generation | |
WO2008014702A1 (fr) | Procédé et système d'extraction de mots nouveaux | |
WO2009035863A2 (en) | Mining bilingual dictionaries from monolingual web pages | |
CN102279890A (zh) | 基于微博的情感词提取收集方法 | |
CN106446072A (zh) | 网页内容的处理方法和装置 | |
CN104750820A (zh) | 一种语料库的过滤方法及装置 | |
CN101308512B (zh) | 一种基于网页的互译翻译对抽取方法及装置 | |
CN115599888A (zh) | 融合领域知识图谱的汉越跨境民族文本检索方法及装置 | |
WO2015024429A1 (zh) | 获取网页中影视主体的方法及装置 | |
CN113806483A (zh) | 数据处理方法、装置、电子设备及计算机程序产品 | |
JP5757551B2 (ja) | 意味分類付与装置、意味分類付与方法、意味分類付与プログラム | |
WO2013143362A1 (zh) | 一种为文本添加超级链接的方法,装置以及计算机存储介质 | |
JP5718213B2 (ja) | Webページの話題判定装置、Webページの話題判定方法、Webページの話題判定プログラム | |
JP6168057B2 (ja) | 不具合発生原因抽出装置、不具合発生原因抽出方法および不具合発生原因抽出プログラム | |
US10678870B2 (en) | System and method for search discovery | |
CN107451215B (zh) | 特征文本抽取方法及装置 | |
CN109885827B (zh) | 一种基于深度学习的命名实体的识别方法和系统 | |
Barbaresi et al. | A database of German definitory contexts from selected web sources | |
Samah et al. | TF-IDF and Data Visualization For Syafie Madhhab Hadith Scriptures Authenticity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140717 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140805 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150317 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150318 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5718213 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |