JP2013109709A - Webページの話題判定装置、Webページの話題判定方法、Webページの話題判定プログラム - Google Patents

Webページの話題判定装置、Webページの話題判定方法、Webページの話題判定プログラム Download PDF

Info

Publication number
JP2013109709A
JP2013109709A JP2011256179A JP2011256179A JP2013109709A JP 2013109709 A JP2013109709 A JP 2013109709A JP 2011256179 A JP2011256179 A JP 2011256179A JP 2011256179 A JP2011256179 A JP 2011256179A JP 2013109709 A JP2013109709 A JP 2013109709A
Authority
JP
Japan
Prior art keywords
topic
web page
language
character string
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011256179A
Other languages
English (en)
Other versions
JP5718213B2 (ja
Inventor
Shigeru Fujimura
滋 藤村
Masayuki Sugizaki
正之 杉崎
Kenji Ezaki
健司 江崎
Masashi Uchiyama
匡 内山
Noriko Takaya
典子 高屋
Yusuke Ichikawa
裕介 市川
Shoichi Nagano
翔一 長野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011256179A priority Critical patent/JP5718213B2/ja
Publication of JP2013109709A publication Critical patent/JP2013109709A/ja
Application granted granted Critical
Publication of JP5718213B2 publication Critical patent/JP5718213B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】WebページのURLから主要閲覧者が利用する言語を考慮した特徴を構築し、該言語に特化した適切な話題判定を行う。
【解決手段】Webページの話題判定装置1の入力部10には、判定対象のWebページのURLが入力される。言語判定部11は、入力部10に入力されたURL中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する。特徴量抽出部12は、URLを記号等で区切ったトークンの文字列から主要言語に応じた特徴量を抽出する。話題判定部13は、特定の話題に属するか否かを学習した判定器を用いて前記特徴量からWebページの話題を判定する。この判定結果は出力部14を通じて出力される。
【選択図】図1

Description

本発明は、例えばHTML(Hyper Text Markup Language)などのハイパーテキスト記述言語でよって記述されるWebページの話題を判定する技術に関する。
Webページに限らず、電子化された文書の話題を抽出する技術としては、特許文献1のトピック抽出方法が知られている。ここでは電子文書に含まれるテキストから名詞を特徴語として抽出し、抽出された特徴語を検索語としてウェブ検索を実行し、得られた検索結果に共通に出現する語句を話題とする。
ところが、特定の話題だけを含むWebページ集合を収集する検索エンジンのクローラプログラム(スパイダー、ロボット)は、Webページ中のハイパーリンクの情報に基づき自動的に繰り返しリンクを辿りWebページを収集することから、話題の判定に特許文献1を適用しようとした場合にはリンク先のWebページにアクセスする前に、該ページのテキスト情報を得ることができず、特定の話題に関するWebページのみを収集したいといった場合には、収集効率に問題があった。
そこで、リンク先のWebページにアクセスする前に利用可能なURLを情報源として利用し、話題を判定する技術が非特許文献1に提案されている。ここではURLを記号等で処理単位の文字列(以下、トークン「token」と呼ぶ)に区切り、さらにトークンの部分文字列を特徴量として抽出する。この特徴量に対して、訓練事例によって機械的な学習を済ませた該当の話題か否かを判定器で判定する。
特開2009−15796
Eda Baykan,Monika Henzinger,Ludmila Marian,Ingmar Weber "Purely URL-based Topic Classification" Proceedings of the 18th international conference on World wide web(WWW'09).pp1109-1110 "Web便利ツール/URLエンコード・デコードフォーム−TAG index Webサイト"、「online」、「平成23年11月10日検索」、インターネット<URL:http://www.tagindex.com/tool/url.html
Webページの話題を判定するにあたって事前に収集済みの正解集合を学習データに用いる機械学習を採用する場合、話題の判定精度は正解集合の質およびWebページの特徴に何を利用するかに帰着する。特に、判定の情報源としてWebページのURLのみしか利用できない状況においてはURLからどの様な特徴を作り出すかが重要となる。
非特許文献1では、前述のように判定可能なWebページを最大化するためにURLから得られたトークンの部分文字列を特徴として利用している。しかしながら、トークンがWebページの主要閲覧者の利用言語における単語をURLの規約によって表現した文字列であった場合には、該言語としては望ましくない区切りの部分文字列が特徴とされ、話題判定の精度に悪影響を与えるおそれがあった。
例えば、URL「http://example.co.jp/suitouchou/」のWebページについてみれば該URLのトークンの一つ「suitouchou」は日本語では「出納帳」に該当する。ところが、非特許文献1では、利用言語を考慮せずにアルファベットのままトークンの部分文字列を取得するため、「suit」のような部分文字列も特徴として利用されるおそれがある。これでは英語で紳士服のスーツを表す単語と同一表記となるため、処理対象のWebページの本来的な話題と異なるファッション関連の話題と判定されてしまう。
本発明は、上述のような従来技術の問題点を解決するためになされたものであり、WebページのURLから主要閲覧者が利用する言語を考慮した特徴を構築し、該言語に特化した適切な話題判定を行うことを解決課題としている。
そこで、本発明は、URLの文字構成からWebページの主要閲覧者が利用する言語を特定するため、URL中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する。例えば事前に作成された公用語辞書などを用いて主要言語を特定することができる。
また、URLを任意単位に分解した各文字列から主要言語に応じた特徴量を抽出する。例えば前記各文字列が前記主要言語の言語特徴に応じた文字列に変換可能であれば該変換された各文字列を特徴候補として抽出する。この各特徴候補から部分文字列を取得し、取得した部分文字列の出現頻度を特徴量として抽出することができる。
ここで抽出された特徴量を話題判定に用いることにより、Webページの主要閲覧者の利用言語を考慮した話題判定が可能となる。すなわち、Webページで利用されている言語において言葉として不適切な特徴量の抽出を抑制し、誤った話題判定を防止することができる。話題判定の手法としては、特定の話題に属するか否かを学習した判定器を用いて前記特徴量からWebページの話題を判定すればよい。
本発明によれば、WebページのURLから主要閲覧者が利用する言語を考慮した特徴が構築でき、該言語に特化した適切な話題判定が可能となる。
本発明の実施形態に係るWebページの話題判定装置の構成図。 同 言語判定部の処理フロー図。 同 特徴量抽出部の処理フロー図。 図3の処理フローの処理例。
以下、本発明の実施形態に係るWebページの話題判定装置を説明する。この話題判定装置は、URLの文字構成から主要閲覧者が利用する言語を特定し、判定された利用言語に応じた特徴量を抽出する。ここで抽出された特徴量を用いてWebページの話題を判定する。
≪構成例≫
図1に基づき前記話題判定装置の構成例を説明する。ここでは前記話題判定装置1は、特定の話題を含むWebページ集合を収集する検索エンジンのクローラプログラム(スパイダー、ロボットなど)に利用される。
具体的には前記話題判定装置1は、検索エンジンのサーバ群に構成され、通常のコンピュータのハードウェアリソース、例えばCPU.メモリ(RAM)やハードディスクドライブ装置などの記憶装置を備える。このハードウェアリソースとソフトウェアリソース(OS.アプリケーションなど)との協働の結果、前記話題判定装置1は、入力部10.言語判定部11.特徴量抽出部12.話題判定部13.出力部14を実装する。
この入力部10には話題判定対象のWebページ、即ちクローラプログラムで収集された各WebページのURLが入力される。ここで入力されたURLは言語判定部11に出力され、該URLのみを材料とするWebページの話題判定が開始される。
すなわち、言語判定部11は、入力部10からの出力情報を入力とし、該URL中のホスト名から該ホスト名の利用国を特定し、さらに該ホスト名の利用国における主要言語を判定する。この主要言語をWebページで利用される言語、即ちWebページの主要閲覧者の利用言語と推定する。この主要言語およびURLは特徴量抽出部12に出力される。
特徴量抽出部12は、言語判定部11からの出力情報を入力とし、主要言語の言語特性を考慮してURLから特徴量を抽出する。ここではURLを処理単位の文字列に分解し、各文字列から主要言語に応じた特徴量を抽出する。このとき主要言語の言語特徴に応じた文字列に変換可能であれば、変換された各文字列の出現頻度を特徴量として抽出する。例えば主要言語として日本語が特定されれば、ローマ字かな変換・漢字かな変換などを行って特徴量を抽出することができる。抽出された特徴量は話題判定部13に出力される。
話題判定部13は、特徴量抽出部12からの出力情報を入力とし、前記特徴量に基づきWebページの話題を判定する。ここでは事前に特定の話題に属するか否かを学習した判定器を利用する。この判定器に入力された前記特徴量が事前学習した話題を有するか否かでWebページの話題を判定する。この判定結果は、出力部14を通じて検索エンジンなどに出力される。以下、前記各部11〜13の処理内容を詳述する。
≪言語判定部11の処理内容≫
図2に基づき言語判定部11の処理内容を詳述する。ここでは言語判定部11は、入力されたWebページのURL中におけるホスト名(サイト名)を取得する。この取得後に図2の処理を開始するものとする。この処理はURL毎に行われるものとする。
S01:前記ホスト名に国別コードトップレベルドメインが含まれているか否かを判定する。判定の結果、該ドメインが含まれていなければS02に進む一方、該ドメインが含まれていれば国別コードに基づき前記ホスト名の利用国を特定する。ここで特定された前記ホスト名の利用国をWebページの対象国と決定し、S03に進む。例えば、前記ホスト名に「.jp」などが含まれていれば日本国をWebページの対象国と決定する。
S02:前記ホスト名(より正確にはホスト名中のドメイン名)に対してwhois(フーイズ)システム、即ちインターネット上でのドメイン名の所有者を検索するプロトコルを利用することで前記ホスト名の利用国が特定できるか否か確認する。確認の結果、前記ホスト名の利用国が特定できれば該利用国をWebページの対象国に決定してS03に進む一方、特定できなければ処理を終了する。
S03:S01.S02で決定されたWebページの対象国における主要言語を事前に作成された公用語辞書を用いて判定し、処理を終了する。この公用語辞書には国別に主要言語が掲載されていればよい。この主要言語に複数言語が掲載されていれば、該各言語を前記対象国の主要言語と判定できるものとする。
≪特徴量抽出部12の処理内容≫
図3に基づき特徴量抽出部12の処理内容を詳述する。ここでは言語判定部11において主要言語として日本語が特定された場合の処理内容を説明する。この特徴量抽出部12の処理もURL毎に行われるものとする。
S11:入力されたURLを記号「.」「-」「/」などの区切り文字によって複数個のトークン、即ち処理対象の各文字列に分解する。このトークン毎にS12以降の処理が実行される。
S12:S11で分解された各トークンが、パーセントエンコード(Percent−Encode)、即ち文字コードを16進数で表して「%xx」(xxは16進数)の形に変換するエンコード方式が施されているか否かを判定する。
ここでURLの規則を定めるRFC3986によれば、URL中のASCII以外の文字およびASCIIの予約文字は「%xx」に変換される。例えば「SHIFT_JIS」で書かれた文字「あ」であれば「%82%a0」の形に変換され、文字「い」であれば「%82%a2」の形に変換される。このような変換表記に基づき前記トークンにパーセントエンコードが施されているか否か判定する。
S13.S14:S11の判定の結果、パーセントエンコードが施されたトークンに対してはデコードを実行する。このデコード結果の文字列にカタカナや漢字が含まれていれば、ひらがな変換を行ったうえで変換後の文字列を取得する(S13)。ここで取得した文字列を図示省略のリストに特徴候補として登録する(S14)。
なお、前記デコードには、例えば非特許文献2のような汎用ツールを用いることができ、また前記の漢字ひらがな変換は事前に用意された漢和辞書を用いればよい。
S15.S16:S11の判定の結果、パーセントエンコードが施されていないトークン(非パーセントエンコードのトークン)に対しては、トークンの文字列にローマ字かな変換を行う。ここではトークンの文字列がひらがな文字列に変換可能か否か、即ち完全に平仮名で表現可能か否かを確認する(S15)。
確認の結果、トークンの文字列が完全にひらがなで表現可能な場合は、変換後のひらがな文字列を前記リストに特徴候補として登録する(S16)。例えばトークンの文字列が「suitouchou」であれば、ひらがな文字列「すいとうちょう」を特徴候補として登録する。一方、ひらがなに変換できない文字列は、ローマ字かな変換により完全に平仮名で表現できないため、アルファベット文字列のまま前記リストに特徴候補として登録する(S16)。
S17:S14又はS16で前記リストに登録されたすべての特徴候補から部分文字列を抽出した部分文字列集合を取得する。ここでは各部分文字列の前記集合内における出現頻度(出現回数)をカウントし、カウント結果の数量を特徴量として抽出する。この抽出後に特徴量を話題判定部13に出力し、処理を終了する。この出力後に前記リストが初期化され、次のURLの処理が開始される。
なお、S15.S16では、非パーセントエンコードのトークンの文字列に対して、ローマ字かな変換でひらがな文字列に変換可能か否かを判定し、ひらがな文字列とアルファベット文字列とを排他的に利用する方式を示しているが、ひらがな文字列に変換可能な場合には、本来のアルファベット文字とひらがな文字列の双方を特徴候補として利用する方式としてもよい。
また、S13では、パーセントエンコードが施されたトークンに対して、デコード後の文字列に漢字やカタカナが含まれている場合にひらがなに変換する方式を示しているが、デコード語の文字列をそのまま特徴候補として登録する方式としてもよい。
さらに、特徴候補や特徴候補の部分文字列に対して文字列の長さの制約を設けてもよく、出現頻度があまりにも大きすぎる文字列をストップ文字列として事前に除外する方式を採用することもできる。
≪特徴量抽出部12の処理例≫
以下、図4に基づき特徴量抽出部12の処理例を説明する。ここではURL「http://www.example.co.jp/ichirei.html?category=%e3%82%b5%e3%83%b3%e3%83%97%e3%83%ab」が入力部10に入力され,言語判定部11で日本語が主要言語と判定されているものとする。また、特徴候補および特徴候補の部分文字列には文字列長「3〜8」の制約が設定され、ストップ文字列として「www」.「html」が事前に設定されているものとする。
まず、特徴量抽出部12に前記URLおよび前記主要言語が入力されると、S11において前記URLに対するトークン化が実行される。このトークン化の結果、前記URLは、「www」.「example」.「co」.「jp」.「ichirei」.「html」.「category」.「%e3%82%b5%e3%83%b3%e3%83%97%e3%83%ab」のトークンに分解される。
つぎにトークン「example」.「category」.「ichirei」は、S12で非パーセントエンコードと判定され、S15に進む。ここでトークン「example」.「category」は、ローマ字かな変換でひらがな変換できないため、S16ではアルファベット文字のまま特徴候補として登録される。一方、トークン「ichirei」は、ローマ字かな変換により「いちれい」と表現できるため、S16では「いちれい」のひらがな文字列が特徴候補として登録される。
また、トークン「%e3%82%b5%e3%83%b3%e3%83%97%e3%83%ab」は、S12でパーセントエンコードが施されていると判定される。この判定後にS13で「サンプル」にデコードされ、さらに「さんぷる」にひらがな変換される。この変換後にS14で「さんぷる」のひらがな文字列が特徴候補として登録される。なお、トークン「www」.「html」は、ストップ文字列に該当するため、S12〜S16の処理から除外される。さらにトークン「co」.「jp」も、文字列長の制約から同様に除外される。
このS11〜S16の処理の結果、「example」.「いちれい」.「category」.「さんぷる」の文字列が特徴候補として登録される。そして、S17において各特徴候補の文字列から長さ「3〜8」の範囲内で部分文字列を取得し、各部分文字列の出現頻度をカウントしてURLの特徴量、例えば「exa:1」.「xam:1」.「amp:1」などを抽出する。この特徴量の「1」は部分文字列集合内の出現回数を示している。
≪話題判定部13の処理内容≫
以下、話題判定部13の処理内容を詳述する。具体的には話題判定部13は、特徴量抽出部12から出力された特徴量を入力とし、Webページの話題を判定した結果を出力する。この話題判定部13では、事前に判定対象の話題に対して機械学習を利用した判定器の学習を行う必要がある。ここでは一例として「政治」を判定対象の話題とする場合を説明する。
この学習にあたっては、あらかじめ「政治」に関連したWebページ集合と、「政治」に関連しないWebページ集合とを準備する必要がある。すなわち、「政治」に関連するWebページ集合のURL群から得られた特徴量を、特徴量抽出部12によって得られた特徴量の2値判定における正例として判定器の学習事例に利用する。同様に「政治」に関連しないWebページ集合のURL群から得られた特徴量を、特徴量抽出部12によって得られた特徴量の2値判定における負例として利用する。
この正例・負例を学習済みの判定器に特徴量抽出部12によって得られた特徴量を入力として与えることにより、処理対象のWebページが「政治」に関連した話題を有するか否かを判定する。
この判定結果は、出力部14を通じて検索エンジンに出力され、全文索引を構築するための分類アルゴリズムなどに利用される。このとき前記話題判定装置1によれば、S11〜S17の処理を通じて主要言語の特徴を考慮した特徴量が抽出されることから、Webページの主要閲覧者の利用言語として望ましくない部分文字列における特徴量の抽出が防止され、該利用言語に特化した適切な話題判定を行うことができる。
例えばURL「http://example.co.jp/suitouchou/」についてみれば、URLに国別コードトップレベルドメイン「.jp」を含むため、日本語が主要言語と判定される。このURLを分解したトークン「suitouchou」は、S15のローマ字かな変換により「すいとうちょう」と表現可能なため、S16において「すいとうちょう」の文字列が特徴候補として登録される。
したがって、非特許文献1のように「suit」の部分文字列が特徴量として抽出されることはなく、Webページの言語(ここでは日本語)の言葉としては不適切な特徴量の抽出が抑制され、誤った話題判定を防止することができる。
なお、本発明は、上記実施形態に限定されるものではなく、各請求項に記載された範囲内で適宜変形して実施することができる。例えば言語判定部11で日本語が特定された場合のみならず、他の外国語が特定された場合にも適用することができる。この場合にはS13.S15を特定された外国語に応じた変換にすればよい。
また、話題判定部13の処理内容では「政治」に関連するか否かという2値判定を示したが、あらかじめ複数の判定対象の話題(例えばスポーツやファッションなど)に関するWebページ集合を準備し、それぞれの話題に応じた2値判定器を用意することによって、判定器から得られる分類の確信度の最も高い話題を話題判定対象のWebページが有する話題として判定する方式を採用することもできる。さらに話題を一意に定めずに確信度が一定値以上の話題を処理対象のWebページに対するメタデータとして付与する方式を採用してもよい。
≪プログラムなど≫
本発明は、前記話題判定装置1の各部10〜14の一部もしくは全部として、コンピュータを機能させるWebページの話題判定プログラムとして構成することもできる。このプログラムによれば、S01〜S03.S11〜S17の一部あるいは全部をコンピュータに実行させることが可能となる。
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
1…Webページの話題判定装置
10…入力部
11…言語判定部(言語判定手段)
12…特徴量抽出部(特徴量抽出手段)
13…話題判定部(話題判定手段)
14…出力部

Claims (5)

  1. Webページの言及する話題をURLに基づき判定するWebページの話題判定装置であって、
    URL中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する言語判定手段と、
    URLを任意の単位に分解した各文字列から言語判定手段で特定された主要言語に応じた特徴量を抽出する特徴量抽出手段と、
    特定の話題に属するか否かを学習した判定器を用いて特徴量抽出手段の抽出した特徴量からWebページの話題を判定する話題判定手段と、
    を備えることを特徴とするWebページの話題判定装置。
  2. 言語判定手段は、あらかじめ作成された公用語辞書に基づき前記利用国の主要言語を判定する一方、
    特徴量抽出手段は、前記各文字列が主要言語の言語特徴に応じた文字列に変換可能であれば該変換された各文字列を特徴候補として抽出し、
    該各特徴候補から部分文字列を取得し、該各部分文字列の出現頻度を特徴量として抽出する
    ことを特徴とする請求項1に記載されたWebページの話題判定装置。
  3. Webページの言及する話題をURLに基づき判定する装置の実行するWebページの話題判定方法であって、
    URL中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する言語判定ステップと、
    URLを任意の単位に分解した各文字列から言語判定手段で特定された主要言語に応じた特徴量を抽出する特徴量抽出ステップと、
    特定の話題に属するか否かを学習した判定器を用いて特徴量抽出手段の抽出した特徴量からWebページの話題を判定する話題判定ステップと、
    を有することを特徴とするWebページの話題判定方法。
  4. 言語判定ステップは、あらかじめ作成された公用語辞書に基づき前記利用国の主要言語を特定する一方、
    特徴量抽出ステップは、前記各文字列が主要言語の言語特徴に応じた文字列に変換可能であれば該変換された各文字列を特徴候補として抽出するステップと、
    該各特徴候補から部分文字列を取得し、該各部分文字列の出現頻度を特徴量として抽出するステップと、
    を有することを特徴とする請求項3に記載されたWebページの話題判定方法。
  5. 請求項1または2のいずれか1項に記載されたWebページの話題判定装置としてコンピュータを機能させるWebページの話題判定プログラム。
JP2011256179A 2011-11-24 2011-11-24 Webページの話題判定装置、Webページの話題判定方法、Webページの話題判定プログラム Active JP5718213B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011256179A JP5718213B2 (ja) 2011-11-24 2011-11-24 Webページの話題判定装置、Webページの話題判定方法、Webページの話題判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011256179A JP5718213B2 (ja) 2011-11-24 2011-11-24 Webページの話題判定装置、Webページの話題判定方法、Webページの話題判定プログラム

Publications (2)

Publication Number Publication Date
JP2013109709A true JP2013109709A (ja) 2013-06-06
JP5718213B2 JP5718213B2 (ja) 2015-05-13

Family

ID=48706368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011256179A Active JP5718213B2 (ja) 2011-11-24 2011-11-24 Webページの話題判定装置、Webページの話題判定方法、Webページの話題判定プログラム

Country Status (1)

Country Link
JP (1) JP5718213B2 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212225A (ja) * 1995-01-31 1996-08-20 Matsushita Electric Ind Co Ltd 言語判定装置
JPH1125127A (ja) * 1997-05-19 1999-01-29 Fuji Xerox Co Ltd 文書分類方法及び文書分類装置
JP2002189721A (ja) * 2000-10-11 2002-07-05 Mieko Tsuyusaki Webページ検索システム及び翻訳システム
JP2002334106A (ja) * 2001-05-11 2002-11-22 Fujitsu Ltd 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
JP2003288338A (ja) * 2002-03-27 2003-10-10 Toshiba Corp 機械翻訳装置及び機械翻訳方法
US20070106977A1 (en) * 2005-11-09 2007-05-10 Microsoft Corporation Dynamic corpus generation
JP2011034171A (ja) * 2009-07-30 2011-02-17 National Institute Of Information & Communication Technology 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212225A (ja) * 1995-01-31 1996-08-20 Matsushita Electric Ind Co Ltd 言語判定装置
JPH1125127A (ja) * 1997-05-19 1999-01-29 Fuji Xerox Co Ltd 文書分類方法及び文書分類装置
JP2002189721A (ja) * 2000-10-11 2002-07-05 Mieko Tsuyusaki Webページ検索システム及び翻訳システム
JP2002334106A (ja) * 2001-05-11 2002-11-22 Fujitsu Ltd 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
JP2003288338A (ja) * 2002-03-27 2003-10-10 Toshiba Corp 機械翻訳装置及び機械翻訳方法
US20070106977A1 (en) * 2005-11-09 2007-05-10 Microsoft Corporation Dynamic corpus generation
JP2011034171A (ja) * 2009-07-30 2011-02-17 National Institute Of Information & Communication Technology 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG199700252001; 菊井 玄一郎: '"インターネットと多言語情報処理"' 情報処理 第38巻,第1号, 19970115, p.1-8, 社団法人情報処理学会 *
JPN6014032208; 菊井 玄一郎: '"インターネットと多言語情報処理"' 情報処理 第38巻,第1号, 19970115, p.1-8, 社団法人情報処理学会 *

Also Published As

Publication number Publication date
JP5718213B2 (ja) 2015-05-13

Similar Documents

Publication Publication Date Title
TWI636452B (zh) 語音識別方法及系統
Zaidan et al. The arabic online commentary dataset: an annotated dataset of informal arabic with high dialectal content
CN108459874B (zh) 融合深度学习和自然语言处理的代码自动化摘要方法
CN111651198B (zh) 代码摘要自动化生成方法及装置
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
US11762926B2 (en) Recommending web API's and associated endpoints
US10467256B2 (en) Automatic query pattern generation
WO2008014702A1 (fr) Procédé et système d'extraction de mots nouveaux
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
CN102279890A (zh) 基于微博的情感词提取收集方法
CN106446072A (zh) 网页内容的处理方法和装置
CN104750820A (zh) 一种语料库的过滤方法及装置
CN101308512B (zh) 一种基于网页的互译翻译对抽取方法及装置
CN115599888A (zh) 融合领域知识图谱的汉越跨境民族文本检索方法及装置
WO2015024429A1 (zh) 获取网页中影视主体的方法及装置
CN113806483A (zh) 数据处理方法、装置、电子设备及计算机程序产品
JP5757551B2 (ja) 意味分類付与装置、意味分類付与方法、意味分類付与プログラム
WO2013143362A1 (zh) 一种为文本添加超级链接的方法,装置以及计算机存储介质
JP5718213B2 (ja) Webページの話題判定装置、Webページの話題判定方法、Webページの話題判定プログラム
JP6168057B2 (ja) 不具合発生原因抽出装置、不具合発生原因抽出方法および不具合発生原因抽出プログラム
US10678870B2 (en) System and method for search discovery
CN107451215B (zh) 特征文本抽取方法及装置
CN109885827B (zh) 一种基于深度学习的命名实体的识别方法和系统
Barbaresi et al. A database of German definitory contexts from selected web sources
Samah et al. TF-IDF and Data Visualization For Syafie Madhhab Hadith Scriptures Authenticity

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140805

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150318

R150 Certificate of patent or registration of utility model

Ref document number: 5718213

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150