JP4791169B2 - 関連語抽出装置、関連語抽出方法 - Google Patents

関連語抽出装置、関連語抽出方法 Download PDF

Info

Publication number
JP4791169B2
JP4791169B2 JP2005358328A JP2005358328A JP4791169B2 JP 4791169 B2 JP4791169 B2 JP 4791169B2 JP 2005358328 A JP2005358328 A JP 2005358328A JP 2005358328 A JP2005358328 A JP 2005358328A JP 4791169 B2 JP4791169 B2 JP 4791169B2
Authority
JP
Japan
Prior art keywords
domain
web document
data
vocabulary data
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005358328A
Other languages
English (en)
Other versions
JP2007164378A (ja
JP2007164378A5 (ja
Inventor
眞規 大杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2005358328A priority Critical patent/JP4791169B2/ja
Publication of JP2007164378A publication Critical patent/JP2007164378A/ja
Publication of JP2007164378A5 publication Critical patent/JP2007164378A5/ja
Application granted granted Critical
Publication of JP4791169B2 publication Critical patent/JP4791169B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、関連語を抽出する関連語抽出装置及び、その方法に関する。特に、多くのドキュメントに頻繁に含まれる語彙を関連語として抽出する装置、方法に関する。
従来より、関連語を抽出する方法として、例えば、所定の文章に対して形態素解析等の言語解析を行って関連語を抽出する関連語検索が知られている。特許文献1では、所定のキーワードに関するテーマに対する詳しさ、興味の強さを反映したユーザの信頼度を考慮して、所定のテーマに関連する単語を抽出することができる抽出装置が記載されている。
特開平11−053375号公報
しかしながら、上記特許文献1では、以下で説明するように、実際に通信回線網を介して接続された複数のサーバが提供する情報間での関連語の抽出に関する装置、方法についてまで考慮されていない。
一般に、インターネットを介してWebドキュメントによる情報を提供する際に、ユーザが検索等のために入力した語彙に基づいて、この語彙に関連したWebドキュメントあるいは、Webドキュメントへのリンクをユーザの端末に表示することが行われている。
すなわち、ユーザが入力した検索キーワードの検索結果に、この検索キーワードに関連した広告情報を表示することで、効果的な宣伝が行われている。このような態様において、ユーザに対して広告効果を向上させるためには、ユーザから入力される検索キーワードの種類に応じて、どのような広告内容を検索結果とともに表示させるかが課題となる。
例えば、生命保険会社が広告を表示する際に、ユーザが入力した語彙が、「保険」であれば、この生命保険会社の広告を表示することが妥当であると考えられるが、「保証人」と入力した場合に、生命保険会社の広告を表示するのが妥当であるかを判断することが困難である。そこで、「保険」と「保証人」が、当該生命保険会社にとって関連した語であるか判断できる指標があれば望ましい。
一方、このような生命保険会社等の企業は、自社の広告、宣伝のためにWebサーバを立ち上げて、Webドキュメントを顧客に提供する。このように、Webサーバを立ち上げたWebドキュメント提供者が、特定の業種・業界においてよく使われる語彙、専門用語、製品情報等の業界知識を整理、解析するためには、自社以外の競争相手やこの業界に関連した組織、団体等が提供するWebドキュメントから情報収集することが望まれる。
本発明者らは、Webドキュメント提供者にとって、通信回線網を介して接続された記憶装置に記憶された情報どうしで関連した語彙が抽出できる装置、方法が提供されることが望ましいことに着目した。
本発明の目的は、Webドキュメントの提供者が特定の業種・業界においてよく使われる語彙を解析するために、通信回線を介して接続された記憶装置に記憶された広告、宣伝に関する情報の関連語(業界知識)を抽出し、記憶することで、Webドキュメントの提供者が業界知識を収集、整理することが可能な装置、方法を提供することを目的とする。
(1) Webドキュメントの提供者が特定の業種・業界においてよく使われる語彙を解析するために、複数の広告語彙データから互いに関連した広告語彙データを関連づける関連語抽出装置(例えば、後述の関連語抽出装置500)であって、
通信回線を介して接続された記憶装置に記憶されたWebドキュメントを受信する受信部(例えば、後述の通信部510)と、
前記受信部が受信したWebドキュメントを記憶するWebドキュメント記憶部(例えば、後述のWebドキュメント記憶部530)と、
抽出する広告語彙データに関連する第1広告語彙データの入力を受け付ける入力部(例えば、後述の入力部550)と、
前記入力部を介して入力された第1広告語彙データが含まれているWebドキュメントを、前記Webドキュメント記憶部から抽出するWebドキュメント抽出部(例えば、後述の抽出部525)と、
前記Webドキュメント抽出部により抽出されたWebドキュメント中に共通して含まれる第2広告語彙データを抽出する抽出部(例えば、後述の抽出部525)と、
前記抽出部により抽出された前記第2広告語彙データを、前記第1広告語彙データと関連づけたドメインを生成するドメイン生成部(例えば、ドメイン生成部527)と、
前記ドメイン生成部により生成された前記ドメインを記憶するドメイン記憶部(例えば、ドメイン記憶部540)と、
を備える関連語抽出装置。
(1)に記載の発明によれば、関連語抽出装置は、通信回線を介して接続された記憶装置に記憶されたWebドキュメントを受信し、受信したWebドキュメントを記憶しておき、抽出する広告語彙データに関連する第1広告語彙データの入力を受け付けて、この第1広告語彙データが含まれているWebドキュメントを抽出し、抽出したWebドキュメント中に共通して含まれる第2広告語彙データを抽出し、抽出された第2広告語彙データを、第1広告語彙データと関連づけたドメインを生成し、生成されたドメインを記憶する。
よって、ユーザが入力した第1広告語彙データが含まれるWebドキュメントから、第2広告語彙データを抽出して、第1広告語彙データと第2広告語彙データとを関連づけたデータであるドメインを生成することが可能である。
したがって、関連語抽出装置によれば、入力された任意の第1広告語彙データに基づいて、通信回線を介して接続された記憶装置に記憶された広告、宣伝に関する情報(Webドキュメント)の関連語を第2広告語彙データとして抽出し、第1広告語彙データと第2広告語彙データとを関連づけたデータを生成することが可能である。
(2) 前記ドメイン生成部は、前記第1広告語彙データとは異なる他の第1広告語彙データ、及び当該他の第1広告語彙データから抽出された第2広告語彙データから生成されたドメインと、前記ドメイン記憶部に、既に記憶されているドメインとを関連づける、(1)に記載の関連語抽出装置。
(2)に記載の発明によれば、関連語抽出装置は、第1広告語彙データとは異なる他の第1広告語彙データ、及び他の第1広告語彙データから抽出された第2広告語彙データから生成されたドメインと、既に記憶されているドメインとを関連づける。
よって、第1広告語彙データから第2広告語彙データを抽出し、これにより生成されたドメインと新しく生成されたドメインとを関連づけることで、ドメイン間での関連性を示すデータを生成することが可能である。
(3) 前記抽出部は、前記Webドキュメント抽出部により抽出されたWebドキュメント中に共通して含まれる第2広告語彙データを抽出する際に、頻出度が高い第2広告語彙データを優先的に抽出する(1)または(2)に記載の関連語抽出装置。
(3)に記載の発明によれば、関連語抽出装置はWebドキュメント中に共通して含まれる第2広告語彙データを抽出する際に、頻出度が高い第2広告語彙データを優先的に抽出する。
よって、Webドキュメントに含まれる語彙のうち、頻出度に基づいて第2広告語彙データを抽出するため、関連語の関連度として適切な第2広告語彙データを抽出することが可能である。
(4) Webドキュメントの提供者が特定の業種・業界においてよく使われる語彙を解析するために、複数の広告語彙データから互いに関連した広告語彙データを関連づける関連語抽出方法であって、
通信回線を介して接続された記憶装置に記憶されたWebドキュメントを受信するステップと、
前記受信するステップにて受信したWebドキュメントを記憶するステップと、
抽出する広告語彙データに関連する第1広告語彙データの入力を受け付ける入力ステップと、
前記入力ステップにて入力された第1広告語彙データが含まれているWebドキュメントを、抽出する抽出ステップと、
前記Webドキュメント抽出部により抽出されたWebドキュメント中に共通して含まれる第2広告語彙データを抽出する第2広告語彙データ抽出ステップと、
前記第2広告語彙データ抽出ステップにより抽出された前記第2広告語彙データを、前記第1広告語彙データと関連づけたドメインを生成するドメイン生成ステップと、
前記ドメイン生成ステップにより生成された前記ドメインを記憶するドメイン記憶ステップと、
を備える関連語抽出方法。
(5) 前記ドメイン生成ステップは、前記第1広告語彙データとは異なる他の第1広告語彙データ、及び当該他の第1広告語彙データから抽出された第2広告語彙データから生成されたドメインと、前記ドメイン記憶ステップにて、既に記憶されているドメインとを関連づける、(4)に記載の関連語抽出方法。
本発明によれば、通信回線を介して接続された記憶装置に記憶された広告、宣伝等の特定の業種・業界においてよく使われる語彙を抽出し記憶することで、この記憶された情報をWebドキュメントの提供者が業界知識の解析のために使用することが可能となる。
以下、本発明の実施形態について、図面に基づいて説明する。
図1は、本発明の好適な実施形態である関連語抽出システム1の構成図である。関連語抽出システム1は、関連語抽出装置500と、Webサーバ100a〜cとから構成される。関連語抽出装置500と、Webサーバ100a〜cとは、通信回線ネットワーク30を介して通信可能に接続される。
関連語抽出装置500は、関連語を抽出する情報処理装置であり、CPU(Central Processing Unit)、及びメモリを備えるコンピュータであってよい。関連語抽出装置500は、通信回線ネットワーク30に接続して通信を実現する通信部510と、情報、データを制御する制御部520と、Webドキュメントが記憶されるWebドキュメント記憶部530と、生成したドメインが記憶されるドメイン記憶部540と、ユーザからの入力を受け付ける入力部550と、情報、データを出力する出力部560とから構成される。
制御部520は、関連語抽出装置500が処理する情報、データを制御し、例えば、CPUであってよい。制御部520は、Webドキュメント、第2広告語彙データの抽出を行う抽出部525と、後述するドメインを生成するドメイン生成部527とを備える。制御部520は、後述するメイン処理(図2のフローチャート)、ドメイン関連づけ処理(図8のフローチャート)を実行する。
Webドキュメント記憶部530は、通信部510を介して、各Webサーバ100a〜cから受信したWebドキュメントが制御部520により記憶される装置である。ここで、Webドキュメントとは、通信回線を介して閲覧可能な文章、画像が記載された電子データであり、Webページであってよい。ここで、Webドキュメントは、広告語彙データを含む電子データであってよく、企業の宣伝、広告に関する情報、すなわち、特定の業種・業界においてよく使われる語彙、専門用語、製品情報、業界知識が含まれてよい。広告語彙データとは、企業の宣伝、広告に関する語彙情報に関するデータである。
なお、Webドキュメント記憶部530は、関連語抽出装置500が備えていない態様であってもよい。すなわち、Webドキュメント記憶部530が、通信回線ネットワーク30に接続されたサーバ、コンピュータ等の装置に備えられ、関連語抽出装置500が、適宜、Webドキュメント及びWebドキュメントに関するデータを、通信部510を介してWebドキュメント記憶部530から読み出す態様であってよい。
ドメイン記憶部540は、ドメイン生成部527が生成したドメインが制御部100により記憶される装置である。ここで、ドメインとは、図6、図7にて後述するように、複数の広告語彙データが関連づけられたデータである。
入力部550は、ユーザからの入力を受け付ける装置であり、例えば、キーボード、マウスであってよい。出力部560は、情報、データを出力する装置であり、例えば、モニタ、液晶ディスプレイ、プリンタ等の出力機器であってよい。
Webサーバ100a〜cは、Webブラウザで閲覧するコンテンツを提供するコンピュータであり、Webドキュメントを記憶し、Webドキュメントの閲覧要求に応じて、Webドキュメントを要求されたコンピュータに送信するサーバである。すなわち、Webサーバ100a〜cは、関連語抽出装置500にWebドキュメントを送信する。
ユーザ端末200は、関連語抽出装置500を遠隔から操作するためのコンピュータである。ユーザ端末200は、情報、データが入力される入力部250と、通信回線ネットワーク30に接続されて通信を実現する通信部210と、情報、データを制御する制御部220と、情報、データが出力される出力部260と、を備える。ユーザが関連語抽出装置500の入力部550を介して、情報、データを入力させる代わりに、ユーザ端末200の入力部250から、情報、データが入力される。
次に、関連語抽出装置500の制御部520が実行するメイン処理について、図2に基づいて説明する。制御部520は、入力部550を介して、あるいは、ユーザ端末200の入力部250を介して、第1広告語彙データ(抽出キーワード)の入力を受け付ける(ステップS01)。第1広告語彙データ(抽出キーワード)は、関連語として抽出される語彙の基になる広告語彙データである。
次に、抽出部525が、Webドキュメント記憶部530から第1広告語彙データを含むWebドキュメントの抽出を行う(ステップS02)。
ここで、ステップS02にて、抽出部525が、Webドキュメント記憶部530から第1広告語彙データを含むWebドキュメントの抽出を行う態様について説明したが、Webドキュメント記憶部530に、Webドキュメントの要約データ、リード文情報、インデックス情報等の、Webドキュメントを特徴付けるキーワードを含んだWebドキュメントの一部のデータが記憶されていてもよく、抽出部525が、記憶されたこの一部のデータに対して、第1広告語彙データが含まれているデータを抽出する態様であってもよい。
上記いずれかの態様であっても、Webドキュメント記憶部530には、メイン処理フローが実行される前に、Webドキュメントあるいは、Webドキュメントの一部のデータが予め記憶されている。
図3は、ユーザから入力された抽出キーワードと、これに関係づけられたWebドキュメントと、このリンクデータを対応付けた、Webドキュメント対応テーブル図である。ユーザが抽出キーワードとして、「キーワード01」を入力し、これに対応したWebドキュメントを、Webドキュメントのテキスト部分から抽出する。結果として、抽出されたデータがWebドキュメントA〜Dとなる。これらのWebドキュメントA〜Dに対応した、リンクデータ(例えば、リンク先のURLデータ)が対応付けられる。なお、Webドキュメント対応テーブルは、Webドキュメント記憶部530に記憶され、適宜、制御部520に読み出される。
図4にて、第1広告語彙データの入力を受け付けて、Webドキュメントを抽出した結果を出力部260、560に出力した画面イメージ図を示した。最初に、第1広告語彙データ(検索キーワード)の入力を、入力窓305から受け付ける。ここでは、ユーザが「融資」と入力して、Webドキュメントあるいは、Webドキュメントの一部のデータを抽出したとする。抽出部525は、この抽出キーワードに対して、○×商事310、融資の○○商事320のWebドキュメント(例えば、WebドキュメントA、Bに対応する)を抽出する。そして、制御部620は、図4に示すように、これらのWebドキュメントに対応するリンクデータ311、321を出力部260、560に表示してもよい。
次に、抽出部525が抽出したWebドキュメントから第2広告語彙データを抽出する(ステップS03)。第2広告語彙データは、第1広告語彙データにより抽出された1以上のWebドキュメントに共通して含まれる広告語彙データである。第2広告語彙データの抽出においては、共起頻度に基づいて、第2広告語彙データとして抽出される語彙が選別されてよい。すなわち、頻繁にWebドキュメント内に含まれる語彙を第2広告語彙データとして優先的に抽出部525が、抽出してよい。
図5にて、図4の抽出キーワードを用いてWebドキュメントを抽出した際に、抽出されたWebドキュメント600、605の一例を示した。このようなWebドキュメント600、605に共通して含まれる語彙を、抽出部525が第2広告語彙データとして抽出する。ここでは、第2広告語彙データとして、抽出部525は、Webドキュメント600、605に共通している「即日」610a、610b、「実質年率」615a、615bを抽出する。
次に、ドメイン生成部527が、抽出キーワード(第1広告語彙データ)と抽出された第2広告語彙データとを関連づけて、ドメインを生成する(ステップS04)。ここで、ドメインとは、複数の広告語彙データが関連づけられたデータである。図6にて、ドメイン410の一例を示した。この例では、上述の図4、図5の例のように、第1広告語彙データとしてユーザから「融資」が入力され、抽出部525が、この第1広告語彙データに関連する第2広告語彙データとして、「即日」、「実質年率」を抽出した場合を示す。したがって、ドメイン生成部527は、これらを関連づけたドメインを生成し、ドメイン記憶部540に記憶する(ステップS05)。
なお、抽出部525が複数の第2広告語彙データを抽出してドメインを生成してもよいし、最も出現頻度(共起率)の高い一の語彙のみを第2広告語彙データとして抽出して、ドメインを生成してもよい。また、上述の説明では、抽出されたWebドキュメントが、Webドキュメント600、605の2つのみであったが、Webドキュメントとして、WebドキュメントA〜Dのように、3以上のWebドキュメントから、制御部520が、出現頻度等を算出し、第2広告語彙データを抽出して、ドメイン生成部527がドメインを生成してもよい。
図7は、複数の第2広告語彙データを抽出した場合のドメイン420を示した。ここで、第2広告語彙データ間の関係については、任意であってよいが、例えば、WebドキュメントA〜Dに共通して含まれる語彙は、「即日」、「金利」のように、「融資」と関連が強い語彙として位置づけられてよい。一方、WebドキュメントAとBには含まれるが、WebドキュメントCとDには含まれない語彙(「返済」、「担保」、「審査」)が、グループとして関連づけられて、逆に、WebドキュメントAとBには含まれないが、WebドキュメントCとDには含まれる語彙(「保証人」、「無利息」、「実質年率」)が他のグループとして関連づけられてもよい。
次に、ドメイン生成部527が生成したドメインが複数生成された後に、ドメインどうしが関連づけられる処理について、図8に基づいて説明する。最初に、ドメイン生成部527は、新しいドメインがドメイン記憶部540に記憶されたことを判断する(ステップS10)。ドメイン生成部527が、新しいドメインがドメイン記憶部540に記憶されたと判断した場合には、ドメイン生成部527は、生成された新しいドメインに含まれる第2広告語彙データと、同一の第1広告語彙データを備えるドメインがドメイン記憶部540に記憶されているかを判断する(ステップS11)。ドメイン生成部527は、生成された新しいドメインに含まれる第2広告語彙データと、同一の第1広告語彙データを備えるドメインがドメイン記憶部540に記憶されていると判断した場合には、該当するドメインと新しいドメインとを関連づけ(ステップS12)、新たなドメインを生成する(ステップS13)。
図9にて、ドメイン関連づけ処理を説明するドメインの概念図を示した。ドメイン記憶部540に既にドメインAが記憶されているとする。ドメインAは、第1広告語彙データを「融資」としている。ドメイン生成部527が、第1広告語彙データを「保証人」としたドメインBを生成する。ドメインBの第1広告語彙データ「保証人」は、ドメインAの第2広告語彙データの「保証人」と同一であるため、ドメインBの「保証人」とドメインAの「保証人」を関連づける。同様に、ドメインC、ドメインDをドメインAと関連づけて、複数のドメインが関連づけられた新たなドメインがドメイン記憶部540に記憶される。
一方、ドメインEは、ドメインA〜Dの全てに同一の広告語彙データが存在しない。すなわち、ドメインEの第1広告語彙データ「デジカメ」を第2広告語彙データに含むドメインは存在せず、ドメインEの第2広告語彙データを第1広告語彙データに含むドメインも存在しない。したがって、ドメインEは、ドメインA〜Dとは、関連性が薄いドメインである。このように、ドメインどうしで新たに生成されたドメインにより、ドメイン間での相関関係を把握することが可能なデータを生成することが可能である。
上述の関連語抽出装置500は、インターネット等の通信回線を介して提供する検索サービス(特定の広告語彙データの入力を受けて、入力された広告語彙データに関連したWebドキュメントのリンクデータを提供するサービス)に適用されることで、検索する語に関連した語彙を、検索するユーザに提示するために使用されてもよい。
さらに、関連語抽出装置500が抽出し、ドメインとしてドメイン記憶部540に記憶される情報が、企業等の広告、宣伝情報に限らず、任意の専門用語であってよい。すなわち、第1広告語彙データの代わりに、所定の専門分野に関する第1専門語彙データを入力し、第2語彙データの抽出を行うことで、この専門分野に関するドメインが生成され、ドメイン記憶部540に記憶される。例えば、第1専門語彙データとして、料理に関するデータを入力し、料理に関するドメインが生成されることで、料理に関する関連語を記憶したドメイン記憶部540を備えることが可能である。
上述の関連語抽出装置500により、一の商品やサービスの宣伝、広告のためのWebドキュメントに関連した語彙を抽出して、抽出した関連語どうしの関連を示すデータを生成することが可能である。すなわち、一の商品、サービスを提供する複数の業者が各々提供するWebドキュメントに、共通して含まれる語彙を抽出することが可能である。例えば、ユーザが検索キーワードとして「保険」と入力した場合に、この検索結果に、保険会社Aが自社のWebドキュメントのリンクを含めたいとする。この場合に、「保険」という語彙以外に、どのような語彙(例えば、「保証人」など)に対する検索結果に対して、保険会社AのWebドキュメントのリンクを含めればよいかの指標が必要となる。このような場合に、関連語抽出装置500により生成されるドメインが検索キーワードに関連した語彙としての指標となる。したがって、関連語抽出装置500が、このように検索キーワードに関連した語彙を提供するサービスとして適用されてよい。
本発明は、一つの実施形態として、関連語抽出システム1にて動作する各コンピュータのコンピュータ・プログラムによって実現可能である。上記プログラムを格納する記憶媒体は、電子的、磁気的、光学的、電磁的、赤外線または半導体システム(または、装置または機器)あるいは伝搬媒体であることができる。コンピュータ可読の媒体の例には、半導体、磁気テープ、取り外し可能なコンピュータ可読の媒体の例には、半導体、磁気テープ、取り外し可能なコンピュータ・ディスケット、ランダム・アクセス・メモリ(RAM)、リードオンリー・メモリ(ROM)、リジッド磁気ディスクおよび光ディスクが含まれる。現時点における光ディスクの例には、コンパクト・ディスク−リードオンリー・メモリ(CD-ROM)、コンパクト・ディスク−リード/ライト(CD-R/W)およびDVDが含まれる。
以上、本発明の実施形態を説明したが、具体例を例示したに過ぎず、特に本発明を限定しない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載された効果に限定されない。
関連語抽出システム1の構成図である。 メイン処理のフローチャート図である。 Webドキュメント対応テーブル図である。 Webドキュメントを抽出した結果を出力した画面イメージ図である。 Webドキュメントを示す図である。 生成されたドメインを示す図である。 生成されたドメインを示す図である。 ドメイン関連づけ処理のフローチャート図である。 複数のドメインが関係づけられることを示す概念図である。
符号の説明
1 関連語抽出システム
30 通信回線ネットワーク
100 制御部
100a、100b、100c Webサーバ
200 ユーザ端末
210 通信部
220 制御部
250 入力部
260 出力部
305 入力窓
311 リンクデータ
321 リンクデータ
410 ドメイン
420 ドメイン
500 関連語抽出装置
510 通信部
520 制御部
525 抽出部
527 ドメイン生成部
530 ドキュメント記憶部
540 ドメイン記憶部
550 入力部
560 出力部
600 ドキュメント
605 ドキュメント
620 制御部

Claims (5)

  1. の語彙データから互いに関連した語彙データを関連づける関連語抽出装置であって、
    通信回線を介して接続された記憶装置に記憶されたWebドキュメントを受信する受信部と、
    前記受信部が受信したWebドキュメントを特徴付けるキーワードを含んだ当該Webドキュメントの一部を記憶するWebドキュメント記憶部と、
    特定の業種・業界においてよく使われる語彙データの解析の基になる1語彙データの入力を受け付ける入力部と、
    前記Webドキュメント記憶部が記憶した前記Webドキュメントの一部のうち、前記入力部を介して入力された前記1語彙データが含まれているものを抽出するWebドキュメント抽出部と、
    前記Webドキュメント抽出部により抽出された前記Webドキュメントの一部の中に共通して含まれる第2語彙データを抽出する第2語彙データ抽出部と、
    前記第2語彙データ抽出部により抽出された前記第2語彙データ、前記第1語彙データ関連づけたデータである、ドメインを生成するドメイン生成部と、
    前記ドメイン生成部により生成された前記ドメインを記憶するドメイン記憶部と、
    を備える関連語抽出装置。
  2. 前記ドメイン生成部は、前記第2語彙データ抽出部が抽出した複数の前記第2語彙データについて、前記第2語彙データを共通して含む前記Webドキュメントの一部の組み合わせが異なるものを、それぞれ異なるグループとして前記第1語彙データと関連付けたドメインを生成する請求項1に記載の関連語抽出装置。
  3. 前記ドメイン生成部は、前記ドメイン記憶部に既に記憶されている前記ドメインに含まれる第2語彙データと同一の語彙データを第1語彙データとして含む新たなドメインがドメイン記憶部に記憶された場合に、これらのドメインさらに関連づける、請求項1または請求項2に記載の関連語抽出装置。
  4. 関連語抽出装置が、複の語彙データから互いに関連した語彙データを関連づける関連語抽出方法であって、
    通信回線を介して接続された記憶装置に記憶されたWebドキュメントを受信するステップと、
    前記受信するステップにおいて受信したWebドキュメントを特徴付けるキーワードを含んだ当該Webドキュメントの一部を記憶するWebドキュメント記憶ステップと、
    特定の業種・業界においてよく使われる語彙データの解析の基になる1語彙データの入力を受け付ける入力ステップと、
    前記Webドキュメント記憶ステップにおいて記憶した前記Webドキュメントの一部のうち、前記入力ステップにおいて入力された前記1語彙データが含まれているものを抽出するWebドキュメント抽出ステップと、
    前記Webドキュメント抽出ステップにおいて抽出された前記Webドキュメントの一部の中に共通して含まれる第2語彙データを抽出する第2語彙データ抽出ステップと、
    前記第2語彙データ抽出ステップにおいて抽出された前記第2語彙データ、前記第1語彙データ関連づけたデータである、ドメインを生成するドメイン生成ステップと、
    前記ドメイン生成ステップにおいて生成された前記ドメインを記憶するドメイン記憶ステップと、
    を備える関連語抽出方法。
  5. 関連語抽出装置に、複数の語彙データから互いに関連した語彙データを関連づける関連語抽出方法を実行させるプログラムであって、前記関連語抽出装置に、
    通信回線を介して接続された記憶装置に記憶されたWebドキュメントを受信するステップと、
    前記受信するステップにおいて受信したWebドキュメントを特徴付けるキーワードを含んだ当該Webドキュメントの一部を記憶するWebドキュメント記憶ステップと、
    特定の業種・業界においてよく使われる語彙データの解析の基になる第1語彙データの入力を受け付ける入力ステップと、
    前記Webドキュメント記憶ステップにおいて記憶した前記Webドキュメントの一部のうち、前記入力ステップにおいて入力された前記第1語彙データが含まれているものを抽出するWebドキュメント抽出ステップと、
    前記Webドキュメント抽出ステップにおいて抽出された前記Webドキュメントの一部の中に共通して含まれる第2語彙データを抽出する第2語彙データ抽出ステップと、
    前記第2語彙データ抽出ステップにおいて抽出された前記第2語彙データに、前記第1語彙データを関連づけたデータである、ドメインを生成するドメイン生成ステップと、
    前記ドメイン生成ステップにおいて生成された前記ドメインを記憶するドメイン記憶ステップと、
    を実行させるプログラム。
JP2005358328A 2005-12-12 2005-12-12 関連語抽出装置、関連語抽出方法 Active JP4791169B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005358328A JP4791169B2 (ja) 2005-12-12 2005-12-12 関連語抽出装置、関連語抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005358328A JP4791169B2 (ja) 2005-12-12 2005-12-12 関連語抽出装置、関連語抽出方法

Publications (3)

Publication Number Publication Date
JP2007164378A JP2007164378A (ja) 2007-06-28
JP2007164378A5 JP2007164378A5 (ja) 2008-07-17
JP4791169B2 true JP4791169B2 (ja) 2011-10-12

Family

ID=38247213

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005358328A Active JP4791169B2 (ja) 2005-12-12 2005-12-12 関連語抽出装置、関連語抽出方法

Country Status (1)

Country Link
JP (1) JP4791169B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357851A (zh) * 2017-06-28 2017-11-17 国信优易数据有限公司 一种信息处理方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004062446A (ja) * 2002-07-26 2004-02-26 Ibm Japan Ltd 情報収集システム、アプリケーションサーバ、情報収集方法、およびプログラム
JP2004234078A (ja) * 2003-01-28 2004-08-19 Oki Electric Ind Co Ltd 情報検索装置
JP2004280488A (ja) * 2003-03-17 2004-10-07 Hitachi Ltd 文書管理方法及び文書管理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357851A (zh) * 2017-06-28 2017-11-17 国信优易数据有限公司 一种信息处理方法和系统
CN107357851B (zh) * 2017-06-28 2020-01-31 国信优易数据有限公司 一种信息处理方法和系统

Also Published As

Publication number Publication date
JP2007164378A (ja) 2007-06-28

Similar Documents

Publication Publication Date Title
US20040049374A1 (en) Translation aid for multilingual Web sites
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
US8099406B2 (en) Method for human editing of information in search results
US9720904B2 (en) Generating training data for disambiguation
Jones et al. Improving web search on small screen devices
US20140032522A1 (en) Systems and methods for contextual searching of semantic entities
US20080033938A1 (en) Keyword outputting apparatus, keyword outputting method, and keyword outputting computer program product
US7958449B2 (en) Method and apparatus for displaying and processing input fields from a document
US20030025731A1 (en) Method and system for automated research using electronic book highlights and notations
JP5229226B2 (ja) 情報共有システム、情報共有方法、および情報共有プログラム
JP2010510601A (ja) 商品情報を推薦する方法およびその方法を実行するシステム
JP5399450B2 (ja) 医療用語の曖昧性を判定するシステム、方法およびソフトウェア
US8572118B2 (en) Computer method and apparatus of information management and navigation
US11416907B2 (en) Unbiased search and user feedback analytics
JP4081065B2 (ja) Faqデータ作成装置、方法、及びプログラム
US10242033B2 (en) Extrapolative search techniques
JP2015525929A (ja) 検索品質を改善するための重みベースのステミング
US20170228378A1 (en) Extracting topics from customer review search queries
CN114357335A (zh) 信息获取方法、介质、装置和计算设备
JP2009223372A (ja) リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法
US7207003B1 (en) Method and apparatus in a data processing system for word based render browser for skimming or speed reading web pages
JP4791169B2 (ja) 関連語抽出装置、関連語抽出方法
Shamim et al. Critical product features’ identification using an opinion analyzer
WO2014069582A1 (ja) 関連情報提示装置及び関連情報提示方法
JP2009163388A (ja) 広告データを表示する方法及び、広告データを表示するシステム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080602

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110705

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110721

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140729

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4791169

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250