JP4204608B2 - ウェブテキスト抽出装置、方法及びプログラム - Google Patents

ウェブテキスト抽出装置、方法及びプログラム Download PDF

Info

Publication number
JP4204608B2
JP4204608B2 JP2006229179A JP2006229179A JP4204608B2 JP 4204608 B2 JP4204608 B2 JP 4204608B2 JP 2006229179 A JP2006229179 A JP 2006229179A JP 2006229179 A JP2006229179 A JP 2006229179A JP 4204608 B2 JP4204608 B2 JP 4204608B2
Authority
JP
Japan
Prior art keywords
character string
extraction
item
priority
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006229179A
Other languages
English (en)
Other versions
JP2008052553A (ja
Inventor
英志朗 立里
あゆみ 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Increment P Corp
Original Assignee
Pioneer Corp
Increment P Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp, Increment P Corp filed Critical Pioneer Corp
Priority to JP2006229179A priority Critical patent/JP4204608B2/ja
Publication of JP2008052553A publication Critical patent/JP2008052553A/ja
Application granted granted Critical
Publication of JP4204608B2 publication Critical patent/JP4204608B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ウェブ画面上におけるウェブテキストを抽出する技術に関する。
従来から、お気に入りの店に関する情報が掲載されているウェブ画面内の各種情報を利用者専用のウェブ画面(一般的に「マイページ」等と呼ばれることが多い。)に対して入力・登録を行うことにより、その情報をストックしておくという利用形態がある。
利用者は、お気に入りの店のウェブ画面に掲載されている情報から必要な項目(例えば、住所、営業時間、電話番号等)をコピーし、利用者専用のウェブ画面に対して、上記コピーした情報を貼り付けた後に登録するという作業を行っている。上記作業は、利用者にとって非常に操作が煩雑であるため、極力自動で行う方が望ましい。
この点、ウェブ画面上から住所を自動抽出して、その結果を基に地図検索を行う装置の例が特許文献1に記載されている。
特開2004−280659号公報
上記の特許文献1の手法は、住所検索を行う際に、ウェブ画面内の住所情報のみを自動で抽出している。そのため、例えば、店情報を登録する場合に必要となる「営業時間」、「電話番号」等の項目について自動抽出しておらず、ウェブ画面に複数項目を登録するためには、実用的ではない。
また、特許文献1の手法は、住所検索を行う際、都道府県名称で検索を行っており、例えばウェブ画面内の文章中に住所とは関係ない都道府県名が記載されている場合、本来取得すべき住所とは異なる住所を検索してしまう可能性がある。
本発明が解決しようとする課題としては、上記のものが例として挙げられる。本発明の目的は、必要とするウェブ画面上の情報を項目別に取得するウェブテキスト抽出手法を提供することにある。
請求項1に記載の発明は、ウェブテキスト抽出装置であって、ウェブ画面上における文字列の抽出範囲を決定する抽出範囲決定手段と、前記抽出範囲内の文字列を取得する文字列取得手段と、前記抽出範囲内の文字列について解析を行い、1又は複数の項目に対応する検索文字列を用いて、項目の内容を意味する文字列を抽出する文字列抽出手段と、前記文字列抽出手段が抽出した文字列を記憶する文字列抽出結果記憶手段と、を備え、前記文字列抽出手段は、前記項目の内容を意味する文字列以外の文字列を未分類文字列として別途抽出し、
前記文字列抽出手段は、複数項目間で定義されている優先順位が所定の優先順位より高い項目の内容を意味する文字列については、前記優先順位が高い項目に対応する文字列として抽出し、前記優先順位が前記所定の優先順位より低い項目の内容を意味する文字列については、前記優先順位が低い項目の内容を意味する文字列と前記優先順位が低い項目の名称とを関連付けた文字列を未分類文字列として抽出することを特徴とする。
請求項に記載の発明は、ウェブテキスト抽出方法であって、ウェブ画面上における文字列の抽出範囲を決定する抽出範囲決定工程と、前記抽出範囲内の文字列を取得する文字列取得工程と、前記抽出範囲内の文字列について解析を行い、1又は複数の項目に対応する検索文字列を用いて、項目の内容を意味する文字列を抽出する文字列抽出工程と、前記文字列抽出工程で抽出した文字列を記憶する文字列抽出結果記憶工程と、を備え、前記文字列抽出工程は、前記項目の内容を意味する文字列以外の文字列を未分類文字列として別途抽出し、前記文字列抽出工程は、複数項目間で定義されている優先順位が所定の優先順位より高い項目の内容を意味する文字列については、前記優先順位が高い項目に対応する文字列として抽出し、前記優先順位が前記所定の優先順位より低い項目の内容を意味する文字列については、前記優先順位が低い項目の内容を意味する文字列と前記優先順位が低い項目の名称とを関連付けた文字列を未分類文字列として抽出することを特徴とする。
請求項に記載の発明は、コンピュータを備える装置において実行されるウェブテキスト抽出プログラムであって、ウェブ画面上における文字列の抽出範囲を決定する抽出範囲決定手段、前記抽出範囲内の文字列を取得する文字列取得手段、前記抽出範囲内の文字列について解析を行い、1又は複数の項目に対応する検索文字列を用いて、項目の内容を意味する文字列を抽出する文字列抽出手段、前記抽出した文字列を記憶する文字列抽出結果記憶手段、として前記コンピュータを機能させ、前記文字列抽出手段は、前記項目の内容を意味する文字列以外の文字列を未分類文字列として別途抽出し、前記文字列抽出手段は、複数項目間で定義されている優先順位が所定の優先順位より高い項目の内容を意味する文字列については、前記優先順位が高い項目に対応する文字列として抽出し、前記優先順位が前記所定の優先順位より低い項目の内容を意味する文字列については、前記優先順位が低い項目の内容を意味する文字列と前記優先順位が低い項目の名称とを関連付けた文字列を未分類文字列として抽出することを特徴とする。
本発明の好適な実施形態では、ウェブテキスト抽出装置は、ウェブ画面上における文字列の抽出範囲を決定する抽出範囲決定手段と、前記抽出範囲内の文字列を取得する文字列取得手段と、前記抽出範囲内の文字列について解析を行い、1又は複数の項目に対応する検索文字列を用いて、項目の内容を意味する文字列を抽出する文字列抽出手段と、前記抽出した文字列を記憶する文字列抽出結果記憶手段と、を備え、前記文字列抽出手段は、前記項目の内容を意味する文字列以外の文字列を未分類文字列として抽出し、前記文字列抽出手段は、複数項目間で定義されている優先順位が所定の優先順位より高い項目の内容を意味する文字列については、前記優先順位が高い項目に対応する文字列として抽出し、前記優先順位が前記所定の優先順位より低い項目の内容を意味する文字列については、前記優先順位が低い項目の内容を意味する文字列と前記優先順位が低い項目の名称とを関連付けた文字列を未分類文字列として抽出する
上記のウェブテキスト抽出装置は、利用者の操作に基づいて又は自動的にウェブ画面内の文字列抽出範囲が決定されると、前記文字列抽出範囲内の文字列を取得し、前記文字列を解析し、1又は複数の項目に対応する検索文字列を用いて、項目の内容を意味する文字列を抽出し、更に、上記の項目の内容を意味する文字列以外の文字列を未分類文字列として別途抽出する。そして、上記のウェブテキスト抽出装置は、抽出した文字列を記憶する。ここで、「項目」としては、例えば名称、住所、電話番号などが挙げられる。よって、利用者は自分専用のウェブ画面に入力・登録するときなどに、これらの項目に対応する文字列を1つ1つコピーする必要が無くなる。また、抽出した文字列を文字列抽出結果表示画面における各項目に対応する箇所に表示することができる。
そして、ウェブテキスト抽出装置は、項目の内容に関する文字列以外の文字列についても別途未分類文字列として抽出している。よって、ウェブテキスト抽出装置が上記未分類文字列を抽出結果として、自分専用のウェブ画面(マイページ登録用の画面)上に表示すれば、上記ウェブテキスト抽出装置の利用者は、表示している未分類文字列を適宜利用してマイページ用の情報の編集を行うことができる。
また、ウェブテキスト抽出装置は、複数項目間で定義されている優先順位が高い項目の内容を意味する文字列については、前記優先順位が所定の優先順位より高い項目に対応する文字列として抽出し、前記優先順位が前記所定の優先順位より低い項目の内容を意味する文字列については、当該優先順位が低い項目の内容を意味する文字列と優先順位が低い項目の名称とを関連付けた文字列を未分類文字列として抽出する。これによれば、ウェブテキスト抽出装置は、抽出した文字列を用いて文字列抽出結果をマイページ登録用の画面へ表示する場合、優先順位の高い項目の内容を意味する文字列を当該項目に対応する箇所に表示し、優先順位の低い項目名称と当該優先順位の低い項目内容を意味する文字列とを関連付けた文字列を別の箇所(未分類文字列を意味する領域)に表示することができる。
従って、ウェブテキスト抽出装置は、利用者に対して優先順位の低い項目の内容を意味する文字列をマイページ登録用に利用させることができるだけでなく、優先順位の低い項目の内容を意味する文字列がどのような項目であるかについても通知することができる。
上記のウェブテキスト抽出装置の一態様では、1項目あたり複数の検索文字列を用いて項目の内容を意味する文字列を抽出する。例えば、住所の項目については、「住所」の他に「場所」、「アドレス」などの検索文字列が用意される。各ウェブ画面では、同一項目について記載されていても、項目名称が異なることが多いため、複数の文字列で検索することにより、抽出する精度を上げることができる。
上記のウェブテキスト抽出装置の一態様では、文字列抽出手段は、同一項目で、項目の内容を意味する文字列を複数抽出した場合、所定の優先順位に基づいて、1つの文字列を前記項目の内容を意味する文字列として抽出し、他の文字列を未分類文字列として抽出する。これにより、ウェブテキスト抽出装置は、自分専用のウェブ画面へ抽出した文字列を表示する場合、優先順位に基づいて抽出した文字列を項目に対応する箇所に表示し、同一項目の内容で、未分類文字列とした文字列を別の箇所に表示することができる。
上記のウェブテキスト抽出装置の一態様では、前記抽出範囲決定手段は、前記ウェブ画面内のユーザにより決定された範囲を前記抽出範囲とする。よって、利用者が文字列抽出を行う必要がある箇所のみ決定することができ、ウェブテキスト抽出処理の処理速度を上げることができる。
上記のウェブテキスト抽出装置の一態様では、前記抽出範囲決定手段は、自動的に前記ウェブ画面内の全範囲を前記抽出範囲とする。よって、利用者が文字列抽出の範囲を決定することなく、ウェブテキストを抽出することができる。
本発明の他の実施の形態では、ウェブテキスト抽出方法は、ウェブ画面上における文字列の抽出範囲を決定する抽出範囲決定工程と、前記抽出範囲内の文字列を取得する文字列取得工程と、前記抽出範囲内の文字列について解析を行い、1又は複数の項目に対応する検索文字列を用いて、項目の内容を意味する文字列を抽出する文字列抽出工程と、前記抽出した文字列を記憶する文字列抽出結果記憶工程と、を備え、前記文字列抽出工程は、前記項目の内容を意味する文字列以外の文字列を未分類文字列として抽出し、前記文字列抽出手段は、複数項目間で定義されている優先順位が所定の優先順位より高い項目の内容を意味する文字列については、前記優先順位が高い項目に対応する文字列として抽出し、前記優先順位が前記所定の優先順位より低い項目の内容を意味する文字列については、前記優先順位が低い項目の内容を意味する文字列と前記優先順位が低い項目の名称とを関連付けた文字列を未分類文字列として抽出することを特徴とする。
このウェブテキスト抽出方法によれば、上記のウェブテキスト抽出装置と同様に、ウェブ画面中の必要な項目の内容を意味する文字列を自動的に抽出することができる。更に、ウェブテキスト抽出方法では、項目の内容に関する文字列以外の文字列についても別途未分類文字列として抽出している。よって、上記未分類文字列を抽出結果として、自分専用のウェブ画面(マイページ登録用の画面)上に表示すれば、利用者は、表示している未分類文字列を適宜利用してマイページ用の情報の編集を行うことができる。
また、ウェブテキスト抽出方法では、複数項目間で定義されている優先順位が所定の優先順位より高い項目の内容を意味する文字列については、前記優先順位が高い項目に対応する文字列として抽出し、前記優先順位が前記所定の優先順位より低い項目の内容を意味する文字列については、当該優先順位が低い項目の内容を意味する文字列と優先順位が低い項目の名称とを関連付けた文字列を未分類文字列として抽出する。よって、ウェブテキスト抽出方法で抽出した文字列を用いて文字列抽出結果をマイページ登録用の画面へ表示する場合、優先順位の高い項目の内容を意味する文字列を当該項目に対応する箇所に表示し、優先順位の低い項目名称と当該優先順位の低い項目内容を意味する文字列とを関連付けた文字列を別の箇所(未分類文字列を意味する領域)に表示することができる。
従って、上記のウェブテキスト抽出方法で文字列を抽出すれば、利用者に対して優先順位の低い項目の内容を意味する文字列をマイページ登録用に利用させることができるだけでなく、優先順位の低い項目の内容を意味する文字列がどのような項目であるかについても通知することができる。
本発明の他の実施の形態では、コンピュータを備える装置において実行され、ウェブ画面上における文字列の抽出範囲を決定する抽出範囲決定手段、前記抽出範囲内の文字列を取得する文字列取得手段、前記抽出範囲内の文字列について解析を行い、1又は複数の項目に対応する検索文字列を用いて、項目の内容を意味する文字列を抽出する文字列抽出手段、前記抽出した文字列を記憶する文字列抽出結果記憶手段、として前記コンピュータを機能させ、前記文字列抽出手段は、前記項目の内容を意味する文字列以外の文字列を未分類文字列として抽出し、前記文字列抽出手段は、複数項目間で定義されている優先順位が所定の優先順位より高い項目の内容を意味する文字列については、前記優先順位が高い項目に対応する文字列として抽出し、前記優先順位が前記所定の優先順位より低い項目の内容を意味する文字列については、前記優先順位が低い項目の内容を意味する文字列と前記優先順位が低い項目名称とを関連付けた文字列を未分類文字列として抽出する
このプログラムを、コンピュータ上で実行することにより、上記のウェブテキスト抽出装置を実現することができる。
以下、図面を参照して本発明の好適な実施例について説明する。
[処理システム]
図1に、処理システム1の概略構成を示す。図1に示す処理システム1は、端末装置2とサーバ3とがネットワーク4を介して接続している。
端末装置2は、利用者によってウェブ画面上における文字列抽出処理が指定されたことを検知することにより、サーバから文字列抽出プログラムを受け取り、文字列抽出処理を行い、文字列抽出プログラムに定義した項目に該当する文字列をウェブ画面上のテキスト情報から取得する。
因みに端末装置2は、利用者が使用するパーソナルコンピュータ(以下、「PC」と呼ぶ。)や携帯電話といったネットワーク4を介してデータの授受が可能な端末装置である。
[処理システムの内部構成]
次に、図2に示す処理システム1の内部構成について説明する。図示のように端末装置2は、送受信手段21、記憶手段22、入力手段23、表示手段24、文字列抽出範囲決定手段25、文字列抽出範囲の文字列取得手段26、文字列抽出手段27、文字列抽出結果記憶手段28を有し、サーバ3は、送受信手段31、記憶手段32を有している。
端末装置2における送受信手段21は、サーバ3とネットワーク4を介してデータ等を授受する手段であり、具体的には、文字列抽出プログラムをサーバ3から受信したり、文字列抽出処理終了通知をサーバ3へ行ったりする。
端末装置2における記憶手段22は、サーバ3から受信した文字列抽出プログラムや、文字列を抽出した結果を記憶する手段である。
端末装置2における入力手段23は、利用者がメニュー等の選択・決定を行う手段であり、具体的には、マウス、キーボード等である。
端末装置2における表示手段24は、ウェブ画面等を表示する手段であり、具体的には、ディスプレイ等である。
端末装置2における文字列抽出範囲決定手段25は、ユーザによる入力手段23の結果に基づいて、又は、自動的にウェブ画面上の文字列抽出範囲を決定する手段である。
端末装置2における文字列抽出範囲の文字列取得手段26は、文字列抽出範囲内の文字列を取得し、記憶手段22に記憶する手段である。
端末装置2における文字列抽出手段27は、文字列抽出プログラムを利用して、文字列抽出範囲内の文字列を解析し、項目毎に文字列を抽出する手段である。
端末装置2における文字列抽出結果記憶手段28は、項目毎に抽出した文字列を記憶手段22に記憶する手段である。
サーバ3における送受信手段31は、端末装置2とネットワーク4を介してデータ等を授受する手段であり、具体的には、文字列抽出プログラムを端末装置2へ送信したり、文字列抽出処理終了通知を端末装置2から受信したりする。
サーバ3における記憶手段32は、文字列抽出プログラム等、各種データを記憶する手段である。
[ウェブテキスト抽出方法]
次にウェブテキスト抽出方法について、具体的に述べる。図3は、ウェブテキスト抽出を行うウェブ画面(例えば、お気に入りの店の情報が表示されている画面)の例である。
端末装置2は、利用者が入力手段23を介して画面表示を指定することにより、当該画面を表示手段24に表示する。また、端末装置2は、利用者が入力手段23を介して文字列抽出をする範囲(例えば、抽出範囲SEL)を指定した後に入力手段23を介してメニュー表示を指定すると、メニューM1を表示する。
図示のように、利用者が入力手段23を介してメニューM1中の「文字列抽出」を指定すると、端末装置2は、サーバ3から文字列抽出プログラムを取得し、文字列抽出範囲決定手段25は、文字列抽出範囲を抽出範囲SELと決定する。
そして、文字列抽出範囲の文字列取得手段26は、抽出範囲SEL内の文字列である「居酒屋○○○ 定休日:日曜日コメント:どこか和風の佇まい。相性の良い気軽な惣菜が自慢。予算:昼 1100円 夜 6500円 座席:25席 住所 AAA県BBB市DDD町1−2−3 TEL 000−0000−0000」を取得し、記憶手段22に保存する。
端末装置2は、文字列抽出範囲の文字列取得手段26によって抽出範囲SEL内の文字列を記憶手段22に保存した後、端末装置2は、当該文字列抽出プログラムを実行することにより文字列抽出手段27として機能し、記憶手段22に保存した情報から、住所、電話番号等の文字列抽出プログラムで定義した項目に該当する文字列を抽出する。
図3の例では、文字列抽出手段27は、「定休日」と記載されている行に「日曜日」と記載されているため、「定休日」が日曜日であると判断し、項目とその内容を関連付けた文字列(例えば、「定休日:日曜日」)を文字列抽出結果とする。
同様に、文字列抽出手段27は、「コメント」が「どこか和風の佇まい。相性の良い気軽な惣菜が自慢。」、「住所」が「AAA県BBB市DDD町1−2−3」、「電話番号」が「000−0000−0000」であると判断し、項目とその内容を関連付けた文字列を文字列抽出結果とする。
因みに、文字列抽出手段27は、「予算」が「昼 1100円 夜 6500円」、「座席」が「25席」であると判断できるが、これらの項目は、表示対象として、それほど重要でない項目であると文字列抽出プログラムで定義しているため、未分類文字列であることを示す文字列(例えば、「未分類文字列:昼 1100円 夜 6500円 25席」。なお、これらが最終的に未分類文字列欄に表示されるときには、項目名も[予算]や[座席]として未分類文字列欄に表示される。例えば、「未分類文字列:[予算]昼 1100円 夜 6500円[座席]25席)を文字列抽出結果とする。ここで、未分類文字列とは、単独で表示すべき項目に分類されていない文字列のことを示す。
そして、文字列抽出手段27は、「居酒屋○○○」が記載されている行に「店名」「名称」等の項目名が記載されていないため、未分類文字列であることを示す文字列を文字列抽出結果とする。文字列抽出結果記憶手段28は、文字列抽出手段27により抽出した文字列抽出結果を記憶手段22に記憶する。
図4にウェブテキスト抽出を行った結果を基に生成した利用者専用のウェブ画面の例を示す。当該画面は、ウェブテキスト抽出処理終了後、サーバ3から端末装置2へ送信され、各種処理が行われた後、端末装置2によって表示手段24に表示される。
端末装置2は、住所、電話番号、定休日、コメントに関する文字列抽出結果をそれぞれ住所情報表示領域ED3、電話番号表示領域ED4、定休日表示領域ED6、コメント表示領域ED7に表示する。また、端末装置2は、未分類文字列として抽出した文字列を未分類テキスト表示領域ED8に表示する。これにより、利用者が未分類文字列を適宜利用できる。さらに、住所に対応した地図画像を画面右側の地図表示領域MPに表示している。
このように、端末装置2は、ウェブ画面から文字列を取得し、その文字列中から各種項目に該当する文字列を抽出し、その抽出結果を利用者用のウェブ画面に対して表示することにより、各種項目の情報を自動で表示している。これにより利用者は、利用者専用のウェブ画面に対する入力作業を軽減できる。
[ウェブテキスト抽出処理等の手順]
次に、図5のフローチャートを用いて、「ウェブテキスト抽出処理」及び「ウェブテキスト抽出処理により取得した文字列を別画面に表示する処理」の説明を行う。因みに「ウェブテキスト抽出処理」は、ステップS1からステップS7までの処理であり、「ウェブテキスト抽出処理により取得した文字列を別画面に表示する処理」は、ステップS8からステップS10までの処理である。
端末装置2は、利用者が情報をコピーしたいページを表示手段24に表示する(ステップS1)。利用者は画面を視認しながら、入力手段23を介して文字列抽出範囲の指定・メニューから「文字列抽出」の選択を行う。
次に、端末装置2は、送受信手段21を介してサーバ3へ文字列抽出プログラムの送信要求を行う(ステップS2)。因みに、本実施例における文字列抽出プログラムは、JavaScript(登録商標)などにより生成することができる。
サーバ3は、端末装置2から文字列抽出プログラムの送信要求を受信すると、記憶手段32に保存している文字列抽出プログラムを送受信手段31を介して端末装置2へ送信する(ステップS3)。
端末装置2は、サーバ3から文字列抽出プログラムを取得すると、当該文字列抽出プログラムを記憶手段22へ保存する。
文字列抽出範囲決定手段25は、文字列抽出範囲を決定する(ステップS4)。文字列抽出範囲を決定した後、文字列抽出範囲の文字列取得手段26は、文字列抽出範囲の文字列を取得し、当該文字列抽出範囲の文字列を記憶手段22に保存する(ステップS5)。 文字列抽出手段27は、文字列抽出プログラムを実行することにより、記憶手段22に保存した文字列抽出範囲の文字列に対して、文字列抽出処理を行う(ステップS6)。なお、文字列抽出処理の詳細については、後述する。
次に、文字列抽出手段27は、文字列抽出処理を行うことにより、文字列抽出範囲の文字列から項目に対応した文字列抽出結果を取得する。文字列抽出結果記憶手段28は、上記-文字列抽出手段27により取得した文字列抽出結果を記憶手段22に記憶する(ステップS7)。こうして、端末装置2は、文字列抽出処理を終了すると、文字列抽出処理の終了通知をサーバ3へ行う(ステップS8)。
サーバ3は、端末装置2から文字列抽出処理の終了通知を受信すると、HTML(Hyper Text Markup Language)ファイルを端末装置2へ送信する(ステップS9)。
端末装置2は、サーバ3からHTMLファイルを受信すると、当該HTMLファイルと記憶手段22に保存した文字列抽出結果とを表示する(ステップS10)。これにより、図4に例示するような、利用者専用のウェブ画面が端末装置2に表示される。
[文字列抽出処理手順]
次に図5におけるステップS6の文字列抽出処理について、図6のフローチャートを用いて説明する。
サーバ3から受信した文字列抽出プログラムを端末装置2が実行すると、まず、文字列抽出手段27は、記憶手段22に保存した文字列抽出範囲の文字列を改行コード毎に分割する(ステップS61)。次に、文字列抽出手段27は、各行の文字列に対して第1解析処理を行う(ステップS62)。ここで第1解析処理とは、各行の文字列に、図7に示す複数の「項目」について、「項目を判断する文字列」が含まれるか否かを解析する処理である。
各行の文字列に「項目を判断する文字列」が含まれている場合は、項目名称と、その項目名称に対応する文字列を抽出対象の文字列とする。例えば、図3の例においては、2行目に項目を判断する文字列「定休日」が含まれているので、項目名称「定休日」に対応する文字列「日曜日」を抽出対象とする。因みに、図7の例では、1つの「項目」に対して「項目を判断する文字列」を複数設定しており、これにより、検索精度を上げることができる。
ステップS62の第1解析処理を終了すると、文字列抽出手段27は、分割した文字列に対して第2解析処理を行う(ステップS63)。ここで第2解析処理とは、解析対象となる文字列に、都道府県名が含まれるか否かを解析する処理である。各行の文字列に都道府県名が含まれている場合は、住所情報として当該文字列を抽出対象の文字列とする。これにより、第1解析処理で住所項目と判断する文字列を含んでいない場合でも、住所として抽出することができる。ただし、都道府県名を含む文字列が住所を意味していない可能性があるため、第1解析処理で住所を抽出した場合は、第1解析処理の抽出結果を優先するように規定している。
ステップS63の第2解析処理を終了すると、文字列抽出手段27は、各行の文字列に対して第3解析処理を行う(ステップS64)。ここで第3解析処理とは、各行の文字列に、重要度が低いと思われる情報に関する項目が含まれるか否かを解析する処理であり、本実施例では、図8に示す「項目を判断する文字列」が含まれるか否かを解析する処理である。
各行の文字列に図8の「項目を判断する文字列」を含んでいる場合は、項目毎に文字列を分割し、分割した文字列を未分類文字列としての抽出対象とする。一方、図8の「項目を判断する文字列」を含んでいない場合は、各行の文字列自体を未分類文字列としての抽出対象とする。
ステップS64の第3解析処理を終了すると、文字列抽出手段27は、文字列抽出処理を終了する。
なお、上記の第1解析処理では、同一の項目についての文字列が複数抽出された場合について、以下のルールに基づき、各項目に対応する文字列を1つに絞り、他の文字列を未分類文字列としての抽出対象とする。
(ルール1)図7の「項目を判断する文字列」について、左側の文字ほど優先度を高くする。
(ルール2)ルール1が同じ場合、行の先頭に近い文字を含む行ほど優先度が高い。
(ルール3)ルール2も同じ場合、ページ内で先の行ほど優先度が高い。
このようなルールを規定しておくことにより、利用者が利用するために望ましい情報を自動で表示できる可能性が高くなる。
また、低い優先度とした文字列についても、未分類文字列として抽出しているので、仮に、利用者が、低い優先度の文字列を各項目の情報として利用したい場合にも、自ら利用者専用のウェブ画面にコピー、貼り付けすることにより、低い優先度の文字列を簡易に利用することができる。
[他の実施例]
上記の実施例では、文字列抽出範囲の指定について、利用者自身がマウス等の入力手段23により指定していたが、本発明の適用はこれには限られず、現在表示中のウェブ画面全体を自動的に文字列抽出範囲と決定してもよい。例えば、図9に示すように、利用者が文字列範囲を指定することなく、入力手段23を介して、「メニュー3」を指定した後に表示されるメニューM2から「文字列抽出」を指定した場合に、文字列抽出範囲決定手段25は、現在表示中のウェブ画面内の全テキストを文字列抽出範囲とみなしても良い。この場合、文字列抽出範囲の指定が不要なため、利用者が、簡易に文字列抽出処理の指定を行うことができる。
また、上記の実施例では、複数の項目について文字列抽出を実行していたが、本発明の適用は、これに限られず、必要な項目についてのみ文字列抽出を行えるようにしてもうよい。例えば、図10に示すように、メニューM3に文字列抽出を行う項目毎の選択肢(「住所」文字列抽出)又は複数の項目をグループ化した選択肢(「住所・電話番号」文字列抽出)を生成することにより、文字列抽出を行う項目を限定しても良い。この場合、文字列抽出を行う項目を限定するため、文字列抽出処理の処理速度を上げることができる。
さらに、上記の実施例では、「端末装置2からサーバ3への文字列抽出プログラムの送信要求」(ステップS2)と「サーバ3から端末装置2へ文字列抽出プログラムを送信」(ステップS3)を、「文字列抽出範囲の決定」(ステップS4)と「文字列抽出範囲の文字列取得」(ステップ5)より先に行なう場合について述べたが、本発明の適用は、これに限られず、「文字列抽出範囲の決定」(ステップS4)と「文字列抽出範囲の文字列取得」(ステップ5)の後に、「端末装置2からサーバ3への文字列抽出プログラムの送信要求」(ステップS2)と「サーバ3から端末装置2へ文字列抽出プログラムを送信」(ステップS3)を行なっても良い。
処理システムの概念図である。 処理システムのブロック図である。 本実施例におけるウェブテキスト抽出対象画面を示す模式図である。 本実施例におけるウェブテキスト抽出結果を表示する画面を示す模式図である。 ウェブテキスト抽出処理等のフローチャートである。 文字列抽出処理のフローチャートである。 第1解析処理を行う項目と項目を判断する文字列の対応関係を示す図表である。 第3解析処理を行う項目を示す図表である。 他の実施例におけるウェブテキスト抽出対象画面を示す模式図である。 他の実施例におけるウェブテキスト抽出対象画面を示す模式図である。
符号の説明
1 処理システム
2 端末装置
3 サーバ
4 ネットワーク
25 文字列抽出範囲指定手段
26 文字列抽出範囲の文字列取得手段
27 文字列抽出手段
28 文字列抽出結果記憶手段

Claims (7)

  1. ウェブ画面上における文字列の抽出範囲を決定する抽出範囲決定手段と、
    前記抽出範囲内の文字列を取得する文字列取得手段と、
    前記抽出範囲内の文字列について解析を行い、1又は複数の項目に対応する検索文字列を用いて、項目の内容を意味する文字列を抽出する文字列抽出手段と、
    前記文字列抽出手段が抽出した文字列を記憶する文字列抽出結果記憶手段と、を備え、
    前記文字列抽出手段は、前記項目の内容を意味する文字列以外の文字列を未分類文字列として別途抽出し、
    前記文字列抽出手段は、複数項目間で定義されている優先順位が所定の優先順位より高い項目の内容を意味する文字列については、前記優先順位が高い項目に対応する文字列として抽出し、前記優先順位が前記所定の優先順位より低い項目の内容を意味する文字列については、前記優先順位が低い項目の内容を意味する文字列と前記優先順位が低い項目の名称とを関連付けた文字列を未分類文字列として抽出することを特徴とするウェブテキスト抽出装置。
  2. 前記文字列抽出手段は、1項目あたり複数の検索文字列を用いて項目の内容を意味する文字列を抽出することを特徴とする請求項1に記載のウェブテキスト抽出装置。
  3. 前記文字列抽出手段は、同一項目で、項目の内容を意味する文字列を複数抽出した場合、所定の優先順位に基づいて、1つの文字列を項目の内容を意味する文字列として抽出し、他の文字列を未分類文字列として抽出することを特徴とする請求項1又は2に記載のウェブテキスト抽出装置。
  4. 抽出範囲決定手段は、前記ウェブ画面内の利用者により指定された範囲を前記抽出範囲と決定することを特徴とする請求項1乃至のいずれか一項に記載のウェブテキスト抽出装置。
  5. 抽出範囲決定手段は、前記ウェブ画面内の全範囲を前記抽出範囲と決定することを特徴とする請求項1乃至のいずれか一項に記載のウェブテキスト抽出装置。
  6. ウェブ画面上における文字列の抽出範囲を決定する抽出範囲決定工程と、
    前記抽出範囲内の文字列を取得する文字列取得工程と、
    前記抽出範囲内の文字列について解析を行い、1又は複数の項目に対応する検索文字列を用いて、項目の内容を意味する文字列を抽出する文字列抽出工程と、
    前記文字列抽出工程で抽出した文字列を記憶する文字列抽出結果記憶工程と、を備え、
    前記文字列抽出工程は、前記項目の内容を意味する文字列以外の文字列を未分類文字列として別途抽出し、
    前記文字列抽出工程は、複数項目間で定義されている優先順位が所定の優先順位より高い項目の内容を意味する文字列については、前記優先順位が高い項目に対応する文字列として抽出し、前記優先順位が前記所定の優先順位より低い項目の内容を意味する文字列については、前記優先順位が低い項目の内容を意味する文字列と前記優先順位が低い項目の名称とを関連付けた文字列を未分類文字列として抽出することを特徴とするウェブテキスト抽出方法。
  7. コンピュータを備える装置において実行され、
    ウェブ画面上における文字列の抽出範囲を決定する抽出範囲決定手段、
    前記抽出範囲内の文字列を取得する文字列取得手段、
    前記抽出範囲内の文字列について解析を行い、1又は複数の項目に対応する検索文字列を用いて、項目の内容を意味する文字列を抽出する文字列抽出手段、
    前記文字列抽出手段が抽出した文字列を記憶する文字列抽出結果記憶手段、として前記コンピュータを機能させ、
    前記文字列抽出手段は、前記項目の内容を意味する文字列以外の文字列を未分類文字列として別途抽出し、
    前記文字列抽出手段は、複数項目間で定義されている優先順位が所定の優先順位より高い項目の内容を意味する文字列については、前記優先順位が高い項目に対応する文字列として抽出し、前記優先順位が前記所定の優先順位より低い項目の内容を意味する文字列については、前記優先順位が低い項目の内容を意味する文字列と前記優先順位が低い項目の名称とを関連付けた文字列を未分類文字列として抽出することを特徴とするウェブテキスト抽出プログラム。
JP2006229179A 2006-08-25 2006-08-25 ウェブテキスト抽出装置、方法及びプログラム Expired - Fee Related JP4204608B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006229179A JP4204608B2 (ja) 2006-08-25 2006-08-25 ウェブテキスト抽出装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006229179A JP4204608B2 (ja) 2006-08-25 2006-08-25 ウェブテキスト抽出装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2008052553A JP2008052553A (ja) 2008-03-06
JP4204608B2 true JP4204608B2 (ja) 2009-01-07

Family

ID=39236542

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006229179A Expired - Fee Related JP4204608B2 (ja) 2006-08-25 2006-08-25 ウェブテキスト抽出装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4204608B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010198162A (ja) * 2009-02-24 2010-09-09 Nippon Hoso Kyokai <Nhk> 番組コンテンツ参照装置、ユーザ端末装置及びそのシステム
KR101217746B1 (ko) * 2011-02-17 2013-01-02 이노디지털 주식회사 조합형 ui 운용 및 구현 방법
JP6727589B1 (ja) * 2019-03-25 2020-07-22 株式会社ウィルビー 情報処理装置、情報処理方法およびコンピュータプログラム

Also Published As

Publication number Publication date
JP2008052553A (ja) 2008-03-06

Similar Documents

Publication Publication Date Title
JP2003208434A (ja) 情報検索システム及びそれに用いる情報検索方法
JP4430598B2 (ja) 情報共有システムおよび情報共有方法
JP2006120126A (ja) キーワード抽出装置、キーワード抽出プログラム
EP3242220A1 (en) Intelligent prediction input method and system
JP5185402B2 (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
JP5712150B2 (ja) 検索サーバ装置、情報検索方法および情報検索プログラム
JP4204608B2 (ja) ウェブテキスト抽出装置、方法及びプログラム
JP5185891B2 (ja) コンテンツ提供装置、コンテンツ提供方法およびコンテンツ提供プログラム
JP2008262506A (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
JP2001331486A (ja) 通信上のウェブサイト統合検索方法及びその方法を行うようにプログラム化されたソフトウェアを格納した記録媒体
JP4204610B2 (ja) メモページ情報登録システム、サーバ装置及びプログラム
JP5805151B2 (ja) 検索装置、検索システムおよびプログラム
JP2006155275A (ja) 情報抽出方法及び情報抽出装置
JP2008046879A (ja) ページ表示装置、ページ表示方法、およびコンピュータプログラム
JP2006293855A (ja) 性格診断装置、サーバコンピュータ、性格診断方法及び性格診断プログラム
JPWO2010147114A1 (ja) 検索式生成システム
JP4713098B2 (ja) 選択項目表示装置、選択項目表示方法、および選択項目表示プログラム
JP4215791B2 (ja) メモページ情報表示システム、サーバ装置及びプログラム
JP4469410B1 (ja) 情報検索装置、情報検索方法、及びコンピュータプログラム
JP5002631B2 (ja) 単語情報収集装置、単語情報収集方法および単語情報収集プログラム
JP4204609B2 (ja) ウェブテキスト抽出結果生成システム、端末装置及びプログラム
JP6643004B2 (ja) 情報処理装置、コンピュータプログラム、および情報処理方法
JP5423101B2 (ja) 情報提供装置、および情報提供方法
JP2008134952A (ja) 情報公開システムおよび情報公開方法
JP2005141296A (ja) 文書検索装置、文書検索方法、および文書検索プログラム

Legal Events

Date Code Title Description
A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20080116

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20080214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080331

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080603

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080718

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081007

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081014

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111024

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111024

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121024

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121024

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131024

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees