JP2020191079A - 情報処理方法及び情報処理装置 - Google Patents

情報処理方法及び情報処理装置 Download PDF

Info

Publication number
JP2020191079A
JP2020191079A JP2020081890A JP2020081890A JP2020191079A JP 2020191079 A JP2020191079 A JP 2020191079A JP 2020081890 A JP2020081890 A JP 2020081890A JP 2020081890 A JP2020081890 A JP 2020081890A JP 2020191079 A JP2020191079 A JP 2020191079A
Authority
JP
Japan
Prior art keywords
text
web page
information processing
range
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020081890A
Other languages
English (en)
Inventor
遥 孟
Yao Meng
遥 孟
ジョン・ジョォングアン
Zhongguang Zheng
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2020191079A publication Critical patent/JP2020191079A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】本発明は、ウェブページにおけるテキストに対してマック付けを行うために用いられる情報処理方法及び装置を提供する。【解決手段】情報処理方法は、ウェブページにおけるターゲットテキストに対しての選択操作を受け取り;及び、前記ウェブページに対応するドキュメントオブジェクトモデルにおいて、選択されたテキストの範囲を確定し、テキストノードに従って、選択されたテキストの範囲を複数のセグメントに分割し、分割により得られた各セグメントに対してマック付け処理を行うことを含む。【選択図】図1

Description

本発明は、情報処理分野に関し、特に、ウェブページにおけるテキストに対してマック付けを行うための情報処理方法及び該情報処理方法を実現し得る情報処理装置に関する。
科学技術の発展に伴い、人々は、各種のウェブサイトにより提供されるウェブページを閲覧することで、ニュース、レジャー、エンターテインメント、ショッピング、さらには専門知識に関する情報を取得し、そして、これらの情報を用いて仕事や生活を支援するようになっている。
ウェブページを閲覧する過程では、ユーザは、一般的に、ウェブページのテキストに対して選択、コピーなどの基本操作のみを行うことができるが、期待どおりにウェブページのテキストをさらに処理することができない。
よって、ユーザの期待どおりに、ウェブページのテキストに対してのパーソナライズ化処理を提供することができる方法が望ましい。
一般ユーザのウェブページのテキストに対してのパーソナライズ化処理のニーズに鑑み、本発明の目的は、ウェブページテキストに対してマック付けを行うことができる情報処理方法及び該情報処理方法を実現し得る情報処理装置を提供することにある。
本発明の一側面によれば、情報処理方法が提供され、該情報処理方法は、ウェブページにおけるテキストに対してマック付けを行うために用いられ、該情報処理方法は、
例えば、ユーザの、ウェブページにおけるターゲットテキストに対しての選択操作を受け取り;及び
前記ウェブページに対応するドキュメントオブジェクトモデルにおいて、ユーザの選択したテキストの範囲を確定し、テキストノードに従って、選択したテキストの範囲を複数のセグメントに分割し、そして、分割により得られた各セグメントに対してマック付け処理を行うことを含む。
本発明のもう1つの側面によれば、処理器を含む情報処理装置が提供され、該処理器は、
例えば、ユーザの、ウェブページにおけるターゲットテキストに対しての選択操作を受け取り;及び
前記ウェブページに対応するドキュメントオブジェクトモデルにおいて、ユーザの選択したテキストの範囲を確定し、テキストノードに従って、選択したテキストの範囲を複数のセグメントに分割し、そして、分割により得られた各セグメントに対してマック付け処理を行うように構成される。
本発明の他の側面によれば、さらに、コンピュータに、前述のような情報処理方法を実現させるためのプログラムが提供される。
本発明の他の側面によれば、さらに、対応する記憶媒体が提供され、その中には、マシン読み取り可能な指令コードが記憶されており、前記指令コードは、マシンにより読み取られて実行されるときに、マシンに、上述のような情報処理方法を実現させることができる。
上述の本発明の各側面によれば、少なくとも、次のような効果を奏する。即ち、本発明による情報処理方法、情報処理装置、プログラム、及び記憶媒体を用いることで、ユーザの操作に基づいて、ウェブページにおいて選択されたテキストに対してマック付けを行うことができ、これにより、ユーザは、その後、マック付けされたテキストの部分を調べることができる。
本発明の実施例における情報処理方法の1つの例示的な処理のフローチャートである。 図1に示す情報処理方法において実行される例示的な処理の説明図であり、具体的には、マック付け前のウェブページの例示的なDOM(ドキュメントオブジェクトモデル)構造を示す図である。 図1に示す情報処理方法において実行される例示的な処理の説明図であり、具体的には、マック付け後のウェブページの例示的なDOM構造を示す図である。 図1に示す情報処理方法におけるテキスト分割ステップの例示的な処理のフローチャートである。 本発明の実施例における情報処理方法のもう1つの例示的処理のフローチャートである。 本発明の実施例における情報処理方法のまたもう1つの例示的な処理のフローチャートである。 図6に示す情報処理方法におけるウェブページレンダリングステップによりレンダリングされた、マック付け処理後のウェブページの一部を示す図である。 本発明の実施例における情報処理方法の他の例示的な処理のフローチャートである。 図8に示す情報処理方法におけるウェブページレンダリングステップによりレンダリングされた、マック付け処理後のウェブページの一部を示す図である。 本発明の実施例における情報処理装置の1つの例示的な構造を示すブロック図である。 図10に示す情報処理装置におけるテキスト分割ユニットの1つの例示的な構造を示すブロック図である。 本発明の実施例における情報処理装置のもう1つの例示的な構造を示すブロック図である。 本発明の実施例における情報処理装置のまたもう1つの例示的な構造を示すブロック図である。 本発明の実施例における情報処理方法及び装置を実現し得る例示的なハードウェア構成を示すブロック図である。
以下、添付した図面を参照しながら、本発明を実施するための好適な形態を詳細に説明する。なお、このような実施形態は、例示に過ぎず、本発明を限定するものでない。
本発明の一側面によれば、情報処理方法が提供される。以下、図1を参照しながら本発明の実施例における情報処理方法の1つの例示的なフローを説明する。
図1は、本発明の実施例における情報処理方法の1つの例示的なフローのフローチャートである。情報処理方法は、ウェブページにおけるテキストに対してマック付けを行うために用いられ、図1に示すように、その例示的なフロー100は、以下のステップを含んでも良い。
選択操作受け取りステップS101:ユーザの、ウェブページにおけるターゲットテキストに対しての選択操作を受け取り;
テキスト範囲確定ステップS103:前記ウェブページに対応するドキュメントオブジェクトモデルにおいて、ユーザの選択したテキストの範囲を確定し;
テキスト分割ステップS105:テキストノードに従って、ステップS103で確定した、選択されたテキストの範囲を複数のセグメントに分割し;及び
マック付け処理ステップS107:分割により得られた各セグメントに対してマック付け処理を行う。
本実施例に係る情報処理方法が処理するウェブページは、任意のウェブサイトが提供する、テキストを含む任意のウェブページであっても良い。説明の便宜のため、以下、具体的な説明を行う必要があるときに、HTML言語に基づくウェブページを例とする。なお、当業者が本発明の内容を基に理解すべきは、本実施例における情報処理方法が他の言語に基づくウェブページにも適用され得るということである。
選択操作受け取りステップS101では、ユーザが任意の適切な方式で行った、ウェブページにおけるターゲットテキストに対しての選択操作を受け取ることができる。一例では、ユーザが次のような方式で選択操作を行っても良く、即ち、ウェブページを表示する表示スクリーン上でターゲットテキストをドラッグ又はダブルクリックし、又は、前記表示スクリーン上で表示される入力ボックスにターゲットテキストを入力する。また、ユーザがスマートフォンのような移動端末などを用いてウェブページを閲覧する場合、さらに、ウェブページを表示する表示スクリーン上でターゲットテキストを長押し又はドラッグすることで選択操作を行っても良い。なお、本発明は、これに限定されず、ユーザが使用する装置及び閲覧するウェブページと交換性のある(提供される)の任意の適切な方式で選択操作を行っても良い。
テキスト範囲確定ステップS103では、該ウェブページに対応するドキュメントオブジェクトモデル(DOM)において、ユーザの選択したテキストの範囲を確定することができる。一例として、図2は、ユーザの選択したテキストの範囲を確定した例示的なDOM構造(便宜のため、ウェブページ全体のDOM構造の一部)を示している。図2に示す例では、ユーザがウェブページ上のテキスト範囲“word two”、即ち、第一個目のテキストノードTn1の第二個目の単語“word”から第二個目のテキストノードTn2の第一個目の単語“Two”までの範囲を選択している。
テキスト分割ステップS105では、テキストノードに従って、ステップS103で確定した、選択されたテキストの範囲を複数のセグメント(区間)に分割することができる。換言すれば、選択されたテキストの範囲を、テキストノードに跨らないように分割することができる。例えば、図2に示す例について、それを、テキストノードTn1、Tn2に跨らないセグメントに分割し、即ち、テキストノードTn1におけるセグメント“word”とテキストノードTn2におけるセグメント“Two”に分割することができる。なお、テキストセグメント分割処理の細部については、図4に基づいて後述する。
マック付け処理ステップS107では、分割により得られた各セグメントに対してマック付け処理を行うことができる。図3は、図2に示す例示的なDOM構造の各セグメントのマック付け処理後の状態を示している。この例では、該DOM構造におけるテキストノードTn1中のセグメント“word”及びテキストノードTn2中のセグメント“Two”の前後にそれぞれHTMLタグ“em”(emとは、「emphasis」の略で、強調を表すタグである。<em>タグで囲んだテキストを強調し、Internet ExplorerやNetscape Navigatorなどのブラウザでは斜体文字で表現される(ブラウザにより強調表現は異なる))を追加する方式で、得られた各セグメント、ひいては、選択された全部のテキストにマックを付けることができる。それ相応に、ユーザ閲覧のウェブページも、マックが付けられた後の状態になる。
ウェブページファイルの特性が原因で、例えば、HTML言語に基づくウェブページに対してマック付けを行うときに、一般的には、タグのペア(対)を使用する必要がある。上述のステップS105、S107における処理を用いて、テキストノードに従って、選択されたテキストの範囲を複数のセグメントに分割し、そして、それらにそれぞれマックを付けることで、テキストノードに跨らない各セグメントに対してのタグの追加(即ち、タグのペアで各セグメントを囲むこと)を確保することができる。このように、ユーザの選択したテキスト領域が複数のHTML元素をカバーしても、各テキストノードに跨らないセグメントに対してそれぞれマック付けを行うことで、追加のタグで他のHTML元素(例えば、図2におけるテキストノードTn1とTn2との間の改行要素“br”)を囲むことを避け得るため、DOM構造を破壊することがなく、HTMLページの解析エラーを引き起こすこともない。
本発明の実施例における情報処理方法により、ユーザの操作に基づいて、ウェブページにおいて選択されたテキストに対してマック付けを行うことができ、これにより、ユーザは、その後、マック付けられたテキスト部分を調べることができる。
以下、図4を参照しながら図1に示す情報処理方法におけるテキスト範囲確定ステップにおいて実行される1つの例示的な処理を説明する。
図4は、図1に示す情報処理方法におけるテキスト分割ステップの1つの例示的な処理のフローチャートである。図4に示すように、テキスト分割ステップS105の1つの例示的な処理は、以下のステップを含んでも良い。
テキストノード及びテキスト範囲の首尾文字並べ替えステップS1051:ドキュメントオブジェクトモデルにおける各テキストノードの首文字と尾文字、及び選択されたテキストの範囲の首文字と尾文字に対して、各文字の属するテキストノードの、全てのテキストノードの中の順番号、及び前記文字の、前記文字の属するテキストノードの中の位置に従って、並べ替えを行い、そして、並べ替え結果のうちから重複文字を削除し;及び
隣接文字組み合わせステップS1053:重複文字削除後の並べ替え結果において、選択されたテキストの範囲の首文字から尾文字までの順序に従って、隣接文字を2つずつ組み合わせる方式で、選択されたテキストの範囲における複数の文字セグメントを、分割により得られたセグメントとして取得し、そのうち、テキストノードの順番号が異なる隣接文字に対して組み合わせを行わない。
上述のステップS1051、S1053の処理を用いて、簡単な方式で、自動でユーザの選択したテキスト範囲を、テキストノードに跨らないセグメントに分割することができ、これにより、DOM構造を破壊することがなく、HTMLページ解析エラーを引き起こすこともない。
図4に示す例の処理を説明する前に、まず、再び図2を参照してこの例の処理に使用する、ユーザ選択のテキストを確定(位置決め)する方法を説明し、それは、例えば、図1に示す例の処理100におけるステップS103に使用することができる。
この例では、ユーザ選択のテキストの属するテキストノードの、DOM構造における位置、及びユーザ選択のテキストの、該テキストノードにおける位置を確定することで、ユーザ選択のテキストの位置を決めることができる。
1つの好適な実施例では、ルートノードからドキュメントオブジェクトモデルにおける全てのテキストノードを遍歴(チェック)することで、各テキストノードの順番号を得ることができる。例えば、深さ優先探索又は幅優先探索などの方式で上述のような遍歴を行うことができる。HTML言語に基づくウェブページファイルを例とすれば、テキストノードがHTML元素に属しないから、それは、元素ノードのようにid属性又は他の属性を与える方式で直接位置決めすることができない。よって、この好適な実施例の方法を用いることにより、上述の方式でテキストノードの順番号xを得てそのDOM構造中の位置を示すことができ、そのうち、xは、自然数であり、且つx≦Xであり、Xは、DOM構造における全部のテキストノードの数である。例えば、図2に示す例における2つのテキストノードについて、その順番号としてそれぞれ1、2(ルートノードの下の第一個目及び第二個目のテキストノード)を取得することで、テキストノードTn1、Tn2で表すことができる。
順番号がxであるテキストノードTnxにおける各文字について、該文字の、テキストノードにおける位置で表すことができる。テキストノードTnxの長さがLであるとすると、該テキストノードにおける第i個目の文字は、位置値(Tnx,i)で表することができ、該テキストノードにおける全部の文字は、セグメント(空間)Tnx-[1,L]で表すことができ、そのうち、i及びLは、全て、自然数であり、i≦Lである。このセグメントは、DOM構造全体における各テキストノードの文字セグメントを表すために用いられる。例えば、図2に示す例では、2つのテキストノードTn1(“One word”)、Tn2(“Two words”)の長さがそれぞれ8、9(スペースも含む)であり、それ相応に、その各自の文字セグメントは、Tn1-[1,8]、Tn2-[1,9]である。
上述の方式で、DOM構造における全部のテキストノード及びその中の各文字を位置決めすることができる。図2に示す例では、例えば、図1の選択操作受け取りステップS101で受け取った操作により、ユーザが第一テキストノードTn1中の“word”から第二テキストノードTn2中の“Two”までのテキスト範囲を選択したことを表すときに、上述の方式で、例えば、図1のテキスト範囲確定ステップS103で該テキスト範囲の始点(又は首文字)をbeg:(Tn1,4)と確定し、該テキスト範囲の終点(又は尾文字)をend:(Tn2,3)と確定することができる。
例えば、図1のテキスト範囲確定ステップS103で図2に示す例示的なDOM構造について、上述のテキスト範囲、即ち、首文字beg:(Tn1,4)及び尾文字end:(Tn2,3)を確定した後に、図4に示すようなテキストセグメント分割のための例示的な処理S105を行うことができる。
まず、図4のテキストノード及びテキスト範囲の首尾文字並べ替えステップS1051では、図2のDOM構造におけるテキストノードTn1の首文字(Tn1,1)及び尾文字(Tn1,8)、テキストノードTn2の首文字(Tn2,1)及び尾文字(Tn2,9)、並びに確定された(ユーザが選択した)テキストの範囲における首文字(Tn1,4)及び尾文字(Tn2,3)について、各文字の属するテキストノードの、全てのテキストノードの中の順番号及び前記文字の、前記文字の属するテキストノードの中の位置に基づいて並べ替えを行う。
並べ替えプロセスでは、任意の2つの文字の位置値(Tna,i)、(Tnb,j)について、まず、2つの位置値の中のテキストノード順番号、即ち、aとbを比較し、そして、a及びbのうちの比較的小さいものと関連付けられる文字を前に位置させる(a、b、i、jは、全て、自然数であり、且つi≦a、j≦bである)。a=bのみのときに、2つの文字の位置値の中の、文字位置を示すiとjを比較し、そして、i及びjのうちの比較的小さいものと関連付けられる文字を前に位置させる。また、a=b且つi=jの場合、2つの文字を、隣接すように並べる。続いて、並べ替えられたシーケンスのうちから重複文字を削除する。
このような方式で、この例では、最終的に以下のシーケンス(1)を並べ替え結果として得ることができる。
(Tn1,1),(Tn1,4),(Tn1,8),(Tn2,1),(Tn2,3),(Tn2,9) …シーケンス(1)
シーケンス(1)において、下線付き文字(Tn1,4)及び(Tn2,3)は、それぞれ、ユーザが選択したテキストの範囲における首文字及び尾文字を表す。
上述の並べ替え結果を得た後に、図4の例示的な処理S105は、隣接文字組み合わせステップS1053に進む。該ステップでは、並べ替え結果としてのシーケンス(1)において、選択されたテキストの範囲における首文字(Tn1,4)から尾文字(Tn2,3)までの順序に従って、隣接文字を2つずつ組み合わせる方式で(Tn1,4)から(Tn2,3)までの範囲における複数の文字セグメント、即ち、Tn1-[4,8]((Tn1,4)と(Tn1,8)との組み合わせ)、Tn2-[1,3]((Tn2,1)と(Tn2,3)との組み合わせ)を、分割により得られたセグメントとして取得する。なお、テキストノードの順番号が異なる隣接文字(例えば、(Tn1,8)及び(Tn2,1))について、このような組み合わせを行わない。
最終的に、分割後のセグメントのシーケンス(2)を以下のように得ることができる。
Tn1-[4,8]、Tn2-[1,3] …シーケンス(2)
このような方式で、ユーザ選択のテキスト範囲“word two”を、テキストノードTn1、Tn2に跨らないセグメントTn1-[4,8](テキストノードTn1中のセグメント“word”)とTn2-[1,3](テキストノードTn2中のセグメント“Two”)に分割することができる。それ相応に、後続のマック付け処理では、DOM構造を破壊しないように、各テキストセグメントについて単独でタグを追加することができる。
続いて、図5に基づいて本発明の実施例における情報処理方法のもう1つの例示的なフローを説明する。
図5は、本発明の実施例における情報処理方法のもう1つの例示的なフローのフローチャートである。図5に示すように、該例示的なフロー500には、図1のステップS101乃至S107に対応する選択操作受け取りステップS501、テキスト範囲確定ステップS503、テキスト分割ステップS505、及びマック付け処理ステップS507以外に、さらに、新選択操作確定ステップS509が含まれ、それは、新しいユーザ選択操作(ウェブページテキストに対してのドラッグ、ダブルクリック、長押しなど)が存在するかを判断するために用いられ、また、新しいユーザ選択操作が存在するときに、ステップS501乃至S507の処理を再び実行する。
このような方式で、この好適な実施例では、同一のユーザがウェブページにおけるテキストに対して複数回の選択又はマック付けを行うこと、及び、複数のユーザがそれぞれウェブページにおけるテキストに対して選択及びマック付けを行うことを許す。この実施例では、テキストノードに跨らない方法でウェブページにおけるテキストに対してマック付けを行い、各ユーザ操作による処理がDOM構造を破壊することがないので、これらのユーザ操作は、互いに衝突せず、各自でそれ相応の処理を行うことができる。
続いて、図6及び図7を基に本発明の実施例における情報処理方法のまたもう1つの例示的なフローを説明する。そのうち、図6は、該例示的なフローを示すフローチャートであり、図7は、該例示的なフローにおけるウェブページレンダリングステップでレンダリング(表示)された、マック付けウェブページの一部を示す図である。
図6の例示的なフロー600において、ウェブページに対応するウェブページファイルが、ユーザのウェブページ閲覧用の端末(例えば、パーソナルコンピュータ又は移動端末)にキャッシュ(Cache)される。それ相応に、図6に示すように、例示的なフロー600には、図1のステップS101乃至S107に対応する選択操作受け取りステップS601、テキスト範囲確定ステップS603、テキスト分割ステップS605、及びマック付け処理ステップS607以外に、さらにウェブページレンダリングステップS609が含まれ、それは、前記端末の表示スクリーン上でマック付け処理後のウェブページをレンダリングするために用いられる。
一例では、ウェブページにテキスト“This is a book in the field of biopharmaceutics.”が含まれ、ユーザは、その中の単語“biopharmaceutics”を注目し、その後、それを調べるためにマック付けを行うことが望ましい。これに対応して、本実施例の例示的なフロー600を用いて、選択操作受け取りステップS60により、ユーザが表示スクリーン上でドラッグ、ダブルクリック、長押しなどの動作を行うことで単語“biopharmaceutics”を選択する操作を受け取った後に、上述の図1乃至図4を基に説明したテキスト範囲確定、テキスト分割、マック付け処理などと同様のテキスト範囲確定ステップS603、テキスト分割ステップS605、マック付け処理ステップS607により、ウェブページにおけるユーザ選択のテキスト“biopharmaceutics”に対してマック付けを行い、そして、マック付け処理後のウェブページを、図7におけるウェブページ部分701に示すように、レンダリングすることができる。図7に示すように、この例では、マック付けの方式として、ユーザが選択したテキスト“biopharmaceutics”に陰影効果を追加している。
続いて、図8及び図9に基づいて本発明の実施例における情報処理方法の他の例示的なフローを説明する。そのうち、図8は、該例示的なフローを示すフローチャートであり、図9は、該例示的なフローにおけるウェブページレンダリングステップでレンダリングされた、マック付け処理後のウェブページの一部を示す図である。
図8の例示的なフロー800には、図1のステップS101乃至S107に対応する選択操作受け取りステップS801、テキスト範囲確定ステップS803、テキスト分割ステップS805、及びマック付け処理ステップS807以外に、以下のようなステップが含まれている。
注釈情報受け取りステップS809:1つ又は複数のユーザが、選択されたテキストに対して入力した1つ又は複数の注釈情報を受け取り;
注釈情報追加ステップS811:前記ウェブページに対応するドキュメントオブジェクトモデルにおいて、注釈情報を、選択されたテキストに関連する位置に追加し;及び
ウェブページレンダリングステップS813:ウェブページを表示する表示スクリーン上で、注釈情報が追加されたウェブページをレンダリングする。
この例示的なフローでは、さらに、ユーザの、表示スクリーン上で表示された注釈情報(及び/又は、表示された、マック付け処理が行われたテキスト部分)に対しての操作(又は、ユーザの、表示スクリーン上で表示された注釈情報及び/又はマック付け処理が行われたテキスト部分の位置及びその近傍位置に対しての操作)に応じて、注釈情報追加済みのウェブページと、注釈情報未追加のウェブページとの間の切り替え表示を行うことができる。また、この例示的なフローでは、オプションとして、マック付け処理ステップS807の後に直接ウェブページレンダリングステップS813に進んでも良く、これにより、マックが付けられたが、注釈情報が追加されていないウェブページをレンダリングすることができる。
注釈情報受け取りステップS809では、ユーザが任意の適切な方式で、その前の選択操作受け取りステップS801で選択したテキストに対して入力した注釈情報を受け取ることができる。例えば、キーボード、マウス、タッチパネルなどの入力装置で、ユーザが手動で入力した注釈情報を受け取ることができ、又は、音声入力及び音声認識の方式で、ユーザが音声方式で入力した注釈情報を受け取るができる。
一例として、図9の上の部分に示すように、ユーザがウェブページ(ウェブページ部分)901において選択したテキストは、“biopharmaceutics”であり、且つ該テキスト部分は、ステップS801乃至ステップS109の処理でマック付けされている(陰影効果が追加されている)。
注釈情報受け取りステップS809では、さらに、ユーザが該テキストに対して入力した注釈情報“生物制薬学”を受け取る。続いて、注釈情報追加ステップS811では、該ウェブページに対応するドキュメントオブジェクトモデルにおいて、ステップS809で受け取った注釈情報“生物制薬学”を、テキスト“biopharmaceutics”に関連する位置に追加することができる。一例として、それを、テキスト“biopharmaceutics”の所在する同一のテキストノードに追加することができる。
続いて、ウェブページレンダリングステップS813では、ウェブページを表示する表示スクリーン上で、注釈情報が追加されたウェブページをレンダリングすることができる。
好ましくは、この例では、レンダリングされる注釈情報追加済みのウェブページは、注釈情報により、選択された(又は、その前にマック付け処理が行われた)テキストを置換したウェブページを含んでも良い。この例では、図9の下の部分に示すように、レンダリングされる注釈情報追加済みのウェブページは、注釈情報“生物制薬学”により、選択されたテキスト“biopharmaceutics”を置換したウェブページ部分902である。
また、好ましくは、ユーザは、表示スクリーン上で表示される注釈情報(例えば、図9のウェブページ902における“生物制薬学”)又はマック付け処理後のテキスト部分(例えば、図9のウェブページ901における“biopharmaceutics”)に対してのクリック操作などにより、注釈情報追加済みのウェブページと、注釈情報未追加のウェブページとの間の繰り替え表示を行っても良く、例えば、図9のウェブページ902と、ウェブページ901との間で便利な切り替えを行うことができる。
一例として、HTML言語におけるinnerHTML属性を採用して上述の切り替え表示を実現することができる。より具体的には、DOM構造において、ユーザ選択のテキスト(“biopharmaceutics”)に対応する分割セグメント(例えば、テキスト分割ステップS805で得られた前記分割セグメント)に対してinnerHTML属性を追加し、且つinnerHTML属性の値を原文(“biopharmaceutics”)又は注釈情報(“生物制薬学”)と設定することで、ユーザのクリック操作による原文又は注釈情報の切り替え表示を実現することができる。
また、例えば、ユーザ選択のテキストが複数のテキストノードに跨るときに、即ち、例えば、テキスト分割ステップS805で複数のセグメントに分割されるときに、これらのセグメントと関連付けられる方式でinnerHTML属性を設定することにより、ユーザが、表示スクリーン上で表示されるウェブページにおける任意の1つのマック付きテキスト部分又は注釈情報部分をクリックするときに、全てのマック付きテキストと全ての注釈情報との間の切り替えを行うことができる。即ち、クリック操作の前にウェブページ上で表示されるものが注釈情報であれば、このクリック操作の後に、全ての注釈情報を隠し、表示スクリーン上でこの前のマック付きテキストを表示し、逆に、マック付きテキストを隠し、全ての注釈情報を表示する。
このような方式で、この好適な実施例では、ユーザが注釈情報の追加及び切り替え表示を行うことを許し、これにより、ユーザは、同一のページの中で原文と注釈との両方を見ることができるため、ウェブページ閲覧時のユーザ体検をさらに向上させることができる。例えば、難しい用語のある外国語のウェブページ、重要な価格情報のあるショッピングウェブページなどのウェブページ応用の場合、この好適な実施例は特に有利である。
以上、図1乃至図9に基づいて本発明の実施例における情報処理方法の複数の例示的なフローを説明した。
なお、本発明は、これに限定されず、各種の方式で本発明の実施例における情報処理方法を実現することができる。
例えば、一例では、ブラウザにインストールされるプラグインを用いて、ユーザの選択操作の受け取り、ユーザの選択したテキストの範囲の確定、選択したテキストの範囲の複数のセグメントへの分割、及び分割により得られた各セグメントに対してのマック付け処理のステップ(例えば、図1のステップS101乃至ステップS107)などを行うことができる。
オプションとして、もう1つの例では、サーバーのウェブサイトを用いて関連処理を行っても良い。このような場合、この例に係る情報処理方法は、さらに、ユーザの選択操作を受け取る前に、サーバーのウェブサイトにおいて、ユーザの要処理のウェブページを、そのリンクを用いて(例えば、クリックすることで)、オープン(open)することを含んでも良い。その後、前記サーバーのウェブサイトにより、ユーザの選択操作の受け取り、ユーザの選択したテキストの範囲の確定、選択したテキストの範囲の複数のセグメントへの分割、及び分割により得られた各セグメントに対してのマック付け処理のステップ(例えば、図1のステップS101乃至ステップS109)などを行うことができる。
また、本発明の他の側面によれば、情報処理装置が提供される。図10は、本発明の実施例における情報処理装置の1つの例示的な構造を示すブロック図である。
図10に示すように、情報処理装置1000は、以下のものを含んでも良い。
選択操作受け取りユニット1001:ユーザのウェブページにおけるターゲットテキストに対しての選択操作を受け取り;
テキスト範囲確定ユニット1002:前記ウェブページに対応するドキュメントオブジェクトモデルにおいて、ユーザの選択したテキストの範囲を確定し;
テキスト分割ユニット1003:テキストノードに従って、選択したテキストの範囲を複数のセグメントに分割し;
マック付け処理ユニット1004:分割により得られた各セグメントに対してマック付け処理を行う。
上述の情報処理装置及びその各ユニットは、例えば、上述の図1乃至図3及び図5に基づいて説明した情報処理方法及びその各ステップの操作及び/又は処理を行って、類似した効果を奏することができるため、ここでは、重複説明を省略する。
以下、図11を基に図10に示す情報処理装置におけるテキスト分割ユニットの1つの例示的な構造を説明する。
図11は、図10に示す情報処理装置におけるテキスト分割ユニットの1つの例示的な構造を示すブロック図である。図11に示すように、テキスト分割ユニットの1つの例示的な構造1003は、以下のものを含んでも良い。
文字並べ替えユニット1003A:ドキュメントオブジェクトモデルにおける各テキストノードの首文字と尾文字、及び選択されたテキストの範囲における首文字と尾文字について、各文字の属するテキストノードの、全てのテキストノードの中の順番号及び前記文字の、前記文字の属するテキストノードの中の位置に従って並べ替えを行い、そして、並べ替え結果のうちから重複文字を削除し;及び
文字組み合わせユニット1003B:並べ替え結果において、選択されたテキストの範囲における首文字から尾文字までの順序に従って、隣接文字を2つずつ組み合わせる方式で、選択されたテキストの範囲における複数の文字セグメントを、分割により得られたセグメントとして取得し、そのうち、テキストノードの順番号が異なる隣接文字に対してこのような組み合わせを行わない。
上述のテキスト分割ユニット及びその各構成ユニットは、例えば、上述の図4に基づいて説明したテキスト分割ステップ及びその各構成ステップの操作及び/又は処理を行って、類似した効果を達成することができるため、ここでは、重複説明を省略する。
続いて、図12を参照しながら本発明の実施例における情報処理装置のもう1つの例示的な構造を説明する。
図12は、本発明の実施例における情報処理装置のもう1つの例示的な構造を示すブロック図である。図12の情報処理装置は、ウェブページに対応するウェブページファイルがユーザのウェブページ閲覧用の端末(例えば、パーソナルコンピュータ又は移動端末)にキャシュされる場合に適用することができる。それ相応に、図12に示すように、例示的な構造1200には、図10におけるユニット1001乃至1004に対応する選択操作受け取りユニット1201、テキスト範囲確定ユニット1202、テキスト分割ユニット1203、マック付け処理ユニット1204以外に、ウェブページレンダリングユニット1205がさらに含まれ、それは、前記端末の表示スクリーン上でマック付け処理後のウェブページをレンダリングするために用いられる。
上述の情報処理装置及びその各ユニットは、例えば、上述の図6及び図7に基づいて説明した情報処理方法及びその各ステップの操作及び/又は処理を行って、類似した効果を実現することができるから、ここでは、重複説明を省略する。
続いて、図13を参照しながら本発明の実施例における情報処理装置の他の例示的な構造を説明する。
図13は、本発明の実施例における情報処理装置の他の例示的な構造を示すブロック図である。図13に示すように、例示的な構造1300には、図10におけるユニット1001乃至1004に対応する選択操作受け取りユニット1301、テキスト範囲確定ユニット1302、テキスト分割ユニット1303、マック付け処理ユニット1304以外に、さらに以下のユニットが含まれる。
注釈情報受け取りユニット1305:1つ又は複数のユーザが、選択したテキストに対して入力した1つ又は複数の注釈情報を受け取り;
注釈情報追加ユニット1306:前記ウェブページに対応するドキュメントオブジェクトモデルにおいて、注釈情報を、選択されたテキストに関連する位置に追加し;及び
ウェブページレンダリングユニット1307:ウェブページを表示する表示スクリーン上で、注釈情報が追加されたウェブページをレンダリングする。
該例示的な構造1300では、ウェブページレンダリングユニット1307は、さらに、ユーザの、表示スクリーン上で表示される注釈情報(又は、表示される、マック付け処理が行われたテキスト部分)に対しての操作に応じて、注釈情報追加有りのウェブページと、注釈情報追加無しのウェブページとの間の切り替え表示を行っても良い。
上述の情報処理装置及びその各ユニットは、例えば、上述の図8及び図9を基に説明した情報処理方法及びその各ステップの操作及び/又は処理を行って、類似した効果を奏することができるので、ここでは、重複説明を省略する。
本発明の他の側面によれば、情報処理装置が提供される。該情報処理装置は、本発明の実施例における情報処理方法を実現することができ、それは、処理器を含み、該処理器は、次のように構成され、即ち、ユーザのウェブページにおけるターゲットテキストに対しての選択操作を受け取り;及び、前記ウェブページに対応するドキュメントオブジェクトモデルにおいて、ユーザの選択したテキストの範囲を確定し、テキストノードに従って、選択したテキストの範囲を複数のセグメントに分割し、分割により得られた各セグメントに対してマック付け処理を行う。
情報処理装置の処理器は、例えば、上述の照図1乃至図9を基に説明した情報処理方法及びその各ステップの操作及び/又は処理を行って、類似した効果を達成することができるため、ここでは、重複説明を省略する。
オプションとして、処理器は、さらに、次のような方式で、選択したテキストの範囲を複数のセグメントに分割するように構成されても良く、即ち、ドキュメントオブジェクトモデルにおける各テキストノードの首文字と尾文字、及び選択してテキストの範囲における首文字と尾文字に対して、各文字の属するテキストノードの、全てのテキストノードの中の順番号及び前記文字の、前記文字の属するテキストノードの中の位置に従って並べ替えを行い、並べ替え結果のうちから重複文字を削除し;及び、並べ替え結果において、選択したテキストの範囲におけるあ首文字から尾文字までの順序に従って、隣接文字を2つずつ組み合わせる方式で、選択したテキストの範囲における複数の文字セグメントを、分割により得られたセグメントとして取得し、そのうち、テキストノードの順番号が異なる隣接文字に対してこのような組み合わせを行わない。
一例では、処理器は、さらに、次のように構成されても良く、即ち、ルートノードからドキュメントオブジェクトモデルにおける全てのテキストノードを遍歴(チェック)して各テキストノードの順番号を取得する。
一例として、ユーザは、次のような方式で選択操作を行っても良く、即ち、ウェブページを表示する表示スクリーン上でターゲットテキストをドラッグ又はダブルクリックし、又は、前記表示スクリーン上で表示される入力ボックスにターゲットテキストを入力する。
オプションとして、1つ又は複数のユーザは、ウェブページにおけるテキストに対して複数回の選択操作を行うことができる。
一例として、ウェブページに対応するウェブページファイルがユーザのウェブページ閲覧用の端末(例えば、パーソナル>コンピュータ又は移動端末)にキャッシュされ、処理器は、さらに、次のように構成されても良く、即ち、前記端末の表示スクリーン上でマック付け処理後のウェブページをレンダリングする。
オプションとして、処理器は、次のように構成されても良く、即ち、1つ又は複数のユーザが、選択されたテキストに対して入力した1つ又は複数の注釈情報を受け取り;前記ウェブページに対応するドキュメントオブジェクトモデルにおいて、注釈情報を、選択されたテキストに関連する位置に追加し;及び、ウェブページを表示する表示スクリーン上で、注釈情報追加済みのウェブページをレンダリングし、そのうち、ユーザの、表示スクリーン上で表示される注釈情報又はマック付け処理後のテキスト部分に対しての操作(又は、ユーザの、表示スクリーン上で表示される注釈情報及び/又はマック付け処理後のテキスト部分の位置及びその近傍の位置に対しての操作)に応じて、注釈情報追加有りのウェブページと、注釈情報追加無しのウェブページとの間の切り替え表示を行う。
一例では、レンダリングされる注釈情報追加有りのウェブページは、注釈情報により、選択された(又は、その前にマック付け処理が行われた)テキストを置換したウェブページを含んでも良い。オプションとして、ユーザは、表示スクリーン上で表示される注釈情報又はマック付け処理されたテキスト部分に対してクリック操作を行うことで、前記切り替え表示を行っても良い。
また、上述の一連の処理などは、ソフトウェア及び/又はファームウェアにより実現されても良い。ソフトウェア及び/又はファームウェアにより実現される場合、記憶媒体やネットワークから、専用ハードウェア構造を有するコンピュータ、例えば、図14に示す汎用マシン1400(例えば、コンピュータ)に、該ソフトウェアを構成するプログラムをインストールし、該コンピュータは、各種のプログラムがインストールされているときに、各種の機能などを実行することができる。
図14は、本発明の実施例における情報処理方法及び装置を実現し得るハードウェア構成(汎用マシン)1400の構造図である。
汎用マシン1400は、例えば、コンピュータシステムであっても良い。なお、汎用マシン1400は、例示に過ぎず、本発明による方法及び装置の応用範囲又は機能について限定しない。また、汎用マシン1400は、上述の方法及び装置における任意のモジュールやアセンブリなど又はその組み合わせに依存しない。
図14では、中央処理装置(CPU)1401は、ROM 1402に記憶されているプログラム又は記憶部1408からRAM 1403にロッドされているプログラムに基づいて各種の処理を行う。RAM 1403では、ニーズに応じて、CPU 1401が各種の処理を行うときに必要なデータなどを記憶することもできる。CPU 1401、ROM 1402及びRAM 1403は、バス1404を経由して互いに接続される。入力/出力インターフェース1405もバス1404に接続される。
また、入力/出力インターフェース1405には、さらに、次のような部品が接続され、即ち、キーボードなどを含む入力部1406、液晶表示器(LCD)などのような表示器及びスピーカーなどを含む出力部1407、ハードディスクなどを含む記憶部1408、ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む通信部1409である。通信部1409は、例えば、インターネット、LANなどのネットワークを経由して通信処理を行う。
ドライブ1410は、ニーズに応じて、入力/出力インターフェース1405に接続されても良い。取り外し可能な媒体1411、例えば、半導体メモリなどは、必要に応じて、ドライブ1410にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部1408にインストールすることができる。
また、本発明は、さらに、マシン可読指令コードを含むプログラムプロダクトを提供する。このような指令コードは、マシンにより読み取られて実行されるときに、上述の本発明の実施形態における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー(carry)する、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶器などの各種記憶媒体も、本発明に含まれる。
上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などを含んでも良いが、これらに限定されない。
また、上述の方法における各操作(処理)は、各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現することもできる。
また、以上の実施例などに関し、さらに以下のように付記として開示する。
(付記1)
ウェブページにおけるテキストに対してマック付けを行うための情報処理方法であって、
ウェブページにおけるターゲットテキストに対しての選択操作を受け取り;
前記ウェブページに対応するドキュメントオブジェクトモデルにおいて、選択されたテキストの範囲を確定し、テキストノードに従って、選択されたテキストの範囲を複数のセグメントに分割し、分割により得られた各セグメントに対してマック付け処理を行うことを含む、方法。
(付記2)
付記1に記載の情報処理方法であって、
以下の方式で、選択されたテキストの範囲を複数のセグメントに分割し、即ち、
ドキュメントオブジェクトモデルにおける各テキストノードの首文字及び尾文字、並びに選択されたテキストの範囲における首文字及び尾文字に対して、各文字の属するテキストノードの、全てのテキストノードの中の順番号及び前記文字の、前記文字の属するテキストノードの中の位置に従って並べ替えを行い、そして、並べ替え結果のうちから重複文字を削除し;及び
重複文字削除後の並べ替え結果において、選択されたテキストの範囲における首文字から尾文字までの順序に従って、隣接文字を2つずつ組み合わせる方式で、選択されたテキストの範囲における複数の文字セグメントを、分割により得られたセグメントとして取得し、そのうち、テキストノードの順番号が異なる隣接文字に対して組み合わせることを行わない、方法。
(付記3)
付記2に記載の情報処理方法であって、
ルートノードからドキュメントオブジェクトモデルにおける全てのテキストノードをチェックして各テキストノードの順番号を取得する、方法。
(付記4)
付記1乃至3のうちの任意の一項に記載の情報処理方法であって、
以下の方式で選択操作を行い、即ち、
ウェブページを表示する表示スクリーン上でターゲットテキストをドラッグ又はダブルクリックし、又は、前記表示スクリーン上で表示される入力ボックスにターゲットテキストを入力する、方法。
(付記5)
付記1乃至3のうちの任意の一項に記載の情報処理方法であって、
ウェブページにおけるテキストに対して複数回の選択操作を行う、方法。
(付記6)
付記1乃至3のうちの任意の一項に記載の情報処理方法であって、
ウェブページに対応するウェブページファイルがウェブページ閲覧用の端末にキャッシュされ、前記方法は、さらに、
前記端末の表示スクリーン上で、マック付け処理後のウェブページをレンダリングすることを含む、方法。
(付記7)
付記1乃至3のうちの任意の一項に記載の情報処理方法であって、さらに、
選択されたテキストに対して入力した1つ又は複数の注釈情報を受け取り;
前記ウェブページに対応するドキュメントオブジェクトモデルにおいて、注釈情報を、選択されたテキストに関連する位置に追加し;及び
ウェブページを表示する表示スクリーン上で、注釈情報追加済みのウェブページをレンダリングすることを含み、
表示スクリーン上で表示される注釈情報に対しての操作に応じて、注釈情報追加有りのウェブページと、注釈情報追加無しのウェブページとの間の切り替え表示を行う、方法。
(付記8)
付記7に記載の情報処理方法であって、
レンダリングされる、注釈情報追加有りのウェブページは、注釈情報により、選択されたテキストを置換したウェブページを含み;及び/又は
表示スクリーン上で表示される注釈情報に対しての操作は、表示スクリーン上で表示される注釈情報に対してのクリック操作を含む、方法。
(付記9)
付記1乃至3のうちの任意の一項に記載の情報処理方法であって、
ブラウザにインストールされるプラグインを用いて、選択操作の受け取り、選択されたテキストの範囲の確定、選択されたテキストの範囲の複数のセグメントへの分割、及び分割により得られた各セグメントに対してのマック付け処理のステップを行い;又は
前記方法は、さらに、選択操作を受け取る前に、サーバーのウェブサイトにおいて、要処理のウェブページをオープン(open)することを含み、そのうち、前記サーバーのウェブサイトにより、選択操作の受け取り、選択されたテキストの範囲の確定、選択されたテキストの範囲の複数のセグメントへの分割し、及び分割により得られた各セグメントに対してのマック付け処理のステップを行う、方法。
(付記10)
処理器を含む情報処理装置であって、
前記処理器は、以下のように構成され、即ち、
ウェブページにおける、マック付けの必要のあるテキストに対しての選択操作を受け取り;及び
前記ウェブページに対応するドキュメントオブジェクトモデルにおいて、選択されたテキストの範囲を確定し、テキストノードに従って、選択されたテキストの範囲を複数のセグメントに分割し、分割により得られた各セグメントに対してマック付け処理を行う、装置。
(付記11)
付記10に記載の情報処理装置であって、
処理器は、さらに、以下の方式で、選択されたテキストの範囲を複数のセグメントに分割するように構成され、即ち、
ドキュメントオブジェクトモデルにおける各テキストノードの首文字及び尾文字、並びに選択されたテキストの範囲における首文字及び尾文字に対して、各文字の属するテキストノードの、全てのテキストノードの中の順番号及び前記文字の、前記文字の属するテキストノードの中の位置に従って並べ替えを行い、そして、並べ替え結果のうちから重複文字を削除し;及び
重複文字削除後の並べ替え結果において、選択されたテキストの範囲における首文字から尾文字までの順序に従って、隣接文字を2つずつ組み合わせる方式で、選択されたテキストの範囲における複数の文字セグメントを、分割により得られたセグメントとして取得し、そのうち、テキストノードの順番号が異なる隣接文字に対して組み合わせることを行わない、装置。
(付記12)
付記11に記載の情報処理装置であって、
処理器は、さらに、ルートノードからドキュメントオブジェクトモデルにおける全てのテキストノードをチェックして各テキストノードの順番号を得るように構成される、装置。
(付記13)
付記10乃至12のうちの任意の一項に記載の情報処理装置であって、
以下の方式で選択操作を行い、即ち、ウェブページを表示する表示スクリーン上でターゲットテキストをドラッグ又はダブルクリックし、又は、前記表示スクリーン上で表示される入力ボックスにターゲットテキストを入力する、装置。
(付記14)
付記10乃至12のうちの任意の一項に記載の情報処理装置であって、
ウェブページにおけるテキストに対して複数回の選択操作を行う、装置。
(付記15)
付記10乃至12のうちの任意の一項に記載の情報処理装置であって、
ウェブページに対応するウェブページファイルがウェブページ閲覧用の端末にキャッシュされ、処理器は、さらに、前記端末の表示スクリーン上で、マック付け処理後のウェブページをレンダリングするように構成される、装置。
(付記16)
付記10乃至12のうちの任意の一項に記載の情報処理装置であって、
処理器は、さらに、次のように構成され、即ち、
選択されたテキストに対して入力された1つ又は複数の注釈情報を受け取り;
前記ウェブページに対応するドキュメントオブジェクトモデルにおいて、注釈情報を、選択されたテキストに関連する位置に追加し;及び
ウェブページを表示する表示スクリーン上で、注釈情報追加有りのウェブページをレンダリングし、
そのうち、表示スクリーン上で表示される注釈情報に対しての操作に応じて、注釈情報追加有りのウェブページと、注釈情報追加無しのウェブページとの間の切り替え表示を行う、装置。
(付記17)
付記16に記載の情報処理装置であって、
レンダリングされる注釈情報追加有りのウェブページは、注釈情報により、選択されたテキストを置換したウェブページを含み;及び/又は
表示スクリーン上で表示される注釈情報に対しての操作は、表示スクリーン上で表示される注釈情報に対してのクリック操作を含む、装置。
(付記18)
マシン読み取り可能な指令コードを記憶した記憶媒体であって、
前記指令コードは、マシンにより読み取られて実行されるときに、マシンに、情報処理方法を実行させることができ、前記情報処理方法は、ウェブページにおけるテキストに対してマック付けを行うために用いられ、該方法は、
ウェブページにおけるターゲットテキストに対しての選択操作を受け取り;及び
前記ウェブページに対応するドキュメントオブジェクトモデルにおいて、選択されたテキストの範囲を確定し、テキストノードに従って、選択されたテキストの範囲を複数のセグメントに分割し、分割により得られた各セグメントに対してマック付け処理を行うことを含む、記憶媒体。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。

Claims (10)

  1. ウェブページにおけるテキストに対してマック付けを行うための情報処理方法であって、
    前記ウェブページにおけるテキストに対しての選択操作を受け取り;
    前記ウェブページに対応するドキュメントオブジェクトモデルにおいて、選択されたテキストの範囲を確定し、テキストノードに従って、選択されたテキストの範囲を複数のセグメントに分割し、分割により得られた各セグメントに対してマック付け処理を行うことを含む、方法。
  2. 請求項1に記載の情報処理方法であって、
    選択された前記テキストの範囲を前記複数のセグメントに分割することは、
    前記ドキュメントオブジェクトモデルにおける各テキストノードの首文字及び尾文字、並びに選択された前記テキストの範囲における首文字及び尾文字に対して、各文字の属するテキストノードの、全てのテキストノードの中の順番号、及び前記文字の、前記文字の属するテキストノードの中の位置に従って並べ替えを行い、並べ替え結果のうちから重複文字を削除し;及び
    重複文字削除後の並べ替え結果において、選択された前記テキストの範囲における首文字から尾文字までの順序に従って、隣接する文字を2つずつ組み合わせることで、選択された前記テキストの範囲における複数の文字セグメントを、分割により得られたセグメントとして取得し、また、テキストノードの順番号が異なる隣接文字に対して組み合わせを行わないことを含む、方法。
  3. 請求項2に記載の情報処理方法であって、
    ルートノードから前記ドキュメントオブジェクトモデルにおける全てのテキストノードをチェックして各テキストノードの順番号を取得する、方法。
  4. 請求項1乃至3のうちの任意の一項に記載の情報処理方法であって、
    前記選択操作を行うことは、
    前記ウェブページを表示する表示スクリーン上で前記テキストをドラッグ又はダブルクリックし、又は、前記表示スクリーン上で表示される入力ボックスに前記トテキストを入力することを含む、方法。
  5. 請求項1乃至3のうちの任意の一項に記載の情報処理方法であって、
    前記ウェブページにおけるテキストに対して複数回の選択操作を行う、方法。
  6. 請求項1乃至3のうちの任意の一項に記載の情報処理方法であって、
    前記ウェブページに対応するウェブページファイルがウェブページ閲覧用の端末にキャッシュされ、前記方法は、
    前記端末の表示スクリーン上で、マック付け処理後のウェブページをレンダリングすることをさらに含む、方法。
  7. 請求項1乃至3のうちの任意の一項に記載の情報処理方法であって、
    選択されたテキストに対して入力された1つ又は複数の注釈情報を受け取り;
    前記ウェブページに対応するドキュメントオブジェクトモデルにおいて、前記注釈情報を、選択された前記テキストに関連する位置に追加し;及び
    前記ウェブページを表示する表示スクリーン上で、注釈情報追加有りのウェブページをレンダリングすることをさらに含み、
    前記表示スクリーン上で表示される前記注釈情報に対しての操作に応じて、注釈情報追加有りのウェブページと、注釈情報追加無しのウェブページとの間の切り替え表示を行う、方法。
  8. 請求項7に記載の情報処理方法であって、
    レンダリングされる、注釈情報追加有りのウェブページは、前記注釈情報により、選択されたテキストを置換したウェブページを含み;及び/又は
    前記表示スクリーン上で表示される前記注釈情報に対しての操作は、前記表示スクリーン上で表示される前記注釈情報に対してのクリック操作を含む、方法。
  9. 請求項1乃至3のうちの任意の一項に記載の情報処理方法であって、
    ブラウザにインストールされるプラグインを用いて、前記選択操作の受け取り、選択された前記テキストの範囲の確定、選択された前記テキストの範囲の、複数のセグメントへの分割、及び、分割により得られた各セグメントに対してのマック付け処理を行い;又は
    前記方法は、さらに、前記選択操作を受け取る前に、サーバーのウェブサイトにおいて、処理しようとするウェブページをオープン(open)することを含み、
    前記サーバーのウェブサイトにより、前記選択操作の受け取り、選択された前記テキストの範囲の確定、選択された前記テキストの範囲の、複数のセグメントへの分割し、及び分割により得られた各セグメントに対してのマック付け処理を行う、方法。
  10. 処理器を含む情報処理装置であって、
    前記処理器は、
    ウェブページにおけるテキストに対しての選択操作を受け取り;及び
    前記ウェブページに対応するドキュメントオブジェクトモデルにおいて、選択されたテキストの範囲を確定し、テキストノードに従って、選択されたテキストの範囲を複数のセグメントに分割し、分割により得られた各セグメントに対してマック付け処理を行うように構成される、装置。
JP2020081890A 2019-05-20 2020-05-07 情報処理方法及び情報処理装置 Pending JP2020191079A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910418790.8 2019-05-20
CN201910418790.8A CN111966932A (zh) 2019-05-20 2019-05-20 信息处理方法和信息处理设备

Publications (1)

Publication Number Publication Date
JP2020191079A true JP2020191079A (ja) 2020-11-26

Family

ID=73358141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020081890A Pending JP2020191079A (ja) 2019-05-20 2020-05-07 情報処理方法及び情報処理装置

Country Status (2)

Country Link
JP (1) JP2020191079A (ja)
CN (1) CN111966932A (ja)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567303A (zh) * 2003-07-03 2005-01-19 富士通株式会社 结构文档信息块的自动分割方法和装置
US7752222B1 (en) * 2007-07-20 2010-07-06 Google Inc. Finding text on a web page
CN101739415A (zh) * 2008-11-25 2010-06-16 华中师范大学 一种面向浏览器的网页标注系统
CN101944094B (zh) * 2009-07-06 2014-06-18 富士通株式会社 网页信息提取方法和装置
JP2011100403A (ja) * 2009-11-09 2011-05-19 Sony Corp 情報処理装置、情報抽出方法、プログラム及び情報処理システム
CN104331438B (zh) * 2014-10-24 2018-04-17 北京奇虎科技有限公司 对小说网页内容选择性抽取方法和装置
CN108733405A (zh) * 2017-04-13 2018-11-02 富士通株式会社 训练网页分布式表示模型的方法和装置
CN107590219A (zh) * 2017-09-04 2018-01-16 电子科技大学 网页人物主题相关信息提取方法
CN107861927A (zh) * 2017-09-21 2018-03-30 广州视源电子科技股份有限公司 文档注释方法、装置、可读存储介质及计算机设备
CN109325197B (zh) * 2018-08-17 2022-07-15 百度在线网络技术(北京)有限公司 用于提取信息的方法和装置

Also Published As

Publication number Publication date
CN111966932A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
US6920609B1 (en) Systems and methods for identifying and extracting data from HTML pages
US20190220490A1 (en) Combining website characteristics in an automatically generated website
JP4189875B2 (ja) 密集したハイパーリンクを含む領域を再フォーマットする方法
US20150067476A1 (en) Title and body extraction from web page
US9922383B2 (en) Patent claims analysis system and method
JP2008503830A (ja) ウェブブラウザ上で直接ウィジウィグ編集が可能な組立式ホームページと、個人ポータルサイトの作成と編集、取引方法及びそのプログラム記録媒体
CN109033282B (zh) 一种基于抽取模板的网页正文抽取方法及装置
TW201013430A (en) Method and system for providing suggested tags associated with a target page for manipulation by a user
JP4299963B2 (ja) 意味的まとまりに基づいて文書を分割する装置および方法
US11023654B2 (en) Analyzing document content and generating an appendix
CN105426508A (zh) 网页生成方法和装置
CN107368509B (zh) 通信方法、通信系统及计算机可读非暂时性存储介质
US20170109442A1 (en) Customizing a website string content specific to an industry
JP2020098596A (ja) ウェブページから情報を抽出する方法、装置及び記憶媒体
US20080282150A1 (en) Finding important elements in pages that have changed
CN108694043B (zh) 页面装修方法和系统
Sánchez-Gómez et al. Evaluation of computer assisted qualitative data analysis software (CAQDAS) applied to research
KR20230057114A (ko) 기술 문서 데이터 베이스를 통한 키워드 도출 방법 및 장치
US20090150763A1 (en) Method and apparatus for a document annotation service
CN110275712A (zh) 一种文本替换方法、装置及设备
JP2020191079A (ja) 情報処理方法及び情報処理装置
US7480855B2 (en) Apparatus and method of highlighting parts of web documents based on intended readers
JP3737629B2 (ja) 文書編集システム、方法、及び記録媒体
JP2019207482A (ja) 情報処理装置、情報処理システム、制御方法、及びプログラム
TWM561852U (zh) 計算機裝置