JP6564811B2 - Passage presentation control device, passage presentation method, and passage presentation program - Google Patents

Passage presentation control device, passage presentation method, and passage presentation program Download PDF

Info

Publication number
JP6564811B2
JP6564811B2 JP2017099360A JP2017099360A JP6564811B2 JP 6564811 B2 JP6564811 B2 JP 6564811B2 JP 2017099360 A JP2017099360 A JP 2017099360A JP 2017099360 A JP2017099360 A JP 2017099360A JP 6564811 B2 JP6564811 B2 JP 6564811B2
Authority
JP
Japan
Prior art keywords
passage
texts
text
display area
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017099360A
Other languages
Japanese (ja)
Other versions
JP2018195147A (en
Inventor
幸徳 本間
幸徳 本間
九月 貞光
九月 貞光
京介 西田
京介 西田
久子 浅野
久子 浅野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017099360A priority Critical patent/JP6564811B2/en
Publication of JP2018195147A publication Critical patent/JP2018195147A/en
Application granted granted Critical
Publication of JP6564811B2 publication Critical patent/JP6564811B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、パッセージ提示制御装置、パッセージ提示方法、及びパッセージ提示プログラムに係り、特に、構造化言語で記述された構造化文書に関する質問及び検索に対してパッセージを回答する際に、要求に適したパッセージの作成及び提示を制御する技術に関する。   The present invention relates to a passage presentation control device, a passage presentation method, and a passage presentation program, and particularly suitable for a request when a passage is answered to a question and search related to a structured document described in a structured language. The present invention relates to a technique for controlling creation and presentation of passages.

インターネット上に大量のテキストデータが利用可能になっており、文書から必要な知識を検索する技術の重要性が高まっている。特定の文書に関する文書検索においては、ユーザの入力した検索要求と関連の高い文書の一部分を取り出して出力するパッセージレベルの検索が求められている。ここで、「パッセージ」とは、文書中で検索要求の内容と強く関連する内容を持つ任意の範囲の部分文書をいい、少なくとも1つ以上の文(テキスト)を含む。   A large amount of text data is available on the Internet, and the importance of techniques for retrieving necessary knowledge from documents is increasing. In a document search for a specific document, a passage level search is required to extract and output a part of a document highly relevant to a search request input by a user. Here, “passage” refers to a partial document in an arbitrary range having a content strongly related to the content of the search request in the document, and includes at least one sentence (text).

文書のうち、例えばHTML/XML等の構造化言語(マークアップ言語ともいう)で記述された構造化文書に対して、構造化文書中のタグ構造の一部分をパッセージとして自動的に作成し、検索結果として提示する手法がある(例えば、非特許文献1参照)。   For a structured document described in a structured language such as HTML / XML (also referred to as a markup language), for example, a part of the tag structure in the structured document is automatically created as a passage and searched. There is a method presented as a result (see, for example, Non-Patent Document 1).

当該手法では、構造化文書において上位・下位関係にある複数のタグ構造部を一つのパッセージとして作成することで、情報を記述したテキストだけでなく、見出し、ヘッダ、及び条件に関するテキストを検索結果として提示することができる。   In this method, by creating multiple tag structure parts that have a higher / lower relationship in a structured document as one passage, not only text that describes information but also text related to headings, headers, and conditions as search results. Can be presented.

欅惇志、 宮崎純、 波多野賢治、 山本豪志朗、 武富貴史、 加藤博一著 「XML部分文書検索技術のWeb文書への適用」、DEIM Forum、2014Satoshi, Jun Miyazaki, Kenji Hatano, Goro Yamamoto, Takashi Taketomi, Hirokazu Kato "Application of XML Partial Document Retrieval Technology to Web Documents", DEIM Forum, 2014

構造化文書(以降、「文書」という)における検索では、検索要求に関連する知識も同時に確認したいという期待もあり、文書中のパッセージに関するテキストを強調表示する等、文書の閲覧と同時に確認できるインターフェースが望ましい。   When searching in a structured document (hereinafter referred to as “document”), there is an expectation that knowledge related to the search request will be confirmed at the same time, and an interface that can be confirmed at the same time as viewing the document, such as highlighting text related to passages in the document. Is desirable.

ここで、例えば文書から生成されたパッセージをブラウザ上で閲覧する場合について考える。   Here, for example, consider a case where a passage generated from a document is viewed on a browser.

ブラウザ上では文書を一度に表示できる範囲(以下、「表示可能範囲」という)が存在するために、連続したテキストからなる巨大なパッセージや文書中に散在するテキストからなるパッセージが存在する場合、当該パッセージを一度に検索結果としてブラウザ上に提示することができないという問題が発生する場合がある。   Since there is a range where the document can be displayed at once (hereinafter referred to as “displayable range”) on the browser, if there is a huge passage consisting of continuous text or a passage consisting of text scattered in the document, There may be a problem that the passage cannot be presented as a search result on the browser at a time.

連続したテキストからなる巨大なパッセージについては、情報量が過大で検索要求に対して適切なパッセージでない場合が多いため、非特許文献1では、テキストサイズが一定以上のパッセージを作成しない、又はテキストサイズが一定以上のパッセージを出力結果として除く対応を行っている。当該対応により、表示可能範囲以上のテキストサイズを含むパッセージの提示が制御される。   For huge passages composed of continuous text, the amount of information is excessive and is not appropriate for a search request. Therefore, in Non-Patent Document 1, a passage with a text size larger than a certain value is not created, or the text size Is taking measures to exclude passages above a certain level as output results. By the correspondence, presentation of passages including a text size larger than the displayable range is controlled.

一方、文書中に散在するテキストからなり、表示可能範囲を超えるパッセージについては、検索要求に対して適切なパッセージである場合とそうでない場合が存在する。   On the other hand, a passage that is composed of text scattered in a document and exceeds the displayable range may or may not be an appropriate passage for a search request.

図4は、文書におけるパッセージの表示上の種別例を示す図である。図4(A)は、表示領域8の表示可能範囲に含まれるテキスト1及びテキスト2を含むパッセージを表している。この場合、各々のテキストが表示可能範囲に含まれるため、テキスト1及びテキスト2をブラウザ上に一度に提示することが可能である。   FIG. 4 is a diagram illustrating an example of the type of passage displayed on a document. FIG. 4A shows a passage including text 1 and text 2 included in the displayable range of the display area 8. In this case, since each text is included in the displayable range, the text 1 and the text 2 can be presented on the browser at a time.

図4(B)は、表示可能範囲を超える連続したテキスト1を有するパッセージを表している。この場合には、当然ながらテキスト1をブラウザ上に一度に提示することはできない。   FIG. 4B shows a passage having continuous text 1 exceeding the displayable range. In this case, naturally, the text 1 cannot be presented on the browser at a time.

図4(C)は、各々のテキスト単体であれば表示可能範囲に含まれるが、テキスト1及びテキスト2を合わせた場合には表示可能範囲を超える複数のテキストを有するパッセージを表している。   FIG. 4C shows a passage having a plurality of text exceeding the displayable range when the text 1 and the text 2 are combined when the text alone is included in the displayable range.

図4(D)は、特定の対応関係、例えば見出しや条件等を示すヘッダとコンテンツとの対応関係を有するテキスト1及びテキスト2を含むパッセージを表している。この場合、各々のテキスト単体であれば表示可能範囲に含まれるが、テキスト1及びテキスト2を合わせた場合には表示可能範囲を超える例を表している。   FIG. 4D shows a passage including a text 1 and a text 2 having a specific correspondence, for example, a header and content corresponding to a headline or a condition. In this case, each text alone is included in the displayable range, but when the text 1 and the text 2 are combined, an example exceeding the displayable range is shown.

図4(E)は、図4(C)に示すパッセージと図4(D)に示すパッセージの複合例であり、テキスト1とテキスト3、並びに、テキスト2とテキスト4がそれぞれヘッダとコンテンツの対応関係を有する。その上で、各々のテキストは表示可能範囲に含まれるが、テキスト1〜テキスト4全体は表示可能範囲を超える複数のテキストを有するパッセージを表している。   FIG. 4E is a composite example of the passage shown in FIG. 4C and the passage shown in FIG. 4D. Text 1 and text 3, and text 2 and text 4 correspond to headers and contents, respectively. Have a relationship. In addition, each text is included in the displayable range, but the entire text 1 to text 4 represents a passage having a plurality of texts exceeding the displayable range.

図4(C)、図4(D)、及び図4(E)に示すパッセージが、散在するテキストからなるパッセージの例である。   The passages shown in FIGS. 4C, 4D, and 4E are examples of passages composed of scattered text.

ここで、図4(C)、図4(E)に示すパッセージはそれぞれコンテンツに対応する複数のテキストを含み、一度に提示するパッセージとしては情報量が過大で検索要求に対して適切でない場合が多い。したがって、特定のテキストは提示しない、又はテキストの集合を分割して提示するなどの制御が求められる。   Here, the passages shown in FIG. 4C and FIG. 4E each include a plurality of texts corresponding to the contents, and there are cases where the amount of information to be presented at one time is excessive and not suitable for a search request. Many. Therefore, control such as not presenting a specific text or presenting a set of text divided is required.

図5は、図4(D)に示すパッセージの詳細例を示す図である。   FIG. 5 is a diagram showing a detailed example of the passage shown in FIG.

図5で示されるパッセージは、検索要求に対して適切な情報を提示しうるコンテンツが記述されたテキスト(表示可能範囲に含まれるテキスト)と、当該テキストに対する見出しや条件等を示すヘッダが記述されたテキスト(<h2>及び<h3>のタグで示されるテキスト)からなるパッセージ例である。この場合、図5に示すように、例えばコンテンツを記述するテキストのみを提示する等の制御を行うことで、検索要求に対して適切な内容を含み、かつ、ブラウザ上に一度に提示するができるパッセージが提示可能と考えられる。   The passage shown in FIG. 5 describes a text (content included in a displayable range) in which content that can present appropriate information in response to a search request is described, and a header indicating a heading, a condition, and the like for the text. This is an example of a passage made up of text (text indicated by <h2> and <h3> tags). In this case, as shown in FIG. 5, for example, by performing control such as presenting only the text describing the content, it is possible to include appropriate content for the search request and present it on the browser at a time. It seems that a passage can be presented.

しかしながら、非特許文献1のように、テキストサイズ等の指標を用いてパッセージの提示を制御する方法では、図4(C)、図4(D)、及び図4(E)に示すような文書中に散在するテキストからなるパッセージに対して、何れの例に該当するか種別の判定ができないため、パッセージの提示のための適切な制御が実施できないという課題がある。   However, as in Non-Patent Document 1, in the method of controlling the presentation of passages using an index such as text size, documents such as those shown in FIGS. 4 (C), 4 (D), and 4 (E) are used. Since it is not possible to determine which type corresponds to a passage composed of text scattered therein, there is a problem that appropriate control for presentation of the passage cannot be performed.

本発明は、上記の事情を鑑みて成されたものであり、表示可能範囲を考慮した上で、階層的な文書構造を有する構造化文書から要求に適したパッセージを提示することができるパッセージ提示制御装置、パッセージ提示方法、及びパッセージ提示プログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and is capable of presenting a passage suitable for a request from a structured document having a hierarchical document structure in consideration of the displayable range. It is an object to provide a control device, a passage presentation method, and a passage presentation program.

上記の目的を達成するために第1の発明に係るパッセージ提示制御装置は、テキスト構造を示すタグを用いて記述されたテキストを含むパッセージの全体のサイズが、表示装置における表示領域の範囲内に含まれるか否かを判定すると共に、前記表示領域の範囲内に含まれないと判定したパッセージが複数のテキストで構成されているか否かを判定する表示可能判定部と、2つのテキストを受け付け、受け付けた2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定するヘッダ・コンテンツ関係推定部と、前記表示可能判定部で、前記表示領域の範囲内に含まれず、かつ、複数のテキストで構成されると判定されたパッセージに対して、パッセージに含まれる2つのテキストの全ての組み合わせを抽出し、抽出したテキストの各々の組み合わせについての前記ヘッダ・コンテンツ関係推定部の推定結果を用いて、コンテンツと推定されたテキストの集合のサイズが前記表示領域の範囲内に含まれない場合、コンテンツと推定されたテキストの部分集合のサイズが前記表示領域の範囲内に含まれるまで、パッセージに含まれる前記タグから得られる文書構造木に基づいてコンテンツと推定されたテキストの集合を部分集合に分割するパッセージフィルタ部と、前記表示可能判定部でパッセージの全体のサイズが前記表示領域の範囲内に含まれると判定された場合には、パッセージの全体を前記表示領域に表示し、前記表示可能判定部で、前記表示領域の範囲内に含まれず、かつ、複数のテキストで構成されると判定された場合には、前記パッセージフィルタ部から受け付けたテキストの部分集合を優先して前記表示領域に表示するパッセージ提示部と、を備える。   In order to achieve the above object, the passage presentation control apparatus according to the first invention is such that the overall size of the passage including the text described using the tag indicating the text structure is within the range of the display area in the display device. Determining whether or not it is included, and accepting two texts, a display enablement determining unit that determines whether or not a passage that is determined not to be included in the display area is composed of a plurality of texts, One of the two received texts is a header and the other is content, and the header / content relationship estimation unit and the displayability determination unit are not included in the display area, and For a passage determined to be composed of multiple texts, all combinations of two texts included in the passage are extracted, and the extracted text If the size of the set of text estimated as content is not included within the range of the display area using the estimation result of the header / content relation estimation unit for each combination of the list, the text estimated as content A passage filter unit that divides a set of text estimated as content based on a document structure tree obtained from the tag included in the passage into subsets until the size of the subset is included within the range of the display area When the display size determining unit determines that the entire size of the passage is included in the display area, the display unit displays the entire passage in the display region, and the display enable determination unit displays the display When it is determined that it is not included in the range of the region and is composed of a plurality of texts, the passage filter unit Preferentially a subset of al accepted text and a passage presenting unit to be displayed in the display area.

第1の発明に係るパッセージ提示制御装置において、前記ヘッダ・コンテンツ関係推定部は、受け付けた前記2つのテキストの各々を、テキストに含まれる文節の係り受けを表す係り受け木に変換し、前記文書構造木に前記2つのテキストの各々の係り受け木を結合し、前記文書構造木における前記2つのテキストの各々の係り受け木を含む最小部分木に基づいて、前記2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する。   In the passage presentation control apparatus according to the first invention, the header / content relation estimation unit converts each of the received two texts into a dependency tree representing a dependency of a clause included in the text, and the document Combining each dependency tree of the two texts to a structure tree, and based on the smallest subtree containing each dependency tree of the two texts in the document structure tree, one of the two texts is a header. Yes, it is estimated whether the other is content.

第1の発明に係るパッセージ提示制御装置において、前記ヘッダ・コンテンツ関係推定部は、前記2つのテキストに含まれる前記タグを利用して、前記2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する。   In the passage presentation control apparatus according to the first aspect, the header / content relation estimation unit uses the tag included in the two texts, and one of the two texts is a header and the other is content. Estimate whether or not there is.

第1の発明に係るパッセージ提示制御装置において、前記パッセージ提示部は、パッセージの全体のサイズが前記表示領域の範囲内に含まれず、かつ、パッセージが複数のテキストで構成されると判定された場合、前記パッセージフィルタ部から受け付けたテキストの部分集合を優先して前記表示領域に表示し、かつ、前記パッセージフィルタ部から受け付けたテキストの部分集合に対応してヘッダと推定されたテキストを、前記表示装置におけるヘッダ表示領域に表示する。   In the passage presentation control apparatus according to the first aspect, when the passage presentation unit determines that the entire size of the passage is not included in the range of the display area, and the passage is composed of a plurality of texts. The text subset received from the passage filter unit is preferentially displayed in the display area, and the text estimated as a header corresponding to the text subset received from the passage filter unit is displayed. Displayed in the header display area of the device.

第2の発明に係るパッセージ提示方法は、テキスト構造を示すタグを用いて記述されたテキストを含むパッセージの全体のサイズが、表示装置における表示領域の範囲内に含まれるか否かを判定すると共に、前記表示領域の範囲内に含まれないと判定したパッセージが複数のテキストで構成されているか否かを判定するステップと、前記表示領域の範囲内に含まれず、かつ、複数のテキストで構成されると判定されたパッセージに含まれる2つのテキストを受け付け、受け付けた2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定するステップと、コンテンツと推定されたテキストの集合のサイズが前記表示領域の範囲内に含まれない場合、コンテンツと推定されたテキストの部分集合のサイズが前記表示領域の範囲内に含まれるまで、パッセージに含まれる前記タグから得られる文書構造木に基づいてコンテンツと推定されたテキストの集合を部分集合に分割するステップと、パッセージの全体のサイズが前記表示領域の範囲内に含まれると判定された場合には、パッセージの全体を前記表示領域に表示し、前記表示領域の範囲内に含まれず、かつ、複数のテキストで構成されると判定された場合には、分割されたテキストの部分集合を優先して前記表示領域に表示するステップと、を含む。   The passage presentation method according to the second invention determines whether or not the entire size of the passage including the text described using the tag indicating the text structure is included in the range of the display area in the display device. Determining whether or not the passage determined to be not included in the range of the display area is composed of a plurality of texts; and not included in the range of the display area and composed of a plurality of texts Two texts included in the passage determined to be received, a step of estimating whether one of the two received texts is a header and the other is content, and a set of texts estimated as content If the size is not included within the display area, the size of the subset of text estimated as content is the range of the display area. Dividing the set of text estimated as content based on the document structure tree obtained from the tag included in the passage into a subset until the size of the passage is within the display area. If it is determined that it is included in the display area, the entire passage is displayed in the display area, and if it is determined that the passage is not included in the display area and is composed of a plurality of texts, it is divided. Displaying the displayed subset of text in the display area with priority.

第2の発明に係るパッセージ提示方法の受け付けた2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定するステップにおいて、前記2つのテキストの各々を、テキストに含まれる文節の係り受けを表す係り受け木に変換し、前記文書構造木に前記2つのテキストの各々の係り受け木を結合し、前記文書構造木における前記2つのテキストの各々の係り受け木を含む最小部分木を用いることで、前記2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する。   In the step of estimating whether one of the two texts received by the passage presentation method according to the second invention is a header and the other is a content, each of the two texts is replaced with a phrase included in the text. Converting to a dependency tree representing a dependency, combining the dependency tree of each of the two texts with the document structure tree, and including the dependency tree of each of the two texts in the document structure tree; , It is estimated whether one of the two texts is a header and the other is content.

第2の発明に係るパッセージ提示方法の受け付けた2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定するステップにおいて、前記2つのテキストに含まれる前記タグを利用して、前記2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する。   In the step of estimating whether one of the two texts accepted by the passage presentation method according to the second invention is a header and the other is a content, using the tag included in the two texts, It is estimated whether one of the two texts is a header and the other is content.

第3の発明に係るパッセージ提示プログラムは、コンピュータを、請求項1〜請求項4の何れか1項に記載のパッセージ提示制御装置の各部として機能させる。   A passage presentation program according to a third aspect causes a computer to function as each part of the passage presentation control device according to any one of claims 1 to 4.

以上説明したように、本発明のパッセージ提示制御装置、パッセージ提示方法、及びパッセージ提示プログラムによれば、表示可能範囲を考慮した上で、階層的な文書構造を有する構造化文書から要求に適したパッセージを提示することができる、という効果を有する。   As described above, according to the passage presentation control apparatus, the passage presentation method, and the passage presentation program of the present invention, it is suitable for a request from a structured document having a hierarchical document structure in consideration of a displayable range. It has the effect that a passage can be presented.

パッセージ提示制御装置の構成例を示す図である。It is a figure which shows the structural example of a passage presentation control apparatus. パッセージ提示制御ルーチンの流れの一例を示すフローチャートである。It is a flowchart which shows an example of the flow of a passage presentation control routine. パッセージ提示制御ルーチンの流れの一例を示すフローチャートである。It is a flowchart which shows an example of the flow of a passage presentation control routine. パッセージの表示上の種別例を示す図である。It is a figure which shows the example of a classification on the display of a passage. パッセージの詳細例を示す図である。It is a figure which shows the detailed example of a passage.

以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、以下では、同じ働きを担う構成要素又は処理には全図面を通して同じ符号を付与し、重複する説明を適宜省略する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the following description, the same reference numerals are given to the components or processes having the same functions throughout the drawings, and the repeated description is omitted as appropriate.

<本発明の実施の形態に係るパッセージ提示制御装置の構成>
図1は、本発明の実施の形態に係るパッセージ提示制御装置100の構成例を示す図である。
<Configuration of Passage Presentation Control Device According to Embodiment of the Present Invention>
FIG. 1 is a diagram showing a configuration example of a passage presentation control apparatus 100 according to an embodiment of the present invention.

パッセージ提示制御装置100は、CPUと、RAMと、後述するパッセージ提示制御ルーチンを実行するためのパッセージ提示プログラムを記憶したROMと、を備えたコンピュータで構成され、機能的には図1に示すように構成されている。   The passage presentation control apparatus 100 is composed of a computer including a CPU, a RAM, and a ROM that stores a passage presentation program for executing a passage presentation control routine described later, and functionally as shown in FIG. It is configured.

すなわち、パッセージ提示制御装置100は、入力部10、演算部20、及び記憶部30を含んで構成される。また、演算部20は、表示可能判定部22、パッセージフィルタ部24、ヘッダ・コンテンツ関係推定部26、及びパッセージ提示部28を含んで構成される。   That is, the passage presentation control apparatus 100 includes the input unit 10, the calculation unit 20, and the storage unit 30. The calculation unit 20 includes a display enablement determination unit 22, a passage filter unit 24, a header / content relationship estimation unit 26, and a passage presentation unit 28.

入力部10は、例えば文書に関する質問及び検索に対する結果として得られたパッセージ候補(以降、単に「パッセージ」という)を受け付け、受け付けたパッセージを記憶部30に記憶すると共に、受信通知を演算部20に通知する。   The input unit 10 accepts, for example, passage candidates (hereinafter simply referred to as “passage”) obtained as a result of a query and search regarding a document, stores the received passage in the storage unit 30, and sends a reception notification to the calculation unit 20. Notice.

演算部20において入力部10からパッセージの受信通知を受け付けると、まず、表示可能判定部22は、例えば受け付けたパッセージ全体のサイズが、表示装置に表示されるブラウザ上の表示領域8の表示可能範囲内に含まれるか否かを判定する。表示可能範囲内に受け付けたパッセージのサイズが含まれるか否かは、例えば非特許文献1に示されるように、パッセージに含まれるテキストの文字数(テキストサイズ)をカウントし、表示領域8に表示可能なテキストサイズと比較することで判定される。   When the calculation unit 20 receives a passage reception notification from the input unit 10, the display possibility determination unit 22 first displays, for example, the displayable range of the display area 8 on the browser in which the size of the received passage is displayed on the display device. It is determined whether it is included in. Whether or not the accepted size of the passage is included in the displayable range can be displayed in the display area 8 by counting the number of characters (text size) of the text included in the passage as shown in Non-Patent Document 1, for example. Judged by comparing with the correct text size.

表示可能判定部22は、表示可能範囲内にパッセージ全体のサイズが含まれる場合は、受け付けたパッセージをパッセージ提示部28に出力する。   The display possibility determination unit 22 outputs the received passage to the passage presentation unit 28 when the size of the entire passage is included in the displayable range.

一方、表示可能範囲内にパッセージ全体のサイズが含まれない場合で、かつ、パッセージが途中に句点等の区切りを含まない連続した1つのテキストからなる場合には、表示可能判定部22は、表示領域8にパッセージを出力できないことを示す情報、すなわち、出力不可情報をパッセージ提示部28に出力する。   On the other hand, when the size of the entire passage is not included in the displayable range and the passage is composed of a single continuous text that does not include a break such as a punctuation mark, the displayable determination unit 22 displays Information indicating that the passage cannot be output to the area 8, that is, output impossibility information is output to the passage presentation unit 28.

また、表示可能範囲内にパッセージ全体のサイズが含まれない場合で、かつ、パッセージが句点等の区切りによって複数の分割されたテキストからなる場合には、表示可能判定部22は、受け付けたパッセージをパッセージフィルタ部24に出力する。   In addition, when the size of the entire passage is not included in the displayable range and the passage is made up of a plurality of divided texts by a break such as a punctuation mark, the displayability determining unit 22 displays the received passage. Output to the passage filter unit 24.

パッセージフィルタ部24は、複数のテキストからなるパッセージを表示可能判定部22から受け付け、テキスト間のヘッダ・コンテンツ関係に基づいて、受け付けたパッセージから、ヘッダに相当するテキストとコンテンツに相当するテキストとであることを対応付けたパッセージを生成し、生成したパッセージをパッセージ提示部28に出力する。   The passage filter unit 24 receives a passage composed of a plurality of texts from the display possibility determination unit 22, and based on the header / content relationship between the texts, the passage corresponding to the text corresponding to the header and the text corresponding to the content. A passage in which something is associated is generated, and the generated passage is output to the passage presentation unit 28.

具体的には、パッセージフィルタ部24は、パッセージに含まれる2つのテキストの全ての組み合わせを選択し、後述するヘッダ・コンテンツ関係推定部26の推定結果を用いて、選択したテキストの各々の組み合わせに対して、2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する。   Specifically, the passage filter unit 24 selects all combinations of two texts included in the passage, and uses each estimation result of the header / content relationship estimation unit 26 described later to determine each combination of the selected texts. On the other hand, it is estimated whether one of the two texts is a header and the other is content.

パッセージフィルタ部24は、パッセージに含まれるテキストのうち、コンテンツと推定されたテキスト(以降、「コンテンツテキスト」という)の集合に対して、サイズが表示可能範囲内に含まれるか否かを判定する。コンテンツテキストの集合のサイズが表示可能範囲を超える場合、パッセージフィルタ部24は、タグ構成を用いて表される文書構造木に基づいて、上位にあるタグを用いてコンテンツテキストの集合を部分集合に分割する。この際、パッセージフィルタ部24は、分割したコンテンツテキストの部分集合のサイズが表示可能範囲内に含まれるまで、コンテンツテキストの集合の分割単位を上位のタグから下位のタグに順次細分化しながら、コンテンツテキストの集合を部分集合に分割する処理を繰り返す。   The passage filter unit 24 determines whether or not the size is included in the displayable range with respect to a set of text estimated as content (hereinafter referred to as “content text”) among the text included in the passage. . If the size of the set of content texts exceeds the displayable range, the passage filter unit 24 converts the set of content texts into subsets using the upper tags based on the document structure tree represented using the tag structure. To divide. At this time, the passage filter unit 24 sequentially subdivides the division unit of the set of content text from the upper tag to the lower tag until the size of the divided subset of the content text is included in the displayable range. Repeat the process of dividing the text set into subsets.

パッセージフィルタ部24は、サイズが表示可能範囲内に含まれるまで分割されたコンテンツテキストの部分集合と、当該部分集合内の各コンテンツテキストに対応してヘッダと推定されたテキスト(以降、「ヘッダテキスト」という)の集合とを1つのパッセージとみなして、パッセージ提示部28に出力する。   The passage filter unit 24 includes a subset of the content text divided until the size is included in the displayable range, and a text estimated as a header corresponding to each content text in the subset (hereinafter, “header text”). )) Is regarded as one passage and is output to the passage presentation unit 28.

ヘッダ・コンテンツ関係推定部26は、タグを含む2つのテキストをパッセージフィルタ部24から受け付けると、受け付けた2つのテキストの一方がヘッダであり、他方が当該ヘッダの内容を表すコンテンツであるか否かを推定し、推定結果をパッセージフィルタ部24に出力する。   When the header-content relationship estimation unit 26 receives two texts including a tag from the passage filter unit 24, one of the two received texts is a header, and the other is content indicating the contents of the header. And the estimation result is output to the passage filter unit 24.

このヘッダ・コンテンツ関係を推定する推定方法には、例えば非特許文献2に記載されている教師あり学習の手法を用いることができる。   As an estimation method for estimating the header-content relationship, for example, a supervised learning method described in Non-Patent Document 2 can be used.

[非特許文献2]:Richard Socher, Eric H. Huang, Jeffrey Pennington, Andrew Y.Ng, Christopher D.Manning. "Dynamic Pooling and Unfolding Recursive Autoencoders for Paraphrase Detection" Advances in Neural Information Processing Systems, pp.801-809, 2011. [Non-Patent Document 2]: Richard Socher, Eric H. Huang, Jeffrey Pennington, Andrew Y. Ng, Christopher D. Manning. "Dynamic Pooling and Unfolding Recursive Autoencoders for Paraphrase Detection" Advances in Neural Information Processing Systems, pp.801- 809, 2011.

具体的には、ヘッダ・コンテンツ関係推定部26は、2つのテキストの各々に対して、例えば非特許文献3に記載されている系列ラベリングを用いた係り受け解析を行うことで、テキストを構成する文節の係り受け関係を表す係り受け木をテキスト毎に取得する。   Specifically, the header / content relationship estimation unit 26 constructs text by performing dependency analysis using sequence labeling described in Non-Patent Document 3, for each of the two texts. A dependency tree representing the dependency relationship of a clause is acquired for each text.

[非特許文献3]Kenji Imamura, Genichiro Kikui and Norihito Yasuda. "Japanese Dependency Parsing Using Sequential Labeling for Semi-spoken Language" In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions, pp.225-228, 2007. [Non-Patent Document 3] Kenji Imamura, Genichiro Kikui and Norihito Yasuda. "Japanese Dependency Parsing Using Sequential Labeling for Semi-spoken Language" In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions , pp.225-228, 2007.

次に、ヘッダ・コンテンツ関係推定部26は、パッセージ全体を表す文書構造木に対して各々のテキストに対応した係り受け木を結合し、パッセージ全体を表す文書構造木から、各々のテキストを表す係り受け木を含む最小部分木を生成する。   Next, the header / content relation estimation unit 26 combines dependency trees corresponding to the respective texts with the document structure tree representing the entire passage, and represents the respective texts from the document structure tree representing the entire passage. Generate a minimum subtree that contains a receiving tree.

そして、ヘッダ・コンテンツ関係推定部26は、生成した最小部分木に対して、教師あり学習により得られた分類器を用いて、2つのテキストの一方がヘッダであり、他方が当該ヘッダの内容を表すコンテンツであるか否かを推定する。   Then, the header / content relationship estimation unit 26 uses the classifier obtained by supervised learning for the generated minimum subtree, and one of the two texts is the header and the other is the content of the header. It is estimated whether or not the content is represented.

また、ヘッダ・コンテンツ関係を推定する他の方法として、2つのテキストに含まれるタグを利用する方法が考えられる。   Another method for estimating the header / content relationship is to use a tag included in two texts.

具体的には、ヘッダ・コンテンツ関係推定部26は、例えばテキストがHTML文書である場合、一方のテキストがヘッダを表す<hn>(nは1以上の整数)タグを含み、他方のテキストがコンテンツの記述に用いられるタグの一例である段落を表す<p>タグを含む場合、一方のテキストがヘッダであり、他方のテキストがコンテンツであると推定することができる。   Specifically, when the text is an HTML document, for example, the header / content relationship estimation unit 26 includes a <hn> (n is an integer of 1 or more) tag in which one text represents a header, and the other text is content. When a <p> tag representing a paragraph, which is an example of a tag used in the description of, is included, it can be estimated that one text is a header and the other text is content.

パッセージ提示部28は、受け付けたデータの種別に応じてパッセージの提示に関する制御を行う。   The passage presentation unit 28 performs control related to the presentation of the passage according to the type of received data.

パッセージ提示部28は、表示可能判定部22からパッセージ全体を受け付けた場合、パッセージの全体が表示領域8に表示されるようにパッセージの提示を行う。ここでパッセージの提示とは、表示領域8に表示するパッセージの範囲、及び表示領域8におけるパッセージの表示位置等、パッセージの表示に関する属性(表示属性)を設定することをいう。   When the passage presentation unit 28 receives the entire passage from the displayability determination unit 22, the passage presentation unit 28 presents the passage so that the entire passage is displayed in the display area 8. Here, presentation of the passage means setting of attributes (display attributes) relating to the display of the passage, such as the range of the passage displayed in the display area 8 and the display position of the passage in the display area 8.

また、パッセージ提示部28は、表示可能判定部22から出力不可情報を受け付けた場合は、文書に関する質問及び検索に対するパッセージを表示することができないことを示すメッセージが表示領域8に表示されるように、表示属性を設定する。   In addition, when the passage presenting unit 28 receives the non-outputable information from the displayability determining unit 22, a message indicating that the question about the document and the passage for the search cannot be displayed is displayed in the display area 8. Set display attributes.

また、パッセージ提示部28は、パッセージフィルタ部24からパッセージを受け付けた場合、受け付けたパッセージの種別に応じてパッセージの提示を行う。   Further, when the passage presenting unit 28 receives a passage from the passage filter unit 24, the passage presenting unit 28 presents the passage according to the type of the received passage.

具体的には、受け付けたパッセージに含まれるテキスト全体のサイズが表示可能範囲内に含まれる場合、パッセージ提示部28は、パッセージに含まれる全てのテキストが表示領域8に表示されるように、パッセージの提示を行う。   Specifically, when the size of the entire text included in the received passage is included in the displayable range, the passage presentation unit 28 displays the passage so that all the text included in the passage is displayed in the display area 8. Make a presentation.

また、受け付けたパッセージに含まれるヘッダテキストを含めるとテキスト全体が表示領域8に含まれない場合、パッセージ提示部28は、コンテンツテキストが優先して表示領域8に表示されるように、パッセージの提示を行う。   When the header text included in the accepted passage is included and the entire text is not included in the display area 8, the passage presentation unit 28 presents the passage so that the content text is preferentially displayed in the display area 8. I do.

この場合、パッセージ提示部28は、表示領域8に表示できないヘッダテキストを表示するインターフェース(ヘッダ表示領域)を用意することで、受け付けたパッセージの全体を表示領域8とヘッダ表示領域とに階層的に提示できるように、パッセージの提示を行ってもよい。   In this case, the passage presentation unit 28 prepares an interface (header display area) for displaying header text that cannot be displayed in the display area 8, so that the entire received passage is hierarchically divided into the display area 8 and the header display area. Passage may be presented so that it can be presented.

<本発明の実施の形態に係るパッセージ提示制御装置の作用>
次に、本発明の実施の形態に係るパッセージ提示制御装置100の作用について説明する。パッセージ提示制御装置100のCPUは、ROMに記憶されたパッセージ提示プログラムを読み込んでおき、文書に関する質問及び検索の回答を表すパッセージを受け付けると、パッセージ提示プログラムで規定された、図2及び図3に示すパッセージ提示制御ルーチンを実行する。なお、パッセージ提示制御装置100は、パッセージ提示制御ルーチンを実行する前に、受け付けたパッセージに対する文書構造木を公知の手法を用いて予め生成し、記憶部30に記憶するものとする。
<Operation of the passage presentation control apparatus according to the embodiment of the present invention>
Next, the operation of the passage presentation control apparatus 100 according to the embodiment of the present invention will be described. When the CPU of the passage presentation control apparatus 100 reads the passage presentation program stored in the ROM and accepts a passage representing a question about a document and a search response, the passage presentation program stipulated in the passage presentation program is shown in FIGS. The passage presentation control routine shown is executed. It is assumed that the passage presentation control apparatus 100 generates a document structure tree for the received passage in advance using a known technique and stores it in the storage unit 30 before executing the passage presentation control routine.

まず、ステップS10では、入力部10で受け付けたパッセージに含まれるテキストのサイズをカウントして、表示領域8の表示可能範囲内にパッセージ全体が含まれるか否かを判定する。なお、表示可能範囲に表示可能なテキストのサイズは、例えば記憶部30に予め記憶しておけばよい。パッセージ全体のサイズが表示可能範囲内に含まれる場合にはステップS130に移行する。   First, in step S <b> 10, the size of text included in the passage received by the input unit 10 is counted to determine whether or not the entire passage is included in the displayable range of the display area 8. Note that the size of text that can be displayed in the displayable range may be stored in advance in the storage unit 30, for example. When the size of the entire passage is included in the displayable range, the process proceeds to step S130.

この場合、パッセージ全体のサイズが表示可能範囲内に含まれることから、入力部10で受け付けたパッセージをそのまま表示領域8に表示して、パッセージ提示制御ルーチンを終了する。   In this case, since the size of the entire passage is included in the displayable range, the passage received by the input unit 10 is displayed in the display area 8 as it is, and the passage presentation control routine is terminated.

一方、ステップS10の判定処理が否定判定の場合、すなわち、パッセージ全体のサイズが表示可能範囲内に含まれないと判定した場合には、ステップS20に移行する。   On the other hand, if the determination process in step S10 is negative, that is, if it is determined that the size of the entire passage is not included in the displayable range, the process proceeds to step S20.

ステップS20では、受け付けたパッセージが連続した1つのテキストで構成されているか否かを判定する。パッセージが連続した1つのテキストで構成されている場合にはステップS140に移行する。   In step S20, it is determined whether or not the accepted passage is composed of one continuous text. When the passage is composed of one continuous text, the process proceeds to step S140.

この場合、パッセージが連続した1つのテキストで構成されているため、パッセージを分割してしまうと意味をなさないパッセージとなる。したがって、これ以上パッセージを分割することができない上、パッセージ全体のサイズが表示可能範囲内に含まれるように表示することができないため、ステップS140では、パッセージを出力することができないことを示すメッセージを作成して表示領域8に表示し、パッセージ提示制御ルーチンを終了する。   In this case, since the passage is composed of a single continuous text, the passage becomes meaningless if the passage is divided. Therefore, since the passage cannot be divided any more, and the size of the entire passage cannot be displayed within the displayable range, a message indicating that the passage cannot be output is displayed in step S140. It is created and displayed in the display area 8, and the passage presentation control routine is terminated.

一方、ステップS20の判定処理が否定判定の場合、すなわち、受け付けたパッセージが複数の分割されたテキストからなる場合には、ステップS30に移行する。   On the other hand, if the determination process in step S20 is negative, that is, if the received passage is composed of a plurality of divided texts, the process proceeds to step S30.

ステップS30では、受け付けたパッセージに含まれる2つのテキストに関する全ての組み合わせのうち、未選択の組み合わせを1つ選択する。   In step S30, one unselected combination is selected from all the combinations related to the two texts included in the received passage.

ステップS40では、ヘッダ・コンテンツ関係推定部26において説明した方法を用いて、ステップS30で選択した2つのテキストに対して、一方がヘッダであり、他方がコンテンツであるか否かを推定する。   In step S40, using the method described in the header / content relationship estimation unit 26, it is estimated whether one of the two texts selected in step S30 is a header and the other is content.

ステップS50では、受け付けたパッセージに対して、2つのテキストに関する全ての組み合わせを選択したか否かを判定する。否定判定の場合、すなわち、未選択のテキストの組み合わせが存在する場合にはステップS30に移行し、選択していない2つのテキストの組み合わせを選択する。ステップS30〜S50の処理を繰り返し実行することで、受け付けたパッセージに含まれる2つのテキストに関する全ての組み合わせに対して、一方がヘッダであり、他方がコンテンツであるか否かの推定が行われることになる。   In step S50, it is determined whether or not all combinations relating to two texts have been selected for the received passage. If the determination is negative, that is, if there is a combination of unselected texts, the process proceeds to step S30, and a combination of two unselected texts is selected. By repeatedly executing the processing of steps S30 to S50, it is estimated whether one is a header and the other is content with respect to all combinations of two texts included in the received passage. become.

2つのテキストに関する全ての組み合わせが選択されると、ステップS50の判定処理が肯定判定となり、ステップS60に移行する。   When all the combinations related to the two texts are selected, the determination process in step S50 is affirmative, and the process proceeds to step S60.

ステップS60では、ステップS40でコンテンツと対応付けられたテキスト、すなわちコンテンツテキストの集合全体のサイズが表示可能範囲内に含まれるか否かを判定する。コンテンツテキストの集合全体が表示可能範囲内に含まれる場合には、後述するステップS90に移行する。   In step S60, it is determined whether or not the text associated with the content in step S40, that is, the size of the entire set of content texts is included in the displayable range. When the entire set of content texts is included in the displayable range, the process proceeds to step S90 described later.

一方、ステップS60の判定処理が否定判定の場合、すなわち、コンテンツテキストの集合全体のサイズが表示可能範囲内に含まれない場合、ステップS70に移行する。   On the other hand, when the determination process in step S60 is negative, that is, when the size of the entire set of content texts is not included in the displayable range, the process proceeds to step S70.

ステップS70では、予め記憶部30に記憶されている、受け付けたパッセージを表す文書構造木に基づいて、上位にあるタグを参照し、コンテンツテキストの集合を部分集合に分割する。   In step S70, based on the document structure tree representing the received passage stored in advance in the storage unit 30, the upper tag is referred to and the set of content texts is divided into subsets.

ステップS80では、ステップS70で分割したコンテンツテキストの部分集合の各々のサイズが、表示可能範囲内に含まれるか否かを判定する。コンテンツテキストの部分集合に、表示可能範囲内に含まれないサイズを有する部分集合が含まれる場合にはステップS70に移行する。そして、ステップS70では、表示可能範囲内に含まれないコンテンツテキストの部分集合に対応する文書構造木の部分木において、上位に位置するタグを用いて、当該コンテンツテキストの部分集合を更に複数の部分集合に分割する。   In step S80, it is determined whether the size of each subset of the content text divided in step S70 is included in the displayable range. If the subset of the content text includes a subset having a size not included in the displayable range, the process proceeds to step S70. In step S70, the subset of the content text is further subdivided into a plurality of parts using a tag positioned higher in the subtree of the document structure tree corresponding to the subset of the content text not included in the displayable range. Divide into sets.

すなわち、ステップS70及びS80を繰り返し実行することで、各々が表示可能範囲内に含まれるサイズを有するコンテンツテキストの部分集合が複数生成されることになる。   That is, by repeatedly executing steps S70 and S80, a plurality of content text subsets each having a size included within the displayable range are generated.

ステップS90では、ステップS70で表示可能範囲内に含まれるサイズまで分割したコンテンツテキストの部分集合の1つと、当該部分集合内の各コンテンツテキストに対応するヘッダテキストの集合を編集パッセージとして生成する。   In step S90, one of the content text subsets divided up to the size included in the displayable range in step S70 and a set of header texts corresponding to each content text in the subset are generated as edit passages.

ステップS100では、ステップS90で生成した編集パッセージのサイズが表示可能範囲内に含まれるか否かを判定する。編集パッセージのサイズが表示可能範囲内に含まれる場合はステップS110に移行し、ステップS110で、当該編集パッセージを表示領域8に表示する。したがって、コンテンツテキスト及び当該コンテンツテキストに対応したヘッダテキストがテキストの途中で途切れない適切なパッセージを提示することができる。   In step S100, it is determined whether or not the size of the edit passage generated in step S90 is included in the displayable range. When the size of the edit passage is included in the displayable range, the process proceeds to step S110, and the edit passage is displayed in the display area 8 in step S110. Accordingly, it is possible to present an appropriate passage in which the content text and the header text corresponding to the content text are not interrupted in the middle of the text.

一方、ステップS100の判定が否定判定の場合、すなわち、編集パッセージのサイズが表示可能範囲内に含まれない場合には、ステップS120に移行する。   On the other hand, if the determination in step S100 is negative, that is, if the size of the edit passage is not included in the displayable range, the process proceeds to step S120.

ヘッダテキストよりコンテンツテキストの方が、文書に関する質問及び検索に対する回答として適切な内容が含まれる場合が多いため、ステップS120では、編集パッセージに含まれるコンテンツテキストが優先して表示領域8に含まれるように、パッセージを表示領域8に表示する。   In many cases, content text is more appropriate as a question about a document and an answer to a search than the header text. Therefore, in step S120, the content text included in the edit passage is preferentially included in the display area 8. The passage is displayed in the display area 8.

すなわち、ヘッダテキストを含めると表示可能範囲内に表示しきれないパッセージであっても、コンテンツテキストがテキストの途中で途切れないような適切なパッセージを表示領域8に表示することができる。   That is, even if the passage text cannot be displayed within the displayable range when the header text is included, an appropriate passage that does not interrupt the content text in the middle of the text can be displayed in the display area 8.

なお、ここでは一例として、分割したコンテンツテキストの部分集合の1つから生成されたパッセージを表示領域8に表示する例を説明したが、ステップS70で分割した各々のコンテンツテキストの部分集合にそれぞれ対応した編集パッセージを生成し、ユーザの指示に基づいて、各編集パッセージに対してステップS100〜S120を実行し、編集パッセージの各々を表示領域8に順次表示するようにしてもよい。   Here, as an example, an example has been described in which a passage generated from one of the divided content text subsets is displayed in the display area 8, but each of the content text subsets divided in step S70 corresponds to each. The edited passages may be generated, and steps S100 to S120 may be executed for each edited passage based on a user instruction so that each of the edited passages is sequentially displayed in the display area 8.

例えば、編集パッセージが複数存在する場合、次の回答が存在することを示すリンク付きのメッセージを表示領域8に表示し、ユーザがマウス等でリンク付きメッセージを選択した場合に、未表示の編集パッセージの内容を表示領域8に表示するようにしてもよい。   For example, when there are a plurality of edit passages, a message with a link indicating that the next answer exists is displayed in the display area 8, and when the user selects a message with a link using a mouse or the like, an undisplayed edit passage is displayed. May be displayed in the display area 8.

このように本発明の実施の形態に係るパッセージ提示制御装置100によれば、階層的な文書構造を有する文書から、質問及び検索の回答に適したパッセージを生成して表示領域8に表示する際、表示可能範囲を考慮してパッセージを生成して表示する。したがって、階層的な文書構造を有する文書から、ユーザが把握しやすい形態でユーザの要求に適したパッセージを提示することができる。   As described above, according to the passage presentation control apparatus 100 according to the embodiment of the present invention, a passage suitable for a question and a search response is generated from a document having a hierarchical document structure and displayed in the display area 8. The passage is generated and displayed in consideration of the displayable range. Therefore, it is possible to present a passage suitable for the user's request in a form that the user can easily grasp from a document having a hierarchical document structure.

また、パッセージ提示制御装置100は、2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する推定結果を用いて、パッセージ内で散在するテキストの対応付けを行うため、パッセージの種別に応じてパッセージの提示が可能となる。   In addition, the passage presentation control apparatus 100 uses the estimation result to estimate whether one of the two texts is a header and the other is content, so that the passages are associated with each other in the passage. Passage can be presented according to the type of the.

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made without departing from the gist of the present invention.

例えば、パッセージ提示制御装置100を、通信回線で接続された複数のコンピュータで実現するようにしてもよい。   For example, the passage presentation control apparatus 100 may be realized by a plurality of computers connected by communication lines.

また、パッセージ提示プログラムが予めROMにインストールされている実施の形態について説明したが、当該プログラムをコンピュータ読み取り可能な記録媒体に格納して提供することも可能であり、通信回線を介して提供することも可能である。   Moreover, although the embodiment in which the passage presentation program is installed in the ROM in advance has been described, the program can be provided by being stored in a computer-readable recording medium and provided via a communication line. Is also possible.

8 表示領域
10 入力部
20 演算部
22 表示可能判定部
24 パッセージフィルタ部
26 ヘッダ・コンテンツ関係推定部
28 パッセージ提示部
30 記憶部
100 パッセージ提示制御装置
DESCRIPTION OF SYMBOLS 8 Display area 10 Input part 20 Calculation part 22 Display possibility determination part 24 Passage filter part 26 Header content relation estimation part 28 Passage presentation part 30 Storage part 100 Passage presentation control apparatus

Claims (8)

テキスト構造を示すタグを用いて記述されたテキストを含むパッセージの全体のサイズが、表示装置における表示領域の範囲内に含まれるか否かを判定すると共に、前記表示領域の範囲内に含まれないと判定したパッセージが複数のテキストで構成されているか否かを判定する表示可能判定部と、
2つのテキストを受け付け、受け付けた2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定するヘッダ・コンテンツ関係推定部と、
前記表示可能判定部で、前記表示領域の範囲内に含まれず、かつ、複数のテキストで構成されると判定されたパッセージに対して、パッセージに含まれる2つのテキストの全ての組み合わせを抽出し、抽出したテキストの各々の組み合わせについての前記ヘッダ・コンテンツ関係推定部の推定結果を用いて、コンテンツと推定されたテキストの集合のサイズが前記表示領域の範囲内に含まれない場合、コンテンツと推定されたテキストの部分集合のサイズが前記表示領域の範囲内に含まれるまで、パッセージに含まれる前記タグから得られる文書構造木に基づいてコンテンツと推定されたテキストの集合を部分集合に分割するパッセージフィルタ部と、
前記表示可能判定部でパッセージの全体のサイズが前記表示領域の範囲内に含まれると判定された場合には、パッセージの全体を前記表示領域に表示し、前記表示可能判定部で、前記表示領域の範囲内に含まれず、かつ、複数のテキストで構成されると判定された場合には、前記パッセージフィルタ部から受け付けたテキストの部分集合を優先して前記表示領域に表示するパッセージ提示部と、
を備えたパッセージ提示制御装置。
It is determined whether or not the entire size of the passage including the text described using the tag indicating the text structure is included in the display area of the display device, and is not included in the display area. A displayability determination unit that determines whether or not the passage determined to be composed of a plurality of texts;
A header-content relationship estimation unit that accepts two texts, and estimates whether one of the two received texts is a header and the other is content;
For the passage that is not included in the display area and is determined to be composed of a plurality of texts by the display enablement determination unit, all combinations of two texts included in the passage are extracted, Using the estimation result of the header-content relationship estimation unit for each combination of extracted text, if the size of the set of text estimated as content is not included in the range of the display area, it is estimated as content. A passage filter that divides a text set estimated as content based on a document structure tree obtained from the tag included in the passage into subsets until the size of the text subset included in the display area is included. And
When the displayable determination unit determines that the entire size of the passage is included in the range of the display area, the entire passage is displayed in the display area, and the displayability determination unit displays the display area. A passage presenting unit that preferentially displays a subset of the text received from the passage filter unit in the display area when it is determined that it is not included in the range and is composed of a plurality of texts;
Passage presentation control device.
前記ヘッダ・コンテンツ関係推定部は、受け付けた前記2つのテキストの各々を、テキストに含まれる文節の係り受けを表す係り受け木に変換し、前記文書構造木に前記2つのテキストの各々の係り受け木を結合し、前記文書構造木における前記2つのテキストの各々の係り受け木を含む最小部分木に基づいて、前記2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する
請求項1記載のパッセージ提示制御装置。
The header / content relationship estimating unit converts each of the received two texts into a dependency tree representing a dependency of a clause included in the text, and converts each of the two texts into the document structure tree. Estimate whether one of the two texts is a header and the other is content based on a minimum subtree that includes a dependency tree for each of the two texts in the document structure tree The passage presentation control apparatus according to claim 1.
前記ヘッダ・コンテンツ関係推定部は、前記2つのテキストに含まれる前記タグを利用して、前記2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する
請求項1又は請求項2記載のパッセージ提示制御装置。
The header-content relation estimation unit estimates whether one of the two texts is a header and the other is content by using the tag included in the two texts. Item 3. The passage presentation control apparatus according to Item 2.
前記パッセージ提示部は、パッセージの全体のサイズが前記表示領域の範囲内に含まれず、かつ、パッセージが複数のテキストで構成されると判定された場合、前記パッセージフィルタ部から受け付けたテキストの部分集合を優先して前記表示領域に表示し、かつ、前記パッセージフィルタ部から受け付けたテキストの部分集合に対応してヘッダと推定されたテキストを、前記表示装置におけるヘッダ表示領域に表示する
請求項1〜請求項3の何れか1項に記載のパッセージ提示制御装置。
The passage presentation unit, when it is determined that the entire size of the passage is not included in the range of the display area and the passage is composed of a plurality of texts, a subset of the text received from the passage filter unit The text presumed to be a header corresponding to a subset of the text received from the passage filter unit is displayed in the header display area in the display device. The passage presentation control apparatus according to claim 3.
テキスト構造を示すタグを用いて記述されたテキストを含むパッセージの全体のサイズが、表示装置における表示領域の範囲内に含まれるか否かを判定すると共に、前記表示領域の範囲内に含まれないと判定したパッセージが複数のテキストで構成されているか否かを判定するステップと、
前記表示領域の範囲内に含まれず、かつ、複数のテキストで構成されると判定されたパッセージに含まれる2つのテキストを受け付け、受け付けた2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定するステップと、
コンテンツと推定されたテキストの集合のサイズが前記表示領域の範囲内に含まれない場合、コンテンツと推定されたテキストの部分集合のサイズが前記表示領域の範囲内に含まれるまで、パッセージに含まれる前記タグから得られる文書構造木に基づいてコンテンツと推定されたテキストの集合を部分集合に分割するステップと、
パッセージの全体のサイズが前記表示領域の範囲内に含まれると判定された場合には、パッセージの全体を前記表示領域に表示し、前記表示領域の範囲内に含まれず、かつ、複数のテキストで構成されると判定された場合には、分割されたテキストの部分集合を優先して前記表示領域に表示するステップと、
を含むパッセージ提示方法。
It is determined whether or not the entire size of the passage including the text described using the tag indicating the text structure is included in the display area of the display device, and is not included in the display area. Determining whether the passage determined to be composed of a plurality of texts;
Two texts included in a passage that is determined not to be included in the display area and are composed of a plurality of texts are received, and one of the two received texts is a header and the other is content. Estimating whether or not,
If the size of the set of text estimated to be content is not included in the display area, it is included in the passage until the size of the subset of text estimated to be content is included in the display area. Dividing a set of text estimated as content based on a document structure tree obtained from the tag into subsets;
When it is determined that the entire size of the passage is included in the range of the display area, the entire passage is displayed in the display area, is not included in the display area, and includes a plurality of texts. If it is determined that it is composed, the step of displaying the subset of the divided text with priority in the display area;
Passage presentation method including
受け付けた2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定するステップにおいて、前記2つのテキストの各々を、テキストに含まれる文節の係り受けを表す係り受け木に変換し、前記文書構造木に前記2つのテキストの各々の係り受け木を結合し、前記文書構造木における前記2つのテキストの各々の係り受け木を含む最小部分木を用いることで、前記2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する
請求項5記載のパッセージ提示方法。
In the step of estimating whether one of the two received texts is a header and the other is a content, each of the two texts is converted into a dependency tree representing a dependency of a clause included in the text. , By connecting each dependency tree of the two texts to the document structure tree, and using a minimum subtree including each dependency tree of the two texts in the document structure tree. The passage presentation method according to claim 5, wherein one is a header and the other is content.
受け付けた2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定するステップにおいて、前記2つのテキストに含まれる前記タグを利用して、前記2つのテキストの一方がヘッダであり、他方がコンテンツであるか否かを推定する
請求項5又は請求項6記載のパッセージ提示方法。
In the step of estimating whether one of the two received texts is a header and the other is content, one of the two texts is a header using the tag included in the two texts The passage presentation method according to claim 5, wherein the other is content.
コンピュータを、請求項1〜請求項4の何れか1項に記載のパッセージ提示制御装置の各部として機能させるためのパッセージ提示プログラム。   The passage presentation program for functioning a computer as each part of the passage presentation control apparatus of any one of Claims 1-4.
JP2017099360A 2017-05-18 2017-05-18 Passage presentation control device, passage presentation method, and passage presentation program Active JP6564811B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017099360A JP6564811B2 (en) 2017-05-18 2017-05-18 Passage presentation control device, passage presentation method, and passage presentation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017099360A JP6564811B2 (en) 2017-05-18 2017-05-18 Passage presentation control device, passage presentation method, and passage presentation program

Publications (2)

Publication Number Publication Date
JP2018195147A JP2018195147A (en) 2018-12-06
JP6564811B2 true JP6564811B2 (en) 2019-08-21

Family

ID=64570543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017099360A Active JP6564811B2 (en) 2017-05-18 2017-05-18 Passage presentation control device, passage presentation method, and passage presentation program

Country Status (1)

Country Link
JP (1) JP6564811B2 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0512276A (en) * 1991-07-04 1993-01-22 Sharp Corp Document processor
JP4299963B2 (en) * 2000-10-02 2009-07-22 ヒューレット・パッカード・カンパニー Apparatus and method for dividing a document based on a semantic group
JP5520732B2 (en) * 2010-07-27 2014-06-11 日本電信電話株式会社 Text extraction method, text extraction device, text extraction program
US9710440B2 (en) * 2013-08-21 2017-07-18 Microsoft Technology Licensing, Llc Presenting fixed format documents in reflowed format
JP5884814B2 (en) * 2013-11-27 2016-03-15 カシオ計算機株式会社 Display processing apparatus and program

Also Published As

Publication number Publication date
JP2018195147A (en) 2018-12-06

Similar Documents

Publication Publication Date Title
JP6653334B2 (en) Information extraction method and device
US5774118A (en) Method and device for displaying help for operations and concepts matching skill level
JP5469244B2 (en) Selective content extraction
JP4344693B2 (en) System and method for browser document editing
JP4929704B2 (en) Computer processing method and computer processing apparatus
US20180039907A1 (en) Document structure extraction using machine learning
US9710440B2 (en) Presenting fixed format documents in reflowed format
JP2001184344A (en) Information processing system, proxy server, web page display control method, storage medium and program transmitter
WO2015053236A1 (en) Device for collecting contradictory expression and computer program for same
JP2009026195A (en) Article classification apparatus, article classification method and program
US11574123B2 (en) Content analysis utilizing general knowledge base
US20130124684A1 (en) Visual separator detection in web pages using code analysis
CN112417338A (en) Page adaptation method, system and equipment
JP3899414B2 (en) Teacher data creation device and program, and language analysis processing device and program
JP6564811B2 (en) Passage presentation control device, passage presentation method, and passage presentation program
CN116245177A (en) Geographic environment knowledge graph automatic construction method and system and readable storage medium
CN113806667B (en) Method and system for supporting webpage classification
US11645095B2 (en) Generating and utilizing a digital knowledge graph to provide contextual recommendations in digital content editing applications
WO2021117483A1 (en) Information processing device, information processing method, and program
JP6154072B2 (en) Information analysis system, information analysis method, and information analysis program
CN114461749A (en) Data processing method and device for conversation content, electronic equipment and medium
CN112257400A (en) Table data extraction method and device, computer equipment and storage medium
US20240126978A1 (en) Determining attributes for elements of displayable content and adding them to an accessibility tree
CN113553435B (en) Method, device and equipment for determining intelligent label and storage medium
Figueroa-Gutiérrez et al. Towards Automatic Interpretation Of Statistical Graphs For The Visually Impaired

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181026

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190723

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190729

R150 Certificate of patent or registration of utility model

Ref document number: 6564811

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150