JP7050533B2 - Editing device, editing method and editing program - Google Patents

Editing device, editing method and editing program Download PDF

Info

Publication number
JP7050533B2
JP7050533B2 JP2018040970A JP2018040970A JP7050533B2 JP 7050533 B2 JP7050533 B2 JP 7050533B2 JP 2018040970 A JP2018040970 A JP 2018040970A JP 2018040970 A JP2018040970 A JP 2018040970A JP 7050533 B2 JP7050533 B2 JP 7050533B2
Authority
JP
Japan
Prior art keywords
editing
query
unit
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018040970A
Other languages
Japanese (ja)
Other versions
JP2019159396A (en
Inventor
剛玄 柴床
智久 五藤
裕二 中川
三紀雄 小田
久男 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Patent Service Ltd
Original Assignee
NEC Patent Service Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Patent Service Ltd filed Critical NEC Patent Service Ltd
Priority to JP2018040970A priority Critical patent/JP7050533B2/en
Publication of JP2019159396A publication Critical patent/JP2019159396A/en
Application granted granted Critical
Publication of JP7050533B2 publication Critical patent/JP7050533B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ユーザから入力される、検索に用いられるテキストデータの編集に関する技術である。 The present invention is a technique for editing text data input by a user and used for searching.

一般に、1以上の文書の集合から関連文書を検索する検索装置は、検索式や検索文等の検索条件を入力し、入力した検索条件に該当する文書を検索結果として文書集合から抽出する機能を有する。 In general, a search device that searches for related documents from a set of one or more documents has a function of inputting search conditions such as a search formula and a search sentence and extracting documents corresponding to the entered search conditions from the document set as search results. Have.

一般の検索装置では、入力した検索条件に指示された語に基づいて検索を行うため、指示された語と同じ語を含む文書しか検索条件に該当しないと判断する。したがって、指定された語の同義語や類似語が含まれる文書は検索結果から漏れてしまう場合がある。 Since a general search device performs a search based on the word specified in the input search condition, it is determined that only the document containing the same word as the instructed word corresponds to the search condition. Therefore, documents containing synonyms or similar words of the specified word may be omitted from the search results.

そこで、同義語や類義語が含まれる文書が検索結果から漏れることを防ぐため、同義語や類義語を含む文書も検索結果に含むような機能が望まれる。 Therefore, in order to prevent documents containing synonyms and synonyms from being leaked from the search results, a function is desired in which documents containing synonyms and synonyms are also included in the search results.

例えば、特許文献1には、検索の対象となる文書集合から類義語を抽出し、検索条件の中のキーワードの拡張を行った場合に高い検索精度での検索を可能にする文書検索装置が開示されている。 For example, Patent Document 1 discloses a document search device that enables a search with high search accuracy when synonyms are extracted from a set of documents to be searched and keywords in the search conditions are expanded. ing.

特許文献2には、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語を抽出する同義語抽出システムが開示されている。 Patent Document 2 discloses a synonym extraction system that extracts synonyms from documents having synonyms that are valid only in a group of documents related to a specific case, such as a proposal or a specification for constructing an information system.

また、特許文献3には、構造化文書データベースに格納されている構造化文書の構成要素と語彙とを指定した検索条件に基づき、この指定した構成要素と語彙とそれらの文書構造上の発生位置とに類似する構造化文書の検索が容易に行える構造化文書検索方法が開示されている。 Further, in Patent Document 3, based on the search condition in which the constituent elements and vocabulary of the structured document stored in the structured document database are specified, the specified constituent elements and vocabulary and their occurrence positions in the document structure are described. A structured document search method that can easily search for a structured document similar to the above is disclosed.

非特許文献1には、同意表現を抽出する手法が開示されている。非特許文献2には、単語間の上位下位関係を獲得する手法が開示されている。 Non-Patent Document 1 discloses a method for extracting a consent expression. Non-Patent Document 2 discloses a method for acquiring a superior / inferior relationship between words.

上記のような技術を用いることにより、検索条件に指示された語の同義語や類義語を含む文書も、検索結果に含まれるようにすることができる。 By using the above technique, it is possible to include documents including synonyms and synonyms of the words specified in the search conditions in the search results.

ここで、特許文献1などの検索装置では、一般に、検索条件を含むテキストデータは、人手により入力される。検索装置は、そのテキストデータを取得し、テキストデータに含まれる語を用いて検索条件を生成し、その検索条件に該当する文書の検索を実行する。検索者は、その検索の結果に含まれる文書を参照し、さらなる検索を実行することがある。 Here, in a search device such as Patent Document 1, generally, text data including a search condition is manually input. The search device acquires the text data, generates a search condition using the words included in the text data, and executes a search for the document corresponding to the search condition. The searcher may refer to the documents contained in the search results and perform further searches.

特開2003-108582号公報Japanese Patent Application Laid-Open No. 2003-108582 国際公開第2014/002776号公報International Publication No. 2014/002776 特開2002-297605号公報Japanese Unexamined Patent Publication No. 2002-297605

湯村武、余田直之、野崎康夫、茂木健、西田行輝 著、三洋電機(株) 情報通信システム研究所「テキストデータベースからの同意表現の抽出」、全国大会講演論文集、1993年9月27日、第47回、人工知能及び認知科学、p.79-80Takeshi Yumura, Naoyuki Yoda, Yasuo Nozaki, Ken Mogi, Yuki Nishida, Sanyo Electric Co., Ltd. Information and Communication Systems Laboratories "Extraction of Consent Expressions from Text Databases", Proceedings of the National Convention, September 27, 1993 , 47th Artificial Intelligence and Cognitive Science, p. 79-80 新里圭司、鳥澤健太郎 著、「HTML文書からの単語間の上位下位関係の自動獲得」、情報処理学会研究報告自然言語処理(NL)、2003年11月6日、p.95-102Keiji Niisato, Kentaro Torizawa, "Automatic Acquisition of Upper and Lower Relationships between Words from HTML Documents", IPSJ Research Report Natural Language Processing (NL), November 6, 2003, p. 95-102

上述のように、検索に用いられるテキストデータは、人手により入力されたり、変更されたりすることがある。したがって、検索に用いられるテキストデータに属人性が生じるため、検索の精度にばらつきが生じるという課題がある。 As mentioned above, the text data used for the search may be manually entered or modified. Therefore, there is a problem that the accuracy of the search varies because the text data used for the search has personality.

本発明は、上記課題を鑑みてなされたものであり、テキストデータの属人性を抑え、検索の精度のばらつきを抑えることができる編集装置等を提供することを主要な目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to provide an editing device or the like capable of suppressing the personality of text data and suppressing variations in search accuracy.

本発明の一態様にかかる編集装置は、1以上の語を含むテキストデータを取得する取得手段と、前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する編集手段とを備える。 The editing device according to one aspect of the present invention is included in the acquired text data from an acquisition means for acquiring text data including one or more words and one or more documents to be searched using the text data. It is provided with an editing means for extracting related words for at least one word and editing the text data so that the search is executed including the extracted related words.

本発明の一態様にかかる編集方法は、1以上の語を含むテキストデータを取得し、前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する。 In the editing method according to one aspect of the present invention, text data including one or more words is acquired, and at least one included in the acquired text data from one or more documents to be searched using the text data. Related words are extracted for one word, and the text data is edited so that the search is executed including the extracted related words.

本発明の一態様にかかる編集プログラムは、1以上の語を含むテキストデータを取得する処理と、前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する処理とを、コンピュータに実行させる。 The editing program according to one aspect of the present invention is included in the acquired text data from a process of acquiring text data including one or more words and one or more documents to be searched using the text data. A computer is made to perform a process of extracting related words for at least one word and editing the text data so that the search is executed including the extracted related words.

本発明によれば、テキストデータの属人性を抑え、検索の精度のばらつきを抑えることができるという効果が得られる。 According to the present invention, it is possible to suppress the personality of the text data and suppress the variation in the accuracy of the search.

各実施形態における編集装置および編集方法を実現するコンピュータ装置のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware composition of the computer apparatus which realizes an editing apparatus and an editing method in each embodiment. 第1の実施形態にかかる編集装置の機能構成を示すブロック図である。It is a block diagram which shows the functional structure of the editing apparatus which concerns on 1st Embodiment. 第1の実施形態にかかる編集装置の動作を説明するフローチャートである。It is a flowchart explaining the operation of the editing apparatus which concerns on 1st Embodiment. クエリが入力される編集画面を示す図である。It is a figure which shows the edit screen in which a query is input. 編集画面にクエリが入力された一例を示す図である。It is a figure which shows an example which the query was input to the edit screen. 第1の実施形態にかかる編集装置のクエリ編集部の機能構成を示すブロック図である。It is a block diagram which shows the functional structure of the query editing part of the editing apparatus which concerns on 1st Embodiment. 第1の実施形態にかかる編集装置のクエリ編集部の動作を示すフローチャートである。It is a flowchart which shows the operation of the query editing part of the editing apparatus which concerns on 1st Embodiment. 第1の実施形態にかかる編集装置のクエリ解析部によりクエリが解析された結果の一例を示す図である。It is a figure which shows an example of the result of query analysis by the query analysis part of the editing apparatus which concerns on 1st Embodiment. 第1の実施形態にかかる編集装置の文書記憶部に記憶される文書の一例を示す図である。It is a figure which shows an example of the document stored in the document storage part of the editing apparatus which concerns on 1st Embodiment. 第1の実施形態にかかる編集装置の解析結果から得られた語と、その語について抽出された同義語の例を示す図である。It is a figure which shows the example of the word obtained from the analysis result of the editing apparatus which concerns on 1st Embodiment, and the synonym extracted about the word. 第1の実施形態に係る編集装置のクエリ編集部により編集されたクエリの一例を示す図である。It is a figure which shows an example of the query edited by the query editing part of the editing apparatus which concerns on 1st Embodiment. 第1の実施形態に係る編集装置と、クエリの出力先である検索装置とが接続された構成を示す図である。It is a figure which shows the structure which connected the editing apparatus which concerns on 1st Embodiment, and the search apparatus which is the output destination of a query. 第2の実施形態に係る編集装置のクエリ取得部の機能構成を示すブロック図である。It is a block diagram which shows the functional structure of the query acquisition part of the editing apparatus which concerns on 2nd Embodiment. 第2の実施形態に係る編集装置の選択情報入出力部により出力される編集画面の一例を示す図である。It is a figure which shows an example of the editing screen which is output by the selection information input / output part of the editing apparatus which concerns on 2nd Embodiment. 第2の実施形態に係る編集装置のクエリ編集部の動作を示すフローチャートである。It is a flowchart which shows the operation of the query editing part of the editing apparatus which concerns on 2nd Embodiment. 第3の実施形態に係る編集装置のクエリ編集部の機能構成を示すブロック図である。It is a block diagram which shows the functional structure of the query editing part of the editing apparatus which concerns on 3rd Embodiment. 第3の実施形態に係る編集装置のクエリ編集部の動作を示すフローチャートである。It is a flowchart which shows the operation of the query editing part of the editing apparatus which concerns on 3rd Embodiment. 第3の実施形態に係る編集装置の選択情報入出力部により表示された編集画面の一例を示す図である。It is a figure which shows an example of the editing screen displayed by the selection information input / output part of the editing apparatus which concerns on 3rd Embodiment. 第4の実施形態に係る編集装置のクエリ編集部の機能構成を示すブロック図である。It is a block diagram which shows the functional structure of the query editing part of the editing apparatus which concerns on 4th Embodiment. 第4の実施形態に係る編集装置のクエリ編集部の動作を示すフローチャートである。It is a flowchart which shows the operation of the query editing part of the editing apparatus which concerns on 4th Embodiment. 第5の実施形態に係る編集装置の選択情報入出力部により表示された編集画面の一例を示す図である。It is a figure which shows an example of the editing screen displayed by the selection information input / output part of the editing apparatus which concerns on 5th Embodiment. 第5の実施形態に係る編集装置のクエリ編集部の機能構成を示すブロック図である。It is a block diagram which shows the functional structure of the query editing part of the editing apparatus which concerns on 5th Embodiment. 第5の実施形態に係る編集装置の選択情報入出力部により表示された編集画面の一例を示す図である。It is a figure which shows an example of the editing screen displayed by the selection information input / output part of the editing apparatus which concerns on 5th Embodiment. 第5の実施形態に係る編集装置の選択情報入出力部により表示された編集画面の一例を示す図である。It is a figure which shows an example of the editing screen displayed by the selection information input / output part of the editing apparatus which concerns on 5th Embodiment. 第6の実施形態に係る編集装置の解析結果から得られた語、その語について抽出された同義語および同義語の出現回数の例を示す図である。It is a figure which shows the example of the word obtained from the analysis result of the editing apparatus which concerns on 6th Embodiment, the synonym extracted about the word, and the number of appearances of a synonym. 第 6の実施形態に係る編集装置の選択情報入出力部により表示された編集画面の一例を示す図である。It is a figure which shows an example of the editing screen displayed by the selection information input / output part of the editing apparatus which concerns on 6th Embodiment. 第7の実施形態に係る編集装置の機能構成を示すブロック図である。It is a block diagram which shows the functional structure of the editing apparatus which concerns on 7th Embodiment. 第7の実施形態に係る編集装置におけるクエリ編集部と検索結果評価部の機能構成を示すブロック図である。It is a block diagram which shows the functional structure of the query editing unit and the search result evaluation unit in the editing apparatus which concerns on 7th Embodiment. 第7の実施形態に係る編集装置のクエリ編集部の動作を示すフローチャートである。It is a flowchart which shows the operation of the query editing part of the editing apparatus which concerns on 7th Embodiment. 第7の実施形態に係る編集装置の検索結果評価部の動作を示すフローチャートである。It is a flowchart which shows the operation of the search result evaluation part of the editing apparatus which concerns on 7th Embodiment. クエリと検索結果の一例を示す図である。It is a figure which shows an example of a query and a search result. X-Y座標に、検索結果に含まれる各文書の順位とスコアをプロットした一例を示す図である。It is a figure which shows an example which plotted the rank and the score of each document included in a search result on XY coordinates. クエリと検索結果の他の例を示す図である。It is a figure which shows other examples of a query and a search result. X-Y座標に、検索結果に含まれる各文書の順位とスコアをプロットした他の例を示す図である。It is a figure which shows the other example which plotted the rank and the score of each document included in a search result on XY coordinates. 第8の実施形態に係る編集装置のクエリ編集部の機能構成を示すブロック図である。It is a block diagram which shows the functional structure of the query editing part of the editing apparatus which concerns on 8th Embodiment. 第8の実施形態に係る編集装置のクエリ評価部の動作を示すフローチャートである。It is a flowchart which shows the operation of the query evaluation part of the editing apparatus which concerns on 8th Embodiment. 第9の実施形態に係る編集装置のクエリ編集部の機能構成を示すブロック図である。It is a block diagram which shows the functional structure of the query editing part of the editing apparatus which concerns on 9th Embodiment. 構文パターンの一例を示す図である。It is a figure which shows an example of a syntax pattern. 第9の実施形態に係る編集装置の類義語情報生成部により生成された類義語情報の一例を示す。An example of the synonym information generated by the synonym information generation unit of the editing apparatus according to the ninth embodiment is shown. 第10の実施形態に係る編集装置の機能構成を示すブロック図である。It is a block diagram which shows the functional structure of the editing apparatus which concerns on 10th Embodiment.

以下、本発明の好ましい実施形態について図面を参照して詳細に説明する。 Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the drawings.

第1の実施形態
第1の実施形態および他の実施形態にかかる編集装置を構成するハードウェアについて説明する。図1は、各実施形態における編集装置および編集方法を実現するコンピュータ装置10のハードウェア構成を示すブロック図である。なお、各実施形態において、以下に示す編集装置の各構成要素は、機能単位のブロックを示している。編集装置の各構成要素は、例えば図1に示すようなコンピュータ装置10とソフトウェアとの任意の組み合わせにより実現することができる。
First Embodiment The hardware constituting the editing apparatus according to the first embodiment and other embodiments will be described. FIG. 1 is a block diagram showing a hardware configuration of a computer device 10 that realizes an editing device and an editing method in each embodiment. In each embodiment, each component of the editing apparatus shown below indicates a block of functional units. Each component of the editing device can be realized, for example, by any combination of the computer device 10 and software as shown in FIG.

図1に示すように、コンピュータ装置10は、プロセッサ11、RAM(Random Access Memory)12、ROM(Read Only Memory)13、記憶装置14、入出力インタフェース15およびバス16を備える。 As shown in FIG. 1, the computer device 10 includes a processor 11, a RAM (Random Access Memory) 12, a ROM (Read Only Memory) 13, a storage device 14, an input / output interface 15, and a bus 16.

記憶装置14は、プログラム18を格納する。プロセッサ11は、RAM12を用いて本編集装置にかかる編集プログラム18を実行する。プログラム18は、ROM13に記憶されていてもよい。また、プログラム18は、記録媒体20に記録され、ドライブ装置17によって読み出されてもよいし、外部装置からネットワークを介して送信されてもよい。 The storage device 14 stores the program 18. The processor 11 uses the RAM 12 to execute the editing program 18 related to the editing device. The program 18 may be stored in the ROM 13. Further, the program 18 may be recorded on the recording medium 20 and read out by the drive device 17, or may be transmitted from an external device via a network.

入出力インタフェース15は、周辺機器(キーボード、マウス、表示装置など)19とデータをやり取りする。入出力インタフェース15は、データを取得または出力する手段として機能することができる。バス16は、各構成要素を接続する。 The input / output interface 15 exchanges data with peripheral devices (keyboard, mouse, display device, etc.) 19. The input / output interface 15 can function as a means for acquiring or outputting data. The bus 16 connects each component.

なお、編集装置の実現方法には様々な変形例がある。例えば、編集装置は、専用の装置として実現することができる。また、編集装置は、複数の装置の組み合わせにより実現することができる。 It should be noted that there are various modified examples of the method of realizing the editing device. For example, the editing device can be realized as a dedicated device. Further, the editing device can be realized by combining a plurality of devices.

本実施形態および他の実施形態の機能を実現するように各実施形態の構成を動作させるプログラム(より具体的には、図3等に示す処理をコンピュータに実行させるプログラム)を記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。 A program for operating the configuration of each embodiment so as to realize the functions of the present embodiment and other embodiments (more specifically, a program for causing a computer to execute the process shown in FIG. 3 or the like) is recorded on a recording medium. A processing method of reading a program recorded on the recording medium as a code and executing the program on a computer is also included in the category of each embodiment. That is, a computer-readable recording medium is also included in the scope of each embodiment. Further, not only the recording medium on which the above-mentioned program is recorded but also the program itself is included in each embodiment.

該記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD(Compact Disc)-ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS(Operating System)上で動作して処理を実行するものも各実施形態の範疇に含まれる。 As the recording medium, for example, a floppy (registered trademark) disk, a hard disk, an optical disk, a magneto-optical disk, a CD (Compact Disc) -ROM, a magnetic tape, a non-volatile memory card, or a ROM can be used. Further, the program recorded on the recording medium is not limited to the one that executes the processing by itself, but the one that operates on the OS (Operating System) and executes the processing in cooperation with other software and the function of the expansion board. Is also included in the category of each embodiment.

次に、本発明の第1の実施形態にかかる編集装置の機能構成について説明する。図2は、本発明の第1の実施形態にかかる編集装置100の機能構成を示すブロック図である。図2が示すブロックは単一の装置内に実装されてよく、あるいは複数の装置内に分かれて実装されてよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてよい。 Next, the functional configuration of the editing apparatus according to the first embodiment of the present invention will be described. FIG. 2 is a block diagram showing a functional configuration of the editing device 100 according to the first embodiment of the present invention. The block shown in FIG. 2 may be mounted in a single device, or may be mounted in a plurality of devices separately. Data can be exchanged between blocks via any means such as a data bus, a network, and a portable storage medium.

編集装置100は、クエリ取得部110、クエリ編集部120、クエリ出力部130および文書記憶部140を備える。 The editing device 100 includes a query acquisition unit 110, a query editing unit 120, a query output unit 130, and a document storage unit 140.

クエリ取得部110は、検索に用いるクエリを取得する。ここで、クエリは、ユーザから入力される、検索に用いられるテキストデータである。よって、クエリ取得部110は、1以上の語を含むテキストデータを取得する取得手段を担う。 The query acquisition unit 110 acquires the query used for the search. Here, the query is text data input by the user and used for the search. Therefore, the query acquisition unit 110 serves as an acquisition means for acquiring text data including one or more words.

クエリ編集部120は、クエリ取得部110が取得したクエリを、文書記憶部140に記憶された文書に含まれる語について関連語を抽出し、抽出した関連語に基づいて、クエリを編集する。よって、クエリ編集部120は、テキストデータを用いた検索の対象である1以上の文書から、取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、抽出した関連語を含めて検索が実行されるようにテキストデータを編集する編集手段を担う。クエリ出力部130は、クエリ編集部120により編集されたクエリを出力する。文書記憶部140は、検索対象の文書を記憶する。 The query editing unit 120 extracts related words from the query acquired by the query acquisition unit 110 for the words included in the document stored in the document storage unit 140, and edits the query based on the extracted related words. Therefore, the query editorial unit 120 extracts related words for at least one word included in the acquired text data from one or more documents to be searched using the text data, and searches including the extracted related words. Responsible for editing means of editing text data so that The query output unit 130 outputs the query edited by the query editing unit 120. The document storage unit 140 stores the document to be searched.

なお、クエリは、例えば文章であるがそれに限定されず、1以上の語を含むテキストデータであればよい。例えば、クエリは、語、句、節、文、あるいはそれらの羅列を含んでもよい。ここで、「語」または、以降で述べる「関連語」、「同義語」、「類義語」などに含まれる「語」には、1以上の形態素が含まれる。関連語には、同義語、類義語および反意語(反対語)が含まれる。 The query is, for example, a sentence, but is not limited thereto, and may be text data including one or more words. For example, the query may include words, phrases, clauses, sentences, or a list thereof. Here, the "word" included in the "word" or the "related words", "synonyms", "synonyms" and the like described below includes one or more morphemes. Related words include synonyms, synonyms and antonyms (opposites).

文書記憶部140に記憶される文書は、公開特許公報、公表特許公報、特許公報、公開実用新案公報などの特許または実用新案に関する公開文書、その他何らかの情報を含む電子的な資料、文献を含む。文書記憶部140に記憶される文書は、所定の技術領域に関する文書であってもよい。また、例えば、形式化された論文であってもよい。以降の説明では、特許に関する公開文書を検索対象とする例について、主に説明する。所定の技術領域に関する文書とは、例えば、半導体、電池、無線通信等の各種技術領域のうち指定された技術領域に関する文書であってよい。あるいは、所定の技術領域に関する文書は、国際特許分類で指定される技術領域に関する文書であってよい。 The document stored in the document storage unit 140 includes a published patent gazette, a published patent gazette, a patent gazette, a published document relating to a patent or a utility model such as a published utility model gazette, and other electronic materials and documents including some information. The document stored in the document storage unit 140 may be a document relating to a predetermined technical area. It may also be, for example, a formalized dissertation. In the following description, an example of searching for a public document relating to a patent will be mainly described. The document relating to a predetermined technical area may be, for example, a document relating to a designated technical area among various technical areas such as semiconductors, batteries, and wireless communication. Alternatively, the document relating to a predetermined technical area may be a document relating to a technical area designated by the International Patent Classification.

編集装置100は、入力されたクエリを、文書記憶部140に記憶される文書に含まれる語を用いて編集し、編集後のクエリを出力する装置である。なお、編集後のクエリは、クエリ出力部130から、そのクエリに関連する文書の検索を実行する検索装置へ出力される。検索装置は、クエリに関連する文書を検索する機能を備えた一般的な検索装置であってよい。検索装置は、編集装置100に含まれて構成されてもよいし、配線またはネットワークを経由して編集装置100に接続されていてもよい。あるいは、編集装置100が検索装置に含まれる構成を有してもよい。 The editing device 100 is a device that edits the input query using the words included in the document stored in the document storage unit 140 and outputs the edited query. The edited query is output from the query output unit 130 to a search device that searches for documents related to the query. The search device may be a general search device having a function of searching for a document related to a query. The search device may be included in the editing device 100, or may be connected to the editing device 100 via wiring or a network. Alternatively, the editing device 100 may have a configuration included in the search device.

ここで、文書記憶部140は、検索装置に設けられてもよい。検索装置が配線またはネットワークを経由して編集装置100に接続されている場合、クエリ編集部120は、配線またはネットワークを経由して、検索装置が備える文書記憶部140にアクセスする。 Here, the document storage unit 140 may be provided in the search device. When the search device is connected to the editing device 100 via wiring or a network, the query editing unit 120 accesses the document storage unit 140 included in the search device via wiring or a network.

図3は、編集装置100の動作を説明するフローチャートである。図3を参照して、編集装置100の動作を説明する。 FIG. 3 is a flowchart illustrating the operation of the editing device 100. The operation of the editing device 100 will be described with reference to FIG.

編集装置100のクエリ取得部110は、クエリを取得する(ステップS110)。図4は、クエリが入力される編集画面111を示す図である。図4に示すように、編集画面111は、入力フィールド112と、実行ボタン113とを含む。編集画面111は、クエリ取得部110によりその画面を出力するための情報が生成され、表示装置に出力される。表示装置は、編集装置100に含まれてもよいし、編集装置100と配線またはネットワークを経由して接続されて構成されてもよい。 The query acquisition unit 110 of the editing device 100 acquires a query (step S110). FIG. 4 is a diagram showing an edit screen 111 in which a query is input. As shown in FIG. 4, the edit screen 111 includes an input field 112 and an execute button 113. In the edit screen 111, information for outputting the screen is generated by the query acquisition unit 110, and the information is output to the display device. The display device may be included in the editing device 100, or may be connected to the editing device 100 via wiring or a network.

また、編集画面111は、検索装置により表示されてもよい。この場合、編集画面111は、検索装置が表示する一般的な検索画面でもよい。すなわち、クエリを入力するフィールドと、検索実行を指示するボタンとを含む検索画面が編集画面111として用いられてもよい。この場合、クエリを入力するフィールドが、編集画面111の入力フィールド112として用いられ、検索実行を指示するボタンが、編集画面111の実行ボタン113として用いられてもよい。 Further, the editing screen 111 may be displayed by the search device. In this case, the edit screen 111 may be a general search screen displayed by the search device. That is, a search screen including a field for inputting a query and a button for instructing execution of the search may be used as the edit screen 111. In this case, the field for inputting the query may be used as the input field 112 of the edit screen 111, and the button instructing the search execution may be used as the execute button 113 of the edit screen 111.

図5は、編集画面111にクエリが入力された一例を示す図である。図5に示すように、クエリは、例えば、ユーザが検索したい文書の分野に関するキーワードを含むテキストデータであってよい。 FIG. 5 is a diagram showing an example in which a query is input to the edit screen 111. As shown in FIG. 5, the query may be, for example, text data containing keywords relating to the field of the document that the user wants to search.

ユーザは、入力フィールド112にクエリを入力し、実行ボタン113を押下する。実行ボタン113が押下されると、クエリ取得部110は、入力フィールド112に入力されたクエリを取得する。なお、クエリ取得部110は、編集画面111に入力されたテキストデータを取得することに限定されず、例えば、ファイルからテキストデータを読み出してもよい。 The user inputs a query in the input field 112 and presses the execute button 113. When the execution button 113 is pressed, the query acquisition unit 110 acquires the query input in the input field 112. The query acquisition unit 110 is not limited to acquiring the text data input to the edit screen 111, and may read the text data from the file, for example.

続いて、クエリ編集部120は、クエリ取得部110により取得されたクエリを編集する(ステップS120)。図6は、クエリ編集部120の機能構成を示すブロック図である。図6に示すように、クエリ編集部120は、クエリ解析部121、同義語抽出部122および同義語追加部123を備える。 Subsequently, the query editing unit 120 edits the query acquired by the query acquisition unit 110 (step S120). FIG. 6 is a block diagram showing a functional configuration of the query editing unit 120. As shown in FIG. 6, the query editing unit 120 includes a query analysis unit 121, a synonym extraction unit 122, and a synonym addition unit 123.

図7は、クエリ編集部120の動作を示すフローチャートである。図7を参照して、クエリ編集部120の動作について説明する。 FIG. 7 is a flowchart showing the operation of the query editing unit 120. The operation of the query editing unit 120 will be described with reference to FIG. 7.

クエリ編集部120は、クエリ取得部110からクエリを取得すると、クエリ解析部121において、クエリを解析する(ステップS111)。具体的には、クエリ解析部121は、クエリに対して自然言語処理を行う機能と、単語または複合語を抽出する機能とを有する。自然言語処理として、例えば、既知の形態素解析ソフトウェアを用いた形態素解析が行われてもよい。 When the query editing unit 120 acquires a query from the query acquisition unit 110, the query analysis unit 121 analyzes the query (step S111). Specifically, the query analysis unit 121 has a function of performing natural language processing on the query and a function of extracting a word or a compound word. As natural language processing, for example, morphological analysis using known morphological analysis software may be performed.

図8は、クエリがクエリ解析部121により解析された結果の一例を示す図である。図8では、語と語の間にスラッシュ(/)を表示することにより、複数の語に分解されたクエリを示す。語には、1以上の形態素からなる単語、複合語などが含まれる。また、語には、接頭語または接尾語が付された単語、複合語が含まれてもよい。なお、複数の語に分解されたクエリを示すために、図8のように語と語の間にスラッシュ(/)を表示することに限定されず、例えば、語と語の間に読点を表示したり、語ごとに括弧書きしたりしてもよい。 FIG. 8 is a diagram showing an example of the result of the query being analyzed by the query analysis unit 121. FIG. 8 shows a query decomposed into a plurality of words by displaying a slash (/) between words. Words include words consisting of one or more morphemes, compound words, and the like. In addition, the word may include a word with a prefix or a suffix, or a compound word. It should be noted that, in order to show a query decomposed into a plurality of words, it is not limited to displaying a slash (/) between words as shown in FIG. 8, and for example, a comma is displayed between words. Or you may write each word in parentheses.

クエリ解析部121は、形態素解析により動詞、名詞等を含む形態素にクエリを分解し、分解されたクエリから単語を抽出すると共に、単語を2つ以上組み合わせた複合語、または、単語と接尾語または接頭語とを組み合わせた複合語を生成する。 The query analysis unit 121 decomposes a query into morphemes including verbs, nomenclatures, etc. by morpheme analysis, extracts words from the decomposed query, and combines two or more words into a compound word, or a word and a suffix. Generate a compound word in combination with a prefix.

続いて、同義語抽出部122は、解析結果から得られた語に関し、文書記憶部140に記憶される文書から、同義語を抽出する。 Subsequently, the synonym extraction unit 122 extracts synonyms from the document stored in the document storage unit 140 with respect to the words obtained from the analysis result.

図9は、文書記憶部140に記憶される文書の一例として、公開特許公報の一部を示す図である。図9に示すように、公開特許公報は、「書類名」、「発明の名称」、「技術分野」、「背景技術」、「発明を実施するための形態」などの項目を含む書式が予め定められている。それぞれの項目名が記載された行以降に、その項目に関わる文が記載される。 FIG. 9 is a diagram showing a part of a published patent gazette as an example of a document stored in the document storage unit 140. As shown in FIG. 9, the published patent gazette has a format including items such as "document name", "name of invention", "technical field", "background technology", and "form for carrying out the invention" in advance. It has been decided. After the line where each item name is described, the sentence related to that item is described.

同義語抽出部122は、クエリ解析部121の解析結果に基づいて、文書記憶部140に記憶された1以上の文書のそれぞれに含まれる語から、同義語を抽出する(ステップS112)。
同義語抽出部122は、上述のようにクエリ解析部121がクエリから抽出した単語または生成した複合語を、同義語抽出の対象の語とする。なお、同義語抽出部122は、同義語抽出の対象の語から、助詞を除く。また、同義語抽出部122は、同義語抽出の対象の語から副詞を除いてもよい。
The synonym extraction unit 122 extracts synonyms from the words included in each of the one or more documents stored in the document storage unit 140 based on the analysis result of the query analysis unit 121 (step S112).
The synonym extraction unit 122 sets the word extracted from the query or the compound word generated by the query analysis unit 121 as the target word for synonym extraction as described above. The synonym extraction unit 122 excludes particles from the words to be extracted. Further, the synonym extraction unit 122 may remove the adverb from the word to be extracted by the synonym.

例えば図8に示した解析結果を用いる場合、同義語抽出部122は、「半導体レーザ」、「光源」、「平行光」といった語の同義語を、文書記憶部140に記憶された文書のそれぞれに含まれる語から抽出する。 For example, when the analysis result shown in FIG. 8 is used, the synonym extraction unit 122 stores synonyms such as “semiconductor laser”, “light source”, and “parallel light” in the document storage unit 140, respectively. Extract from the words contained in.

同義語の抽出には、既知の手法が用いられてよい。例えば、非特許文献1に開示される手法を用いてもよい。すなわち、例えば、同義語抽出の対象の語が、文書記憶部140に記憶された文書中に、括弧表現の前後に入れ替わって出現した場合、同義語を抽出することができる。例えば、解析により「AAA」という語が得られたとする。同義語抽出部122は、「AAA」の同義語の抽出において、文書記憶部140に記憶された文書のいずれかに、「AAA(BBB)」という記載と、「BBB(AAA)」という記載が含まれている場合、「BBB」を「AAA」の同義語として抽出する。 Known techniques may be used to extract synonyms. For example, the method disclosed in Non-Patent Document 1 may be used. That is, for example, when a word to be extracted as a synonym appears in a document stored in the document storage unit 140 in an alternating manner before and after the parenthesized expression, the synonym can be extracted. For example, suppose that the analysis yields the word "AAA". In the extraction of the synonym of "AAA", the synonym extraction unit 122 has a description of "AAA (BBB)" and a description of "BBB (AAA)" in any of the documents stored in the document storage unit 140. If included, "BBB" is extracted as a synonym for "AAA".

図9に例示した文書には、「背景技術」の項目に、「半導体レーザ(レーザダイオード)に関し、・・・」という記載が含まれる。この文書または文書記憶部140に記憶される他の文書に、「レーザダイオード(半導体レーザ)」という記載が含まれる場合、クエリの解析により得られた「半導体レーザ」の同義語として、「レーザダイオード」が抽出される。 In the document exemplified in FIG. 9, the item "Background technology" includes the description "Regarding the semiconductor laser (laser diode) ...". When this document or other document stored in the document storage unit 140 includes the description "laser diode (semiconductor laser)", "laser diode" is a synonym for "semiconductor laser" obtained by query analysis. Is extracted.

図10は、同義語抽出の対象の語と、その語について、同義語抽出部122により抽出された同義語の例を示す図である。図10では、同義語抽出の対象の語のうち「半導体レーザ」、「平行光」、「反射光」および「光検出部」を例として、抽出された同義語を示しているが、他の語についても同義語が抽出されている。 FIG. 10 is a diagram showing an example of a word to be extracted as a synonym and a synonym extracted by the synonym extraction unit 122 for that word. In FIG. 10, among the words to be extracted as synonyms, the extracted synonyms are shown by taking "semiconductor laser", "parallel light", "reflected light" and "light detector" as examples, but other synonyms are shown. Synonyms are also extracted for words.

続いて、同義語追加部123は、同義語抽出部122により抽出された同義語を用いて、クエリを編集する(ステップS113)。編集とは、例えば、抽出された同義語を、クエリ取得部110により取得されたクエリに追加する(含める)ことである。また、編集には、クエリに含まれる語を、抽出された同義語で置き換えることが含まれてよい。クエリに追加された同義語は、検索装置における関連文書の検索に用いられる。 Subsequently, the synonym addition unit 123 edits the query using the synonyms extracted by the synonym extraction unit 122 (step S113). Editing means, for example, adding (including) the extracted synonyms to the query acquired by the query acquisition unit 110. Editing may also include replacing the words in the query with the extracted synonyms. Synonyms added to the query are used to search for related documents in the search device.

同義語追加部123は、同義語抽出部122により抽出された同義語を、クエリ取得部110が取得したクエリに追加する。図11は、編集されたクエリの一例を示す図である。図11では、図10に示した同義語が、入力されたクエリに追加された例を示している。図11では、同義語抽出の対象の語に続いて、その語の同義語を順にカンマ(,)で区切って並べて追加した例を示すが、このような順に追加することに限定されず、抽出された同義語を文頭や文末にまとめて追加するなどでもよい。すなわち、抽出された同義語が編集後のクエリに含まれていればよい。また、追加された同義語を、下線で示しているが、この表記に限定されず、追加された同義語を識別可能に表示すればよい。例えば、追加された同義語を、ハイライト表示、異なる色で表示、強調文字で表示等してもよい。追加された同義語は、検索装置における関連文書の検索に用いられる。以上により、クエリの編集が終了する。 The synonym addition unit 123 adds the synonyms extracted by the synonym extraction unit 122 to the query acquired by the query acquisition unit 110. FIG. 11 is a diagram showing an example of an edited query. FIG. 11 shows an example in which the synonyms shown in FIG. 10 are added to the input query. FIG. 11 shows an example in which synonyms of the word are added in order, separated by a comma (,), following the word to be extracted, but the extraction is not limited to such order. The synonyms that have been added may be added together at the beginning or end of the sentence. That is, the extracted synonyms may be included in the edited query. Further, although the added synonyms are underlined, the notation is not limited to this, and the added synonyms may be displayed in an identifiable manner. For example, the added synonyms may be highlighted, displayed in different colors, displayed in highlighted characters, and the like. The added synonyms are used to search for related documents in the search device. This completes query editing.

クエリ出力部130は、上記のように編集されたクエリを出力する(ステップS130)。図12は、一例として、クエリの出力先である検索装置150と、編集装置100とが接続された構成を示す図である。クエリ出力部130は、編集されたクエリを検索装置150に出力する。検索装置150は、クエリ出力部130により出力されたクエリに含まれる語を用いて、文書記憶部140の検索を実行する。 The query output unit 130 outputs the query edited as described above (step S130). As an example, FIG. 12 is a diagram showing a configuration in which a search device 150, which is an output destination of a query, and an editing device 100 are connected. The query output unit 130 outputs the edited query to the search device 150. The search device 150 performs a search of the document storage unit 140 by using the words included in the query output by the query output unit 130.

上述したように、クエリに追加された同義語は、検索対象である文書記憶部140に記憶された文書から抽出されている。そして、その同義語を含むクエリを用いて、文書記憶部140に対する検索が実行される。 As described above, the synonyms added to the query are extracted from the documents stored in the document storage unit 140 to be searched. Then, the search for the document storage unit 140 is executed using the query including the synonym.

以上のように、本第1の実施形態によれば、クエリ編集部120は、入力されたクエリの解析により得られた単語または複合語の同義語を、検索対象である文書記憶部140から抽出すると共に、その語を、クエリに追加する。同義語が追加されたクエリを用いて検索が実行される。したがって、本第1の実施形態によれば、クエリの属人性を抑え、検索の精度のばらつきを抑えることができるという効果が得られる。また、上記のように、クエリに追加される同義語は、検索対象である文書記憶部140から抽出されるので、検索の精度を向上させることができるという効果が得られる。 As described above, according to the first embodiment, the query editing unit 120 extracts synonyms of words or compound words obtained by analyzing the input query from the document storage unit 140 to be searched. And add the word to the query. The search is performed using the query with the added synonyms. Therefore, according to the first embodiment, it is possible to suppress the personality of the query and suppress the variation in the accuracy of the search. Further, as described above, since the synonyms added to the query are extracted from the document storage unit 140 to be searched, the effect that the accuracy of the search can be improved can be obtained.

なお、同義語抽出部122は、文書記憶部140に、特許または実用新案に関する公開文書が記憶されている場合、同義語抽出において、出願人を考慮してもよい。例えば、同義語抽出部122は、異なる出願人の文書において、対象の語の括弧表現の前後に入れ替わって出現した語を、同義語として抽出してもよい。すなわち、異なる出願人の文書において、「AAA(BBB)」という記載と、「BBB(AAA)」という記載が含まれている場合、「BBB」を「AAA」の同義語として抽出してもよい。 The synonym extraction unit 122 may consider the applicant in the synonym extraction when the document storage unit 140 stores a public document relating to a patent or a utility model. For example, the synonym extraction unit 122 may extract as a synonym a word that appears in the documents of different applicants by alternating before and after the parenthesized expression of the target word. That is, if the documents of different applicants include the description "AAA (BBB)" and the description "BBB (AAA)", "BBB" may be extracted as a synonym for "AAA". ..

また、出願件数が所定の基準より多い出願人の文書において、対象の語の括弧表現の前後に入れ替わって出現した語を、同義語として抽出してもよい。 Further, in a document of an applicant whose number of applications is larger than a predetermined standard, words appearing in front of and behind the parenthesized expression of the target word may be extracted as synonyms.

第2の実施形態
図13は、第2の実施形態に係る編集装置100のクエリ取得部160の機能構成を示すブロック図である。第2の実施形態に係る編集装置100は、図2に示した第1の実施形態に係る編集装置100が備えるクエリ取得部110の代わりに、クエリ取得部160を備える。クエリ取得部160以外については、第2の実施形態に係る編集装置100は、図2と同様の構成を有する。なお、文書記憶部140は、所定の技術領域に関する文書を格納しているとする。
The second embodiment FIG. 13 is a block diagram showing a functional configuration of the query acquisition unit 160 of the editing device 100 according to the second embodiment. The editing device 100 according to the second embodiment includes a query acquisition unit 160 instead of the query acquisition unit 110 included in the editing device 100 according to the first embodiment shown in FIG. Except for the query acquisition unit 160, the editing device 100 according to the second embodiment has the same configuration as that of FIG. It is assumed that the document storage unit 140 stores documents related to a predetermined technical area.

クエリ取得部160は、選択情報入出力部161を備える。 The query acquisition unit 160 includes a selection information input / output unit 161.

選択情報入出力部161は、文書記憶部140に記憶される文書がそれぞれ含む項目のうち、同義語を抽出する項目を選択するための情報を生成し、その情報を表示装置162に表示する。表示装置162は、配線またはネットワークを経由して編集装置100に接続されてもよいし、編集装置100に含まれてもよい。選択情報入出力部161は、所定の項目を選択するための情報を出力する出力手段を担う。 The selection information input / output unit 161 generates information for selecting an item for extracting synonyms from the items included in each document stored in the document storage unit 140, and displays the information on the display device 162. The display device 162 may be connected to the editing device 100 via wiring or a network, or may be included in the editing device 100. The selection information input / output unit 161 serves as an output means for outputting information for selecting a predetermined item.

選択情報入出力部161は、例えば項目の選択メニューを表示装置162に表示してもよい。また、選択情報入出力部161は、表示された情報に対してユーザが選択した結果を示す情報を取得する。 The selection information input / output unit 161 may display, for example, an item selection menu on the display device 162. Further, the selection information input / output unit 161 acquires information indicating the result of selection by the user with respect to the displayed information.

図14は、選択情報入出力部161により出力される編集画面163の一例を示す図である。図14に示すように、選択情報入出力部161は、編集画面163に、同義語抽出項目の選択を受け付けるプルダウンメニュー164を表示する。図9に示したように、文書記憶部140に記憶された文書の一例である公開特許公報には、「書類名」、「発明の名称」、「技術分野」、「背景技術」、「発明を実施するための形態」などの項目が予め定められている。選択情報入出力部161は、それらのうちいずれの項目に関する文から、クエリに含まれる語の同義語を抽出するかの選択を受け付けるプルダウンメニュー164を出力する。また、所定の技術領域に関する文書においても、「題名(タイトル)」、「要約(アブストラクト)」、「導入(イントロダクション)および背景」、「技術的原理」、「実験」、「考察」、「結果」などの項目で予め定められている。 FIG. 14 is a diagram showing an example of the editing screen 163 output by the selection information input / output unit 161. As shown in FIG. 14, the selection information input / output unit 161 displays a pull-down menu 164 for accepting selection of synonym extraction items on the edit screen 163. As shown in FIG. 9, the published patent gazette, which is an example of a document stored in the document storage unit 140, includes a "document name", a "title of the invention", a "technical field", a "background technique", and an "invention". Items such as "form for carrying out" are predetermined. The selection information input / output unit 161 outputs a pull-down menu 164 that accepts selection of which of the statements the synonyms of the words included in the query should be extracted from the sentence. Also, in documents related to a given technical area, "Title", "Abstract", "Introduction (Introduction) and Background", "Technical Principles", "Experiments", "Discussion", "Results" It is predetermined by items such as.

すなわち、ユーザがプルダウンメニュー164の右側にある三角マークをクリックすると、選択情報入出力部161の制御に従ってプルダウンメニュー164の直下に選択可能な項目のリストが表示される。このリストには、上述したような項目が含まれる。ユーザは、このリストの中から項目を選択する。 That is, when the user clicks the triangle mark on the right side of the pull-down menu 164, a list of selectable items is displayed directly under the pull-down menu 164 according to the control of the selection information input / output unit 161. This list includes items such as those mentioned above. The user selects an item from this list.

入力フィールド112にクエリが入力され、プルダウンメニュー164を介して項目が選択された状態で、実行ボタン113が押下されると、クエリ取得部110は、クエリと選択された項目を示す情報とを取得する。なお、選択情報入出力部161は、項目の選択をプルダウンメニューで受け付けることに限定されない。同義語抽出項目の入力フィールドに、「発明の名称」、「技術分野」、「背景技術」、「発明を実施するための形態」などの項目の名称が直接入力されてもよい。また、選択される項目は1つに限定されず、複数の項目がプルダウンメニューまたは直接入力により選択されてもよい。 When a query is input to the input field 112 and an item is selected via the pull-down menu 164 and the execute button 113 is pressed, the query acquisition unit 110 acquires the query and information indicating the selected item. do. The selection information input / output unit 161 is not limited to accepting the selection of items by the pull-down menu. In the input field of the synonym extraction item, the name of the item such as "invention name", "technical field", "background technology", "form for carrying out the invention" may be directly input. Further, the item to be selected is not limited to one, and a plurality of items may be selected by a pull-down menu or direct input.

クエリ取得部110によりクエリが取得されると、クエリ編集部120によりクエリの編集が行われる。 When the query is acquired by the query acquisition unit 110, the query editing unit 120 edits the query.

図15は、第2の実施形態に係る編集装置100のクエリ編集部120の動作を示すフローチャートである。クエリ編集部120は、クエリ解析部121、同義語追加部123については、それぞれ図15において図7と同一符号で示した動作S111、S113と同様の動作を行う。 FIG. 15 is a flowchart showing the operation of the query editing unit 120 of the editing device 100 according to the second embodiment. The query editing unit 120 performs the same operations as the operations S111 and S113 shown by the same reference numerals as those in FIG. 15 for the query analysis unit 121 and the synonym addition unit 123, respectively.

クエリ編集部120の同義語抽出部122は、同義語抽出の対象の語に関し、文書記憶部140に記憶された文書の、上記選択された項目に関する文から、同義語を抽出する(S210)。例えば、同義語抽出の対象の語に「半導体レーザ」が含まれ、プルダウンメニュー164により「背景技術」が選択された場合、同義語抽出部122は、文書記憶部140に記憶されたそれぞれの文書のうち「背景技術」の項目に関する文から、「半導体レーザ」の同義語を抽出する。 The synonym extraction unit 122 of the query editing unit 120 extracts synonyms from the sentence related to the selected item of the document stored in the document storage unit 140 with respect to the word to be extracted by the synonym (S210). For example, when "semiconductor laser" is included in the target word for synonym extraction and "background technique" is selected by the pull-down menu 164, the synonym extraction unit 122 stores each document stored in the document storage unit 140. Among them, the synonyms of "semiconductor laser" are extracted from the sentence related to the item of "background technology".

文書記憶部140に記憶される文書のすべての記載から同義語を抽出すると、関連しない語(ノイズ)が同義語として抽出される場合がある。そこで、本実施形態では、ユーザから選択された項目に関わる文から同義語を抽出することで、ノイズを減らすことができる。 When synonyms are extracted from all the descriptions of the document stored in the document storage unit 140, unrelated words (noise) may be extracted as synonyms. Therefore, in the present embodiment, noise can be reduced by extracting synonyms from the sentences related to the items selected by the user.

以上のように、本第2の実施形態によれば、クエリ取得部160は、クエリに含まれる語の同義語を抽出する項目の選択を受け付け、同義語抽出部122は、選択された項目に関する文から同義語を抽出する。したがって、望まれる検索範囲とは関連しない語が同義語として抽出されることを減らすことができるので、検索の精度を向上させることができるという効果が得られる。 As described above, according to the second embodiment, the query acquisition unit 160 accepts the selection of the item for extracting the synonyms of the words included in the query, and the synonym extraction unit 122 relates to the selected item. Extract synonyms from sentences. Therefore, it is possible to reduce the extraction of words that are not related to the desired search range as synonyms, and thus it is possible to improve the accuracy of the search.

第3の実施形態
図16は、第3の実施形態に係る編集装置100のクエリ編集部170の機能構成を示すブロック図である。第3の実施形態に係る編集装置100は、図2に示した第1の実施形態に係る編集装置100が備えるクエリ編集部120の代わりに、クエリ編集部170を備える。クエリ編集部170以外については、第3の実施形態に係る編集装置100は、図2と同様の構成を有する。
Third Embodiment FIG. 16 is a block diagram showing a functional configuration of the query editing unit 170 of the editing apparatus 100 according to the third embodiment. The editing device 100 according to the third embodiment includes a query editing unit 170 instead of the query editing unit 120 included in the editing device 100 according to the first embodiment shown in FIG. Except for the query editing unit 170, the editing device 100 according to the third embodiment has the same configuration as that of FIG.

クエリ編集部170は、図6に示したクエリ編集部120の構成に加えて選択情報入出力部124aを備える。 The query editing unit 170 includes a selection information input / output unit 124a in addition to the configuration of the query editing unit 120 shown in FIG.

選択情報入出力部124aは、同義語を抽出する対象の語の選択を受け付ける機能を有する。すなわち、選択情報入出力部124aは、クエリ解析部121により得られた単語または複合語に対して、同義語を抽出するか否かをユーザが選択するための情報を出力する。選択情報入出力部124aは、また、ユーザにより選択された結果を示す情報を取得する。よって、選択情報入出力部124aは、取得したテキストデータに含まれる少なくとも1つの語に対して、関連語を抽出するか否かを選択するための情報を出力する出力手段を担う。 The selection information input / output unit 124a has a function of accepting the selection of the target word for which synonyms are extracted. That is, the selection information input / output unit 124a outputs information for the user to select whether or not to extract synonyms for the word or compound word obtained by the query analysis unit 121. The selection information input / output unit 124a also acquires information indicating the result selected by the user. Therefore, the selection information input / output unit 124a serves as an output means for outputting information for selecting whether or not to extract related words for at least one word included in the acquired text data.

図17は、クエリ編集部170の動作を示すフローチャートである。クエリ編集部170は、クエリ解析部121、同義語追加部123については、それぞれ図17において図7と同一符号で示した動作S111、S113と同じ動作を行うので、それらの詳細な説明については省略する。 FIG. 17 is a flowchart showing the operation of the query editing unit 170. The query editing unit 170 performs the same operations as the operations S111 and S113 shown by the same reference numerals as those in FIG. 17 for the query analysis unit 121 and the synonym addition unit 123, respectively, and therefore detailed description thereof will be omitted. do.

選択情報入出力部124aは、クエリ解析部121により得られた単語または複合語を、同義語を抽出する候補として、選択可能に表示装置162に表示する(S220)。図18は、選択情報入出力部124aにより表示された編集画面171の一例を示す図である。図18に示すように、選択情報入出力部124aは、編集画面171に、同義語抽出の候補172を表示する。具体的には、選択情報入出力部124aは、クエリ解析部121により得られた単語または複合語173と、各語に対応付けられたチェックボックス174とを表示する。 The selection information input / output unit 124a selectively displays the word or compound word obtained by the query analysis unit 121 on the display device 162 as a candidate for extracting synonyms (S220). FIG. 18 is a diagram showing an example of the editing screen 171 displayed by the selection information input / output unit 124a. As shown in FIG. 18, the selection information input / output unit 124a displays the synonym extraction candidate 172 on the edit screen 171. Specifically, the selection information input / output unit 124a displays the word or compound word 173 obtained by the query analysis unit 121 and the check box 174 associated with each word.

表示する単語または複合語173は、クエリ解析部121により得られた単語または複合語のうち、助詞を除く語である。チェックボックス174は、対応付けられた語の選択を可能とする。チェックボックス174がユーザによりクリックされると、対応付けられた語が、同義語抽出の対象の語として選択されたこととなる。なお、選択にチェックボックス174を用いることを例示したが、これに限定されない。 The word or compound word 173 to be displayed is a word excluding particles among the words or compound words obtained by the query analysis unit 121. Check box 174 allows selection of associated words. When the check box 174 is clicked by the user, the associated word is selected as the target word for synonym extraction. Although it is exemplified that the check box 174 is used for selection, the present invention is not limited to this.

ユーザは、同義語抽出の候補から、対象の語を選択し、それに対応付けられたチェックボックス174をチェックし、実行ボタン113を押下する(S230においてYes)。ユーザは、例えば検索の結果に含まれるノイズを削減するように同義語抽出の対象の語を選択することができる。 The user selects a target word from the candidates for synonym extraction, checks the check box 174 associated with the target word, and presses the execute button 113 (Yes in S230). The user can select the target word for synonym extraction, for example, so as to reduce the noise contained in the search result.

選択情報入出力部124aは、選択された語を取得し、同義語抽出部122に通知する。同義語抽出部122は、選択された語を取得し、その語に関して、文書記憶部140に記憶された文書から、同義語を抽出する(ステップS240)。 The selection information input / output unit 124a acquires the selected word and notifies the synonym extraction unit 122. The synonym extraction unit 122 acquires the selected word and extracts the synonym from the document stored in the document storage unit 140 with respect to the selected word (step S240).

以上のように、本第3の実施形態によれば、選択情報入出力部124aは、同義語を抽出する対象の語の選択を受け付けるので、ノイズとなりうる同義語を含む語を除くことができ、ユーザにとって望ましい検索結果を得ることができるという効果が得られる。 As described above, according to the third embodiment, the selection information input / output unit 124a accepts the selection of the target word for extracting the synonyms, so that the words including the synonyms that may cause noise can be excluded. , The effect that the desired search result can be obtained for the user can be obtained.

第4の実施形態
図19は、第4の実施形態に係る編集装置100のクエリ編集部180の機能構成を示すブロック図である。第4の実施形態に係る編集装置100は、図2に示した第1の実施形態に係る編集装置100が備えるクエリ編集部120の代わりに、クエリ編集部180を備える。クエリ編集部180以外については、第4の実施形態に係る編集装置100は、図2と同様の構成を有する。
Fourth Embodiment FIG. 19 is a block diagram showing a functional configuration of the query editing unit 180 of the editing apparatus 100 according to the fourth embodiment. The editing device 100 according to the fourth embodiment includes a query editing unit 180 instead of the query editing unit 120 included in the editing device 100 according to the first embodiment shown in FIG. Except for the query editing unit 180, the editing device 100 according to the fourth embodiment has the same configuration as that of FIG.

クエリ編集部180は、図6に示したクエリ編集部120の構成に加えて選択情報入出力部124bを備える。 The query editing unit 180 includes a selection information input / output unit 124b in addition to the configuration of the query editing unit 120 shown in FIG.

選択情報入出力部124bは、同義語抽出部122により抽出された同義語のうち、クエリの編集に用いる語の選択を受け付ける機能を有する。すなわち、選択情報入出力部124bは、同義語抽出部122により抽出された同義語のうち、クエリに含める語を、ユーザが選択するための情報を出力する。よって、選択情報入出力部124bは、抽出された関連語のうちテキストデータに含める関連語を選択するための情報を出力する出力手段を担う。 The selection information input / output unit 124b has a function of accepting selection of a word used for editing a query among synonyms extracted by the synonym extraction unit 122. That is, the selection information input / output unit 124b outputs information for the user to select a word to be included in the query among the synonyms extracted by the synonym extraction unit 122. Therefore, the selection information input / output unit 124b serves as an output means for outputting information for selecting a related word to be included in the text data from the extracted related words.

図20は、クエリ編集部180の動作を示すフローチャートである。クエリ編集部180は、クエリ解析部121、同義語抽出部122、同義語追加部123については、それぞれ図20において図7と同一符号で示した動作S111、S112、S113と同じ動作を行うので、それらの詳細な説明については省略する。 FIG. 20 is a flowchart showing the operation of the query editing unit 180. The query editing unit 180 performs the same operations as the operations S111, S112, and S113 shown by the same reference numerals as those in FIG. 20 for the query analysis unit 121, the synonym extraction unit 122, and the synonym addition unit 123, respectively. A detailed description of them will be omitted.

選択情報入出力部124bは、抽出された同義語を、選択可能に表示する(S250)。図21は、選択情報入出力部124bにより表示された編集画面181の一例を示す図である。図21に示すように、選択情報入出力部124bは、編集画面181に、同義語を抽出した語182と、同義語抽出の結果183とを表示する。 The selection information input / output unit 124b displays the extracted synonyms in a selectable manner (S250). FIG. 21 is a diagram showing an example of the editing screen 181 displayed by the selection information input / output unit 124b. As shown in FIG. 21, the selection information input / output unit 124b displays the synonym-extracted word 182 and the synonym-extracted result 183 on the edit screen 181.

同義語抽出の結果183には、抽出された同義語184と、それに対応付けられたチェックボックス185とが含まれる。チェックボックス185は、チェックボックス174と同様に、ユーザによりクリックされると、対応付けられた語が、同義語として選択されたこととなる。 The result of synonym extraction 183 includes the extracted synonyms 184 and the check boxes 185 associated thereto. When the check box 185 is clicked by the user like the check box 174, the associated word is selected as a synonym.

ユーザは、同義語抽出の結果から、クエリの編集に用いる語を選択し、それに対応付けられたチェックボックス185をチェックし、実行ボタン113を押下する(S260においてYes)。ユーザは、例えば検索の結果に含まれるノイズを削減するように同義語を選択することができる。 The user selects a word to be used for editing the query from the result of synonym extraction, checks the check box 185 associated with the check box 185, and presses the execute button 113 (Yes in S260). The user can select synonyms, for example, to reduce noise in the search results.

選択情報入出力部124bは、選択された語を取得し、同義語追加部123に通知する。同義語追加部123は、通知された同義語を用いて、クエリを編集する(S113)。 The selection information input / output unit 124b acquires the selected word and notifies the synonym addition unit 123. The synonym addition unit 123 edits the query using the notified synonyms (S113).

以上のように、本第4の実施形態によれば、選択情報入出力部124bは、同義語抽出部122により抽出された同義語のうち、クエリに含める同義語の選択を受け付けるので、ノイズとなりうる同義語を除くことができ、ユーザにとって望ましい検索結果を得ることができるという効果が得られる。 As described above, according to the fourth embodiment, the selection information input / output unit 124b accepts the selection of synonyms to be included in the query among the synonyms extracted by the synonym extraction unit 122, which causes noise. It is possible to exclude synonyms, and it is possible to obtain a search result desirable for the user.

第5の実施形態
図22は、第5の実施形態に係る編集装置100のクエリ編集部190の機能構成を示すブロック図である。第5の実施形態に係る編集装置100は、図2に示した第1の実施形態に係る編集装置100が備えるクエリ編集部120の代わりに、クエリ編集部190を備える。クエリ編集部190以外については、第5の実施形態に係る編集装置100は、図2と同様の構成を有する。
Fifth Embodiment FIG. 22 is a block diagram showing a functional configuration of the query editing unit 190 of the editing apparatus 100 according to the fifth embodiment. The editing device 100 according to the fifth embodiment includes a query editing unit 190 instead of the query editing unit 120 included in the editing device 100 according to the first embodiment shown in FIG. Except for the query editing unit 190, the editing device 100 according to the fifth embodiment has the same configuration as that of FIG.

クエリ編集部190は、第3の実施形態における選択情報入出力部124aと、第4の実施形態における選択情報入出力部124bとを備える。すなわち、本第5の実施形態に係る編集装置100のクエリ編集部190は、第3の実施形態におけるクエリ編集部170と、第4の実施形態におけるクエリ編集部180を組み合わせた機能を有する。 The query editing unit 190 includes a selection information input / output unit 124a in the third embodiment and a selection information input / output unit 124b in the fourth embodiment. That is, the query editing unit 190 of the editing device 100 according to the fifth embodiment has a function of combining the query editing unit 170 in the third embodiment and the query editing unit 180 in the fourth embodiment.

図23Aは、選択情報入出力部124aにより表示された編集画面191aの一例を示す図である。編集画面191aは、図18に示した編集画面171と同様の内容を示す。ユーザは、同義語抽出の候補172から、対象の語を選択し、チェックボックス174をチェックし、実行ボタン113を押下する。選択情報入出力部124aは、選択された語を取得し、同義語抽出部122に通知する。同義語抽出部122は、第3の実施形態で説明したように、選択された語に関して、同義語を抽出する。 FIG. 23A is a diagram showing an example of the editing screen 191a displayed by the selection information input / output unit 124a. The edit screen 191a shows the same contents as the edit screen 171 shown in FIG. The user selects a target word from the synonym extraction candidates 172, checks the check box 174, and presses the execute button 113. The selection information input / output unit 124a acquires the selected word and notifies the synonym extraction unit 122. The synonym extraction unit 122 extracts synonyms with respect to the selected word, as described in the third embodiment.

図23Bは、選択情報入出力部124bにより表示された編集画面191bの一例を示す図である。図23Bに示すように、編集画面191bは、図23Aに示した編集画面191aの情報に加えて、同義語抽出の結果183を有する。同義語抽出の結果183は、同義語抽出部122により抽出された同義語である。ユーザは、同義語抽出の結果183から、クエリの編集に用いる語を選択し、実行ボタン113を押下する。選択情報入出力部124bは、選択された語を取得し、同義語追加部123に通知する。同義語追加部123は、通知された同義語を用いて、クエリを編集する。 FIG. 23B is a diagram showing an example of the editing screen 191b displayed by the selection information input / output unit 124b. As shown in FIG. 23B, the edit screen 191b has the result of synonym extraction 183 in addition to the information of the edit screen 191a shown in FIG. 23A. The result of synonym extraction 183 is a synonym extracted by the synonym extraction unit 122. The user selects a word to be used for editing the query from the result of extracting synonyms 183, and presses the execute button 113. The selection information input / output unit 124b acquires the selected word and notifies the synonym addition unit 123. The synonym addition unit 123 edits the query using the notified synonyms.

以上のように、本第5の実施形態によれば、選択情報入出力部124aは、同義語を抽出する対象の語の選択を受け付け、選択情報入出力部124bは、抽出された同義語のうち、クエリに含める語の選択を受け付ける。よって、ノイズとなりうる同義語、および、その同義語を含む語を除くことができ、ユーザにとってより望ましい検索結果を得ることができるという効果が得られる。 As described above, according to the fifth embodiment, the selection information input / output unit 124a accepts the selection of the target word for which the synonym is to be extracted, and the selection information input / output unit 124b is the extracted synonym. Of these, accept the selection of words to be included in the query. Therefore, it is possible to exclude synonyms that may cause noise and words that include the synonyms, and it is possible to obtain an effect that more desirable search results can be obtained for the user.

第6の実施形態
第6の実施形態に係る編集装置は、第5の実施形態に係る編集装置100と同様の構成を備える。すなわち、第6の実施形態に係る編集装置は、図22に示したクエリ編集部190を備えた編集装置100である。ただし、第6の実施形態に係るクエリ編集部190の同義語抽出部122は、同義語が、文書記憶部140に記憶された文書において出現した回数(以降、「出現回数」と称する)をカウントする機能を有する。
Sixth Embodiment The editing apparatus according to the sixth embodiment has the same configuration as the editing apparatus 100 according to the fifth embodiment. That is, the editing device according to the sixth embodiment is the editing device 100 provided with the query editing unit 190 shown in FIG. 22. However, the synonym extraction unit 122 of the query editing unit 190 according to the sixth embodiment counts the number of times the synonym appears in the document stored in the document storage unit 140 (hereinafter referred to as "appearance number"). Has the function of

図24は、同義語抽出の対象の語と、その語について同義語抽出部122により抽出された同義語と、その同義語の出現回数の例を示す図である。同義語抽出部122は、ある同義語を抽出するごとに、その出現回数をカウントアップし、同義語ごとにトータルの出現回数を保持しておく。 FIG. 24 is a diagram showing an example of a word to be extracted as a synonym, a synonym extracted by the synonym extraction unit 122 for the word, and the number of appearances of the synonym. The synonym extraction unit 122 counts up the number of appearances each time a certain synonym is extracted, and holds the total number of appearances for each synonym.

図25は、選択情報入出力部124bにより表示された編集画面192の一例を示す図である。図25に示すように、編集画面192は、図23Bに示した編集画面191bの情報に加えて、同義語抽出の出現回数の結果186を有する。 FIG. 25 is a diagram showing an example of the editing screen 192 displayed by the selection information input / output unit 124b. As shown in FIG. 25, the edit screen 192 has 186 results of the number of occurrences of synonym extraction, in addition to the information on the edit screen 191b shown in FIG. 23B.

ユーザは、同義語抽出の結果183からクエリの編集に用いる語を選択する際に、出現回数の結果186を参照して、選択することができる。ユーザは、クエリにおける語の重要度に応じて、出現回数の多い同義語を選択してもよいし、出現回数の少ない同義語を選択してもよい。ユーザは、語の重要度に応じた選択ルールに基づいて同義語を選択してもよい。
When selecting a word to be used for editing a query from the result 183 of the synonym extraction, the user can refer to and select the result 186 of the number of occurrences. The user may select a synonym having a large number of occurrences or a synonym having a small number of occurrences, depending on the importance of the word in the query. The user may select synonyms based on selection rules according to the importance of the word.

例えば、文書記憶部140に特許に関する公開文書が登録され、同義語を抽出した語が、クエリにより特定される技術思想の特徴を示す語である場合、ユーザは、その語に関して、相対的に出現回数の少ない同義語を選択する。一方で、出現回数の少ない同義語を選択することで、所望の文書が検索結果から漏れることもあるため、場合によっては、相対的に出現回数の多い同義語を選択してもよい。あるいは、出現回数の少ない同義語に加えて、相対的に出現回数の多い同義語も合わせて選択してもよい。 For example, when a public document relating to a patent is registered in the document storage unit 140 and a word from which a synonym is extracted is a word indicating a characteristic of a technical idea specified by a query, the user appears relatively with respect to the word. Select synonyms that are less frequent. On the other hand, by selecting a synonym with a small number of appearances, a desired document may be omitted from the search results. Therefore, in some cases, a synonym with a relatively large number of appearances may be selected. Alternatively, in addition to the synonyms that appear less frequently, synonyms that appear relatively frequently may also be selected.

これに対して、同義語を抽出した語が、クエリにより特定される技術思想の特徴を示す語でない場合、ユーザは、相対的に出現回数の多い同義語を選択する。あるいは、相対的に出現回数の少ない同義語を選択してもよい。 On the other hand, when the word from which the synonym is extracted is not a word indicating the characteristic of the technical idea specified by the query, the user selects the synonym having a relatively large number of occurrences. Alternatively, a synonym with a relatively small number of occurrences may be selected.

このように、ユーザは、クエリにより特定される技術思想と語との関係を踏まえて、同義語の出現回数に応じて同義語を選択してもよい。 In this way, the user may select a synonym according to the number of occurrences of the synonym, based on the relationship between the technical idea and the word specified by the query.

ユーザは、上述のように、クエリの編集に用いる語を選択し、それに対応付けられたチェックボックス185をチェックし、実行ボタン113を押下する。 As described above, the user selects a word to be used for editing the query, checks the check box 185 associated with the word, and presses the execute button 113.

選択情報入出力部124bは、選択された語を取得し、同義語追加部123に通知する。同義語追加部123は、通知された同義語を用いて、クエリを編集する。 The selection information input / output unit 124b acquires the selected word and notifies the synonym addition unit 123. The synonym addition unit 123 edits the query using the notified synonyms.

以上のように、本第6の実施形態によれば、選択情報入出力部124bは、抽出された同義語の出現回数を編集画面192に出力する。よって、ユーザは、クエリの内容と語との関係に応じて同義語を選択でき、ユーザにとってより望ましい検索結果を得ることができるという効果が得られる。 As described above, according to the sixth embodiment, the selection information input / output unit 124b outputs the number of occurrences of the extracted synonyms to the editing screen 192. Therefore, the user can select a synonym according to the relationship between the content of the query and the word, and the effect that a more desirable search result for the user can be obtained can be obtained.

第7の実施形態
図26は、第7の実施形態に係る編集装置200の機能構成を示すブロック図である。図26に示すように、第7の実施形態に係る編集装置200は、第1の実施形態において説明した編集装置100と同様のクエリ取得部110、クエリ出力部130および文書記憶部140を備える。編集装置200は、編集装置100のクエリ編集部120の代わりに、クエリ編集部210を備える。編集装置200は、さらに、検索結果評価部220を備える。
Seventh Embodiment FIG. 26 is a block diagram showing a functional configuration of the editing apparatus 200 according to the seventh embodiment. As shown in FIG. 26, the editing device 200 according to the seventh embodiment includes a query acquisition unit 110, a query output unit 130, and a document storage unit 140 similar to the editing device 100 described in the first embodiment. The editing device 200 includes a query editing unit 210 instead of the query editing unit 120 of the editing device 100. The editing device 200 further includes a search result evaluation unit 220.

図27は、編集装置200におけるクエリ編集部210と検索結果評価部220の機能構成を示すブロック図である。図27に示すように、クエリ編集部210は、クエリ解析部121、同義語抽出部122、同義語選択部212、同義語追加部123およびフィードバック取得部213を備える。 FIG. 27 is a block diagram showing a functional configuration of the query editing unit 210 and the search result evaluation unit 220 in the editing device 200. As shown in FIG. 27, the query editing unit 210 includes a query analysis unit 121, a synonym extraction unit 122, a synonym selection unit 212, a synonym addition unit 123, and a feedback acquisition unit 213.

また、検索結果評価部220は、検索結果取得部221、判定部222およびフィードバック部223を備える。図27において、図6に示す構成と同一要素には同一符号を付し、その詳細な説明は省略する。 Further, the search result evaluation unit 220 includes a search result acquisition unit 221, a determination unit 222, and a feedback unit 223. In FIG. 27, the same elements as those shown in FIG. 6 are designated by the same reference numerals, and detailed description thereof will be omitted.

第7の実施形態に係る編集装置200は、クエリ編集部210により編集されたクエリを用いた検索の結果を、クエリにフィードバックする機能を有する。 The editing device 200 according to the seventh embodiment has a function of feeding back the search result using the query edited by the query editing unit 210 to the query.

同義語選択部212は、同義語抽出部122により抽出された同義語のうち、1または複数を選択する。同義語選択部212は、例えば、同義語をランダムに、1または複数の同義語の組を選択すればよい。よって、同義語選択部212は、クエリ編集部210に含まれる同義語抽出部122により抽出された関連語のうち1または複数の関連語を選択する関連語選択手段を担う。 The synonym selection unit 212 selects one or more of the synonyms extracted by the synonym extraction unit 122. The synonym selection unit 212 may, for example, randomly select one or a plurality of synonym sets for synonyms. Therefore, the synonym selection unit 212 serves as a related word selection means for selecting one or a plurality of related words among the related words extracted by the synonym extraction unit 122 included in the query editing unit 210.

フィードバック取得部213は、検索結果評価部220のフィードバック部223から、検索結果のフィードバックを取得する。 The feedback acquisition unit 213 acquires feedback of the search result from the feedback unit 223 of the search result evaluation unit 220.

検索結果取得部221は、検索装置150において実行された検索の結果を取得する。判定部222は、上記取得された検索の結果が、基準を満たすか否かを判定する。フィードバック部223は、検索の結果が、基準を満たさない場合、クエリ編集部210にクエリの編集を再度行うことを指示する。 The search result acquisition unit 221 acquires the result of the search executed by the search device 150. The determination unit 222 determines whether or not the acquired search result satisfies the criteria. If the search result does not meet the criteria, the feedback unit 223 instructs the query editing unit 210 to edit the query again.

図28は、クエリ編集部210の動作を示すフローチャートである。クエリ編集部210のクエリ解析部121、同義語抽出部122および同義語追加部123については、それぞれ図28において図7と同一符号で示した動作S111、S112およびS113と同じ動作を行うので、それらの詳細な説明については省略する。 FIG. 28 is a flowchart showing the operation of the query editing unit 210. The query analysis unit 121, the synonym extraction unit 122, and the synonym addition unit 123 of the query editing unit 210 perform the same operations as the operations S111, S112, and S113 shown by the same reference numerals as those in FIG. 28, respectively. The detailed explanation of is omitted.

同義語選択部212は、同義語抽出部122により抽出された同義語のうち、1または複数を選択する(S213)。同義語選択部212は、同義語をランダムに選択すればよい。同義語追加部123は、同義語選択部212により選択された同義語を用いてクエリを編集する(S113)。ここで、この編集により得られたクエリを、「クエリ1」と称する。 The synonym selection unit 212 selects one or more of the synonyms extracted by the synonym extraction unit 122 (S213). The synonym selection unit 212 may randomly select synonyms. The synonym addition unit 123 edits the query using the synonyms selected by the synonym selection unit 212 (S113). Here, the query obtained by this editing is referred to as "query 1".

「クエリ1」は、クエリ出力部130により、図12に例示したように配線またはネットワークを介して接続された検索装置150に出力される。検索装置150は、「クエリ1」を用いて検索を実行する。 The "query 1" is output by the query output unit 130 to the search device 150 connected via wiring or a network as illustrated in FIG. The search device 150 executes a search using "query 1".

図29は、検索結果評価部220の動作を示すフローチャートである。図29を参照して、検索結果評価部220の動作について説明する。検索結果評価部220は、検索結果取得部221において、検索装置150から検索結果を取得する(S221)。 FIG. 29 is a flowchart showing the operation of the search result evaluation unit 220. The operation of the search result evaluation unit 220 will be described with reference to FIG. 29. The search result evaluation unit 220 acquires search results from the search device 150 in the search result acquisition unit 221 (S221).

図30は、「クエリ1」と「検索結果1」の一例を示す図である。「クエリ1」では、図5に示したように入力されたクエリに対して、「レーザダイオード」、「コリメート光」との同義語が追加された例を示す。「検索結果1」は、「クエリ1」を用いた検索の結果、関連文書として抽出された文書に関する情報を含む。図30に示す結果には、1位からN(Nは整数)位までの順位を付されたN件の文書に関する情報が示されている。ここでは、「スコア」が高いほど高い順位が付されていることを示す。「スコア」とは、クエリ1とN件の文書の類似度に関する指標である。スコアが高いほど、クエリ1と文書の類似度が高くなるように、スコアが計算される。スコアの計算方法は、TF(Term Frequency)-IDF(Inverse Document Frequency)等の手法により文書に含まれる語の重要度を評価した上で計算する方法などを用いることができる。 FIG. 30 is a diagram showing an example of “query 1” and “search result 1”. "Query 1" shows an example in which synonyms "laser diode" and "colimated light" are added to the query input as shown in FIG. The "search result 1" includes information about a document extracted as a related document as a result of a search using "query 1". The results shown in FIG. 30 show information about N documents ranked from 1st to N (N is an integer). Here, it is shown that the higher the "score" is, the higher the ranking is. The "score" is an index regarding the similarity between query 1 and N documents. The higher the score, the higher the similarity between Query 1 and the document. As a method for calculating the score, a method can be used in which the importance of the words contained in the document is evaluated by a method such as TF (Term Frequency) -IDF (Inverse Assessment Frequency).

文書に関する情報には、例えば、公開番号、登録番号、出願番号、出願人、発明の名称、出願日、公開日が含まれてよい。 Information about the document may include, for example, publication number, registration number, application number, applicant, title of invention, filing date, publication date.

図31は、X軸を、検索結果に含まれる文書に付された順位、Y軸を、スコアとしたX-Y座標に、検索結果1に含まれる各文書の順位とスコアをプロットした図である。 FIG. 31 is a diagram in which the rank and score of each document included in the search result 1 are plotted on the XY coordinates with the X-axis as the rank attached to the documents included in the search result and the Y-axis as the score. be.

上記のように検索結果が取得されると、判定部222は、その結果が基準を満たすかどうかを判定する(S222)。ここで、編集装置100には、予め基準が保持されている。基準は任意でよく、例えば、最高スコアに関する基準や、あるスコア以上の文書の件数に関する基準であってよい。具体的には、「順位が1位の文書のスコアが80以上」という基準や、「スコアが70以上の文書が10件以上ある」という基準であってもよい。 When the search result is acquired as described above, the determination unit 222 determines whether or not the result satisfies the criterion (S222). Here, the editing device 100 holds a reference in advance. The criteria may be arbitrary, for example, a criterion regarding the highest score or a criterion regarding the number of documents having a certain score or higher. Specifically, the criteria may be "the score of the document with the highest ranking is 80 or more" or "there are 10 or more documents with the score of 70 or more".

例えば基準が「順位が1位の文書のスコアが80以上」であるとき、図31に示した検索結果1では、順位が1位の文書のスコアが「65.3」であるため、基準を満たさない。この場合、判定部222は、検索結果は基準を満たさないと判定する(S222においてNo)。そして、フィードバック部223が、クエリ編集部210に、同義語の再選択を指示する(S223)。 For example, when the criterion is "the score of the document with the first rank is 80 or more", in the search result 1 shown in FIG. 31, the score of the document with the first rank is "65.3", so the criterion is set. Not satisfied. In this case, the determination unit 222 determines that the search result does not satisfy the criteria (No in S222). Then, the feedback unit 223 instructs the query editing unit 210 to reselect synonyms (S223).

クエリ編集部210は、上記指示をフィードバック取得部213において取得する。フィードバック取得部213は、上記指示を取得すると、同義語選択部212に対して、同義語の再選択を指示する。同義語選択部212は、上記指示に応じて、同義語の再選択を行う。このとき、同義語選択部212は、すでに選択した同義語とは異なる同義語を選択する。同義語選択部212は、すでに選択した同義語とすべて異なる同義語の組を選択してもよいし、一部が異なる同義語の組を選択してもよいし、すでに選択した複数の同義語の一部を削除してもよい。同義語追加部123は、同義語選択部212により選択された同義語を用いてクエリを編集する。この編集により得られたクエリを「クエリ2」と称する。 The query editing unit 210 acquires the above instruction in the feedback acquisition unit 213. When the feedback acquisition unit 213 acquires the above instruction, the feedback acquisition unit 213 instructs the synonym selection unit 212 to reselect the synonym. The synonym selection unit 212 reselects synonyms in response to the above instructions. At this time, the synonym selection unit 212 selects a synonym different from the already selected synonym. The synonym selection unit 212 may select a set of synonyms that are all different from the already selected synonyms, may select a set of synonyms that are partially different, or may select a plurality of already selected synonyms. You may delete a part of. The synonym addition unit 123 edits the query using the synonyms selected by the synonym selection unit 212. The query obtained by this editing is referred to as "query 2".

図32は、「クエリ2」と「検索結果2」の一例を示す図である。「クエリ2」では、図5に示したように入力されたクエリに対して、「ダイオードレーザ」、「戻り光」との同義語が追加された例を示す。「検索結果2」は、「クエリ2」を用いた検索の結果を示す。 FIG. 32 is a diagram showing an example of “query 2” and “search result 2”. "Query 2" shows an example in which synonyms "diode laser" and "return light" are added to the query input as shown in FIG. "Search result 2" indicates the result of a search using "query 2".

図33は、図31と同様に、検索結果1と検索結果2をX-Y座標にプロットした結果を示す図である。上記と同様に、基準が「順位が1位の文書のスコアが80以上」であるとき、判定部222は、検索結果2は基準を満たすと判定する(S222においてYes)。 FIG. 33 is a diagram showing the results of plotting the search result 1 and the search result 2 on the XY coordinates, as in the case of FIG. 31. Similarly to the above, when the criterion is "the score of the document having the first rank is 80 or more", the determination unit 222 determines that the search result 2 satisfies the criterion (Yes in S222).

このように、本実施形態では、検索結果が基準を満たすまで、同義語の選択とクエリの編集が繰り返され、検索結果が基準を満たすと、クエリの編集は終了する。 As described above, in the present embodiment, the selection of synonyms and the editing of the query are repeated until the search result meets the criteria, and when the search result meets the criteria, the editing of the query ends.

以上のように、本第7の実施形態によれば、検索結果評価部220は、同義語が追加されたクエリを用いた検索の結果が基準を満たすか否かを判定し、満たさない場合は、クエリ編集部210にクエリの編集を指示する。クエリ編集部210は、検索の結果が基準を満たすまで、追加した同義語と異なる同義語を追加してクエリを編集する。したがって、本実施形態によれば、ユーザが同義語を選択することなく、基準を満たす検索の結果を得ることができるという効果が得られる。 As described above, according to the seventh embodiment, the search result evaluation unit 220 determines whether or not the search result using the query to which the synonym is added satisfies the criteria, and if not, the search result evaluation unit 220 determines whether or not the search result satisfies the criteria. , Instruct the query editorial unit 210 to edit the query. The query editing unit 210 edits the query by adding synonyms different from the added synonyms until the search result meets the criteria. Therefore, according to the present embodiment, there is an effect that the search result satisfying the criteria can be obtained without the user selecting a synonym.

第8の実施形態
図34は、第8の実施形態に係る編集装置100のクエリ編集部310の機能構成を示すブロック図である。第8の実施形態に係る編集装置100は、図2に示した第1の実施形態に係る編集装置100が備えるクエリ編集部120の代わりに、クエリ編集部310を備える。クエリ編集部310以外については、第8の実施形態に係る編集装置100は、図2と同様の構成を有する。
Eighth Embodiment FIG. 34 is a block diagram showing a functional configuration of the query editing unit 310 of the editing apparatus 100 according to the eighth embodiment. The editing device 100 according to the eighth embodiment includes a query editing unit 310 instead of the query editing unit 120 included in the editing device 100 according to the first embodiment shown in FIG. Except for the query editing unit 310, the editing device 100 according to the eighth embodiment has the same configuration as that of FIG.

クエリ編集部310は、第1の実施形態で説明したクエリ解析部121、同義語抽出部122、同義語追加部123に加えて、クエリ評価部311を備える。クエリ評価部311は、点数算出部312および同義語選択部212を備える。本実施形態では、主に、クエリ評価部311について説明する。 The query editing unit 310 includes a query evaluation unit 311 in addition to the query analysis unit 121, the synonym extraction unit 122, and the synonym addition unit 123 described in the first embodiment. The query evaluation unit 311 includes a score calculation unit 312 and a synonym selection unit 212. In this embodiment, the query evaluation unit 311 will be mainly described.

クエリ評価部311の点数算出部312は、クエリ解析部121による解析の結果に基づいて、クエリの点数を算出する。同義語選択部212は、第7の実施形態において説明した同義語選択部212と同様の機能を有する。 The score calculation unit 312 of the query evaluation unit 311 calculates the query score based on the result of the analysis by the query analysis unit 121. The synonym selection unit 212 has the same function as the synonym selection unit 212 described in the seventh embodiment.

ここで、一般に、語が包含する意味(概念)の範囲に応じて、語間で上位下位関係が生じる場合がある。上位語(上位概念を示す語)は、下位語(下位概念を示す語)よりも、包含する概念が広い。 Here, in general, a higher-lower relationship may occur between words depending on the range of meanings (concepts) included in the words. A hypernym (a word indicating a superordinate concept) has a wider concept to be included than a subordinate word (a word indicating a subordinate concept).

例えば、「認識」という語と、「画像認識」という語では、「認識」が上位語、「画像認識」が下位語と、関係付けられる。 For example, in the word "recognition" and the word "image recognition", "recognition" is associated with a hypernym and "image recognition" is associated with a hyponym.

ここで、検索に用いられるクエリに、相対的に上位語が多く含まれる場合、検索される範囲が広がることによりユーザが探したい文書とは関連しない文書も検索結果に含まれる場合がある。そこで、本実施形態では、クエリに含まれる上位語の割合が基準より多い場合、クエリを編集することを説明する。 Here, when the query used for the search contains a relatively large number of hypernyms, the search result may include documents that are not related to the document that the user wants to search by expanding the search range. Therefore, in the present embodiment, it will be described that the query is edited when the ratio of the hypernyms included in the query is larger than the standard.

本実施形態では、単語を上位語、複合語を下位語と仮定する。上記の例では、「認識」は単語であり上位語、「画像認識」は複合語であり下位語である。ここで、単語は、文法上、意味をもつ最小の言語単位、複合語は、二つ以上の単語が結合されてできた語とする。複合語は、文法上は単語であるが、ここでは「単語」と「複合語」とを区別して扱う。 In this embodiment, it is assumed that a word is a hypernym and a compound word is a hyponym. In the above example, "recognition" is a word and a hypernym, and "image recognition" is a compound word and a hyponym. Here, a word is a grammatically minimum linguistic unit that has meaning, and a compound word is a word formed by combining two or more words. A compound word is a word in grammar, but here, "word" and "compound word" are treated separately.

クエリに含まれる「単語数+複合語数」に対する「複合語数」の割合が少ないほど、上位語が多く含まれることとなる。本実施形態では、このような場合に、クエリに編集する。 The smaller the ratio of "the number of compound words" to "the number of words + the number of compound words" included in the query, the more hypernyms are included. In this embodiment, in such a case, the query is edited.

図35は、クエリ評価部311の動作を示すフローチャートである。図35を参照して、クエリ評価部311の動作について説明する。 FIG. 35 is a flowchart showing the operation of the query evaluation unit 311. The operation of the query evaluation unit 311 will be described with reference to FIG. 35.

クエリ評価部311は、クエリ解析部121からクエリの解析結果を取得する(S310)。クエリ評価部311は、第1の実施形態における図8のようなクエリの解析の結果を取得したとする。 The query evaluation unit 311 acquires the analysis result of the query from the query analysis unit 121 (S310). It is assumed that the query evaluation unit 311 has acquired the result of the query analysis as shown in FIG. 8 in the first embodiment.

クエリ評価部311の点数算出部312は、取得した結果に含まれる、「単語数+複合語数」に対する「複合語数」の割合を、クエリの点数αとして算出する(S320)。 The score calculation unit 312 of the query evaluation unit 311 calculates the ratio of the "composite word number" to the "word number + compound word number" included in the acquired result as the query score α (S320).

図8に示す例では、例えば、「半導体レーザ」、「平行光」、「反射光」、「光路」、「光検出部」を複合語とし、「光源」、「出射」、「レーザ」、「光」、「レンズ」、「ディスク」、「上」、「集」、「光」、「する」、「元」、「戻り」、「検出」を単語とする。 In the example shown in FIG. 8, for example, "semiconductor laser", "parallel light", "reflected light", "light path", and "light detector" are compound words, and "light source", "emission", and "laser" are used. The words "light", "lens", "disc", "top", "collection", "light", "do", "original", "return", and "detection".

この場合、単語と複合語の数の合計は「18」であり、複合語数は「5」である。したがって、点数算出部312は、点数α=5/18を算出する。なお、点数の算出には、助詞を除いて計算する。 In this case, the total number of words and compound words is "18", and the number of compound words is "5". Therefore, the score calculation unit 312 calculates the score α = 5/18. The score is calculated excluding particles.

ここで、点数算出部312は、点数αに関する基準を予め保持している。点数算出部312は、点数αが基準を満たすか否かを判断する(S330)。例えば、「単語数+複合語数」における「複合語数」が半数より多いという基準を設ける場合、「点数α>0.5」という基準を設定できる。 Here, the score calculation unit 312 holds in advance a reference regarding the score α. The score calculation unit 312 determines whether or not the score α satisfies the standard (S330). For example, when setting a standard that the "number of compound words" in "the number of words + the number of compound words" is more than half, the standard of "score α> 0.5" can be set.

点数αが基準を満たさない場合、点数算出部312は、同義語選択部212に同義語の選択を指示する。同義語選択部212は、同義語抽出部122により抽出されている同義語から、任意に同義語を選択する(S340)。 If the score α does not meet the criteria, the score calculation unit 312 instructs the synonym selection unit 212 to select a synonym. The synonym selection unit 212 arbitrarily selects a synonym from the synonyms extracted by the synonym extraction unit 122 (S340).

同義語選択部212は、選択した同義語を、同義語追加部123に通知する。同義語追加部123は、通知された同義語をクエリに追加する。 The synonym selection unit 212 notifies the synonym addition unit 123 of the selected synonym. The synonym addition unit 123 adds the notified synonym to the query.

なお、同義語の選択は、上述のように同義語選択部212により選択することに限定されず、第3の実施形態、第4の実施形態および第5の実施形態で示したようにユーザの選択を受け付けてもよい。例えば、点数算出部312は、クエリの点数が基準を満たさない場合、第3の実施形態、第4の実施形態および第5の実施形態で示したようにユーザの選択を受け付けてもよい。 The selection of synonyms is not limited to selection by the synonym selection unit 212 as described above, and as shown in the third embodiment, the fourth embodiment and the fifth embodiment, the user You may accept your choice. For example, if the score of the query does not meet the criteria, the score calculation unit 312 may accept the user's selection as shown in the third embodiment, the fourth embodiment, and the fifth embodiment.

以上のように、本第8の実施形態によれば、クエリ評価部311は、クエリに含まれる複合語数の割合が基準より少ない場合、クエリに同義語を追加するので、検索の精度を向上させることができるという効果が得られる。 As described above, according to the eighth embodiment, the query evaluation unit 311 adds synonyms to the query when the ratio of the number of compound words included in the query is smaller than the standard, thereby improving the accuracy of the search. The effect of being able to do is obtained.

第9の実施形態
図36は、第9の実施形態に係る編集装置100のクエリ編集部320の機能構成を示すブロック図である。第9の実施形態に係る編集装置100のクエリ編集部320は、図34に示したクエリ編集部310が備えるクエリ評価部311の代わりに、クエリ評価部330を備える。クエリ評価部311以外については、クエリ編集部320は、図34と同様の構成を有する。
Ninth Embodiment FIG. 36 is a block diagram showing a functional configuration of the query editing unit 320 of the editing apparatus 100 according to the ninth embodiment. The query editing unit 320 of the editing device 100 according to the ninth embodiment includes a query evaluation unit 330 instead of the query evaluation unit 311 included in the query editing unit 310 shown in FIG. 34. The query editing unit 320 has the same configuration as that of FIG. 34 except for the query evaluation unit 311.

クエリ評価部330は、類義語情報生成部331、点数算出部332および同義語選択部212を備える。類義語情報生成部331は、文書記憶部140から、クエリ解析部121により得られた単語または複合語の類義語を抽出する。類義語の抽出には、既知の手法が用いられてもよい。例えば、非特許文献2に記載の手法を用いることができる。なお、助詞は、類義語抽出の対象としない。 The query evaluation unit 330 includes a synonym information generation unit 331, a score calculation unit 332, and a synonym selection unit 212. The synonym information generation unit 331 extracts synonyms of words or compound words obtained by the query analysis unit 121 from the document storage unit 140. Known techniques may be used to extract synonyms. For example, the method described in Non-Patent Document 2 can be used. Particles are not subject to synonym extraction.

図37は、構文パターンの一例を示す図である。図37では、「CCC」および「DDD」という表記を、語の例として用いている。図37に例示するような構文パターンでは、「CCC」、「DDD」という語について、「CCC」を下位語、「DDD」を上位語と関係付けることができる。 FIG. 37 is a diagram showing an example of a syntax pattern. In FIG. 37, the notations "CCC" and "DDD" are used as examples of words. In the syntactic pattern as illustrated in FIG. 37, for the words "CCC" and "DDD", "CCC" can be associated with a hyponym and "DDD" can be associated with a hypernym.

クエリ解析部121の解析により「CCC」という語が抽出されたとする。類義語情報生成部331は、文書記憶部140に、図37に示すような構文パターン、例えば「CCCというDDD」といった構文パターンがある場合、「DDD」を「CCC」の類義語として抽出すると共に、「CCC」を下位語、「DDD」を上位語と関係付ける。なお、図37のような構文パターンを用いた上位下位の関係に限らず、包含する概念の広さ(抽象度)に基づいて、上位、中位、下位の関係、あるいはそれ以上の関係(以降、「階層関係」とも称する)を定めることもできる。 It is assumed that the word "CCC" is extracted by the analysis of the query analysis unit 121. When the document storage unit 140 has a synonym pattern as shown in FIG. 37, for example, a synonym pattern such as "DDD called CCC", the synonym information generation unit 331 extracts "DDD" as a synonym for "CCC" and "" "CCC" is associated with a subordinate word, and "DDD" is associated with a hypernym. It should be noted that the relationship is not limited to the upper-lower relationship using the syntax pattern as shown in FIG. 37, but is a higher-level, middle-level, lower-level relationship, or a higher relationship (hereinafter, based on the breadth of the concept to be included). , Also referred to as "hierarchical relationship").

なお、上位語は、下位語よりも、抽象度が高い。下位語は、上位語よりも具象化された語であるといえる。 The hypernym has a higher degree of abstraction than the hyponym. Hyponyms can be said to be more embodied words than hypernyms.

類義語情報生成部331は、上記のような類義語の抽出と、相互の階層関係の抽出を、クエリ文解析部121により得られた単語または複合語について実行する。実行された結果を含む情報を、類義語情報と称する。 The synonym information generation unit 331 executes the above-mentioned extraction of synonyms and the extraction of mutual hierarchical relationships for the words or compound words obtained by the query sentence analysis unit 121. Information including the result of execution is referred to as synonym information.

図38は、類義語情報生成部331により生成された類義語情報の一例を示す。類義語情報生成部331は、生成した類義語情報を点数算出部332に通知する。 FIG. 38 shows an example of synonym information generated by the synonym information generation unit 331. The synonym information generation unit 331 notifies the score calculation unit 332 of the generated synonym information.

点数算出部332は、取得した類義語情報に基づいて、クエリの点数を算出する。点数算出部332は、まず、クエリ文解析部121により得られた助詞を除くそれぞれの語に、抽出された類義語の階層の深さ、すなわち抽象度に応じた点数を付与する。具体的には、抽出された類義語の階層が深い、すなわち抽象度が低い(具象度が高い)ほど、点数が高くなるように、それぞれの語に点数を付与する。階層の深さとは、語の抽象度に応じて階層化した際の抽象度の度合いを示す。階層が深い(下)の語ほど相対的に下位の語を示し、点数が高くなるように点数付けされる。 The score calculation unit 332 calculates the query score based on the acquired synonym information. First, the score calculation unit 332 assigns a score according to the depth of the hierarchy of the extracted synonyms, that is, the degree of abstraction, to each word excluding the particles obtained by the query sentence analysis unit 121. Specifically, a score is given to each word so that the deeper the hierarchy of the extracted synonyms, that is, the lower the degree of abstraction (the higher the degree of concreteness), the higher the score. The depth of the hierarchy indicates the degree of abstraction when the word is layered according to the abstraction level. Words with a deeper hierarchy (lower) indicate relatively lower words, and are scored so that the score is higher.

例えば、クエリに「認識」という語が含まれていた場合に、「パターン認識」、「画像認識」、「音声認識」という類義語が、図38のような階層関係で抽出されたとする。すなわち、「認識」が上位語、「パターン認識」が中位語、「画像認識」および「音声認識」が下位語という階層関係が抽出されたとする。この場合、点数算出部332は、これらの語の階層の深さを「3」、すなわち3階層と判断する。そして、点数算出部332は、例えば、上位語である「認識」に「10」、中位語である「パターン認識」に「20」、下位語である「画像認識」および「音声認識」に「30」という点数を付与する。 For example, suppose that when the query includes the word "recognition", the synonyms "pattern recognition", "image recognition", and "speech recognition" are extracted in a hierarchical relationship as shown in FIG. 38. That is, it is assumed that a hierarchical relationship is extracted in which "recognition" is a hypernym, "pattern recognition" is a middle word, and "image recognition" and "speech recognition" are hyponyms. In this case, the score calculation unit 332 determines that the depth of the hierarchy of these words is "3", that is, three layers. Then, the score calculation unit 332 uses, for example, "10" for the hypernym "recognition", "20" for the middle word "pattern recognition", and "image recognition" and "speech recognition" for the hyponyms. A score of "30" is given.

クエリに含まれる単語または複合語のうち類義語が抽出されない語については「10」と付与してもよい。また、2階層で類義語が抽出された語については、上位語に「10」、下位語に「20」と付与してもよい。 Of the words or compound words included in the query, words for which synonyms are not extracted may be given "10". Further, for words from which synonyms are extracted in the second layer, "10" may be given to the hypernym and "20" may be given to the hyponym.

このように、類義語情報生成部331は、文書記憶部140に記憶された文書に含まれる語に基づいて、シソーラスデータベースを作成し、点数算出部332は、それに基づいて点数を付与する。この場合、クエリに含まれる語に対して、文書記憶部140に基づく相対的な点数付与ができる。あるいは、点数算出部332は、既存のシソーラスデータベースに基づいて点数を付与してもよい。この場合、より絶対的な点数付けができる。 As described above, the synonym information generation unit 331 creates a thesaurus database based on the words included in the document stored in the document storage unit 140, and the score calculation unit 332 assigns points based on the thesaurus database. In this case, relative points can be given to the words included in the query based on the document storage unit 140. Alternatively, the score calculation unit 332 may give a score based on the existing thesaurus database. In this case, a more absolute score can be given.

そして、点数算出部332は、上記のように語に付与した点数を合計することによりクエリの点数を算出する。なお、すべての語の類義語が文書記憶部140から抽出されなかった場合のクエリの合計点を基準として、上記のように類義語が抽出された語に関して階層が深いほど高い点数が付与された場合のクエリの合計点の割合を算出してもよい。第7の実施形態の点数算出部312と同様に、点数算出部332は、基準を予め保持しており、上記点数や割合が基準を満たさない場合、同義語選択部212に同義語の選択を指示する。 Then, the score calculation unit 332 calculates the score of the query by totaling the scores given to the words as described above. In addition, based on the total score of the query when the synonyms of all the words are not extracted from the document storage unit 140, the higher the hierarchy is, the higher the score is given to the words from which the synonyms are extracted as described above. You may calculate the percentage of total points in the query. Similar to the score calculation unit 312 of the seventh embodiment, the score calculation unit 332 holds the standard in advance, and when the above score or ratio does not meet the standard, the synonym selection unit 212 selects a synonym. Instruct.

同義語選択部212は、同義語抽出部122により抽出された任意の同義語を選択してもよい。あるいは、上記のように付与された点数が相対的に低い語の同義語を選択してもよい。あるいは、上記のように、類義語情報生成部331により抽出された類義語を選択してもよい。このとき、例えば、クエリに含まれる語より下位語である類義語(具象化された関連語)を選択してもよい。同義語選択部212は、選択した同義語または類義語を、同義語追加部123に通知する。同義語追加部123は、通知された同義語または類義語をクエリに追加する。同義語追加部123は、通知された同義語または類義語で、クエリに含まれる語を置き換えてもよい。 The synonym selection unit 212 may select any synonym extracted by the synonym extraction unit 122. Alternatively, a synonym of a word having a relatively low score as described above may be selected. Alternatively, as described above, the synonyms extracted by the synonym information generation unit 331 may be selected. At this time, for example, a synonym (concrete related word) that is a subordinate word may be selected from the word included in the query. The synonym selection unit 212 notifies the synonym addition unit 123 of the selected synonym or synonym. The synonym addition unit 123 adds the notified synonym or synonym to the query. The synonym addition unit 123 may replace the word included in the query with the notified synonym or synonym.

以上のように、本第9の実施形態によれば、クエリ評価部330は、クエリに含まれる語と、その語の類義語とに基づいて語の各々の抽象度を決定し、決定した各々の語の抽象度から得られたクエリの抽象度が基準より大きい場合、クエリに同義語または類義語を追加するので、検索の精度を向上させることができるという効果が得られる。 As described above, according to the ninth embodiment, the query evaluation unit 330 determines the degree of abstraction of each word based on the word included in the query and the synonyms of the word, and each of the determined words. If the degree of abstraction of the query obtained from the degree of abstraction of the word is larger than the standard, synonyms or synonyms are added to the query, which has the effect of improving the accuracy of the search.

第10の実施形態
図39は、第10の実施形態に係る編集装置400の機能構成を示すブロック図である。図37に示すように、編集装置400は、取得部410および編集部420を備える。取得部410は、1以上の語を含むテキストデータを取得する。編集部420は、テキストデータを用いた検索の対象である1以上の文書から、取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、該抽出した関連語を含めて検索が実行されるようにテキストデータを編集する。
The tenth embodiment FIG. 39 is a block diagram showing a functional configuration of the editing device 400 according to the tenth embodiment. As shown in FIG. 37, the editing device 400 includes an acquisition unit 410 and an editing unit 420. The acquisition unit 410 acquires text data including one or more words. The editorial unit 420 extracts related words for at least one word included in the acquired text data from one or more documents to be searched using the text data, and the search is executed including the extracted related words. Edit the text data so that it is done.

上記構成を採用することにより、第9の実施形態によれば、テキストデータの属人性を抑え、検索の精度のばらつきを抑えることができるという効果が得られる。 By adopting the above configuration, according to the ninth embodiment, it is possible to obtain the effect that the personality of the text data can be suppressed and the variation in the accuracy of the search can be suppressed.

以上、上述した実施形態を参照して本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、種々の上記開示要素の多様な組み合わせ乃至選択など、当業者が理解し得る様々な態様を適用することができる。 The present invention has been described above with reference to the above-described embodiments. However, the invention is not limited to the embodiments described above. That is, the present invention can be applied to various aspects that can be understood by those skilled in the art, such as various combinations or selections of various disclosed elements within the scope of the present invention.

上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。 Some or all of the above embodiments may also be described, but not limited to:

(付記1) 1以上の語を含むテキストデータを取得する取得手段と、
前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する編集手段と
を備えた編集装置。
(Appendix 1) Acquisition means for acquiring text data containing one or more words, and
Related words are extracted from one or more documents to be searched using the text data for at least one word included in the acquired text data, and the search is executed including the extracted related words. An editing device provided with an editing means for editing the text data.

(付記2)
前記文書は、所定の技術領域に関する文書である
付記1記載の編集装置。
(Appendix 2)
The editing device according to Appendix 1, wherein the document is a document relating to a predetermined technical area.

(付記3)
前記編集手段は、前記文書の所定の項目に関わる文から、前記関連語を抽出する
付記1または付記2記載の編集装置。
(Appendix 3)
The editing means according to Appendix 1 or Appendix 2 for extracting the related word from a sentence related to a predetermined item of the document.

(付記4)
前記所定の項目を選択するための情報を出力する出力手段をさらに備え、
前記編集手段は、前記文書の、選択された所定の項目に関わる文から、前記関連語を抽出する
付記3記載の編集装置。
(Appendix 4)
Further provided with an output means for outputting information for selecting the predetermined item,
The editing device according to Appendix 3, wherein the editing means extracts the related word from a sentence related to a selected predetermined item in the document.

(付記5)
前記取得したテキストデータに含まれる少なくとも1つの語に対して、前記関連語を抽出するか否かを選択するための情報を出力する出力手段をさらに備え、
前記編集手段は、前記関連語を抽出することを選択された語について前記関連語を抽出する
付記1ないし付記4のいずれか1項記載の編集装置。
(Appendix 5)
Further, an output means for outputting information for selecting whether or not to extract the related word is provided for at least one word included in the acquired text data.
The editing device according to any one of Supplementary note 1 to Supplementary note 4, wherein the editing means extracts the related word from the word selected to extract the related word.

(付記6)
前記抽出された関連語のうち前記テキストデータに含める関連語を選択するための情報を出力する出力手段をさらに備え、
前記編集手段は、前記選択された関連語を含めて検索が実行されるように前記テキストデータを編集する
付記1ないし付記5のいずれか1項記載の編集装置。
(Appendix 6)
Further provided with an output means for outputting information for selecting a related word to be included in the text data from the extracted related words.
The editing device according to any one of Supplementary note 1 to Supplementary note 5, wherein the editing means edits the text data so that the search is executed including the selected related word.

(付記7)
前記編集手段により抽出された関連語のうち1または複数の関連語を選択する関連語選択手段をさらに備え、
前記編集手段は、前記関連語選択手段により選択された関連語を含むテキストデータを用いて実行された検索の結果を取得し、前記関連語選択手段が選択した前記関連語とは異なる関連語を前記関連語選択手段から取得して、当該異なる関連語を含めて検索が実行されるように前記テキストデータを編集する
付記1ないし付記6のいずれか1項記載の編集装置。
(Appendix 7)
Further provided with a related word selection means for selecting one or more related words from the related words extracted by the editing means.
The editing means acquires the result of a search executed using text data including the related word selected by the related word selection means, and obtains a related word different from the related word selected by the related word selection means. The editing device according to any one of Supplementary note 1 to Supplementary note 6, which is obtained from the related word selection means and edits the text data so that the search is executed including the different related words.

(付記8)
前記編集手段は、前記取得した検索の結果のスコアが基準を満たさない場合、前記関連語選択手段が選択した前記関連語とは異なる関連語を前記関連語選択手段から取得して、当該異なる関連語を含めて検索が実行されるように前記テキストデータを編集する
付記7記載の編集装置。
(Appendix 8)
When the score of the result of the acquired search does not meet the criteria, the editing means acquires a related word different from the related word selected by the related word selection means from the related word selection means, and obtains the different association. The editing device according to Appendix 7, which edits the text data so that the search including words is executed.

(付記9)
前記編集手段は、前記テキストデータに含まれる語の数のうち複合語の数の割合が基準に満たない場合、前記抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する
付記1ないし付記8のいずれか1項記載の編集装置。
(Appendix 9)
The editing means edits the text data so that the search is executed including the extracted related words when the ratio of the number of compound words to the number of words included in the text data does not meet the standard. The editing device according to any one of Supplementary note 1 to Supplementary note 8.

(付記10)
前記編集手段は、前記テキストデータに含まれる語と、当該語について抽出した前記関連語とに基づいて決定された前記語の各々の抽象度に基づいて、前記関連語のうち、前記テキストデータに含まれる語より具象化された関連語を含めて検索が実行されるように前記テキストデータを編集する
付記1ないし付記9のいずれか1項記載の編集装置。
(Appendix 10)
The editing means applies to the text data among the related words based on the degree of abstraction of each of the words determined based on the words included in the text data and the related words extracted for the words. The editing device according to any one of Supplementary note 1 to Supplementary note 9, which edits the text data so that the search is executed including related words embodied from the included words.

(付記11)
1以上の語を含むテキストデータを取得し、
前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する
編集方法。
(Appendix 11)
Get text data containing one or more words,
Related words are extracted from one or more documents to be searched using the text data for at least one word included in the acquired text data, and the search is executed including the extracted related words. An editing method for editing the text data.

(付記12)
1以上の語を含むテキストデータを取得する処理と、
前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する処理と
を、コンピュータに実行させる編集プログラム。
(Appendix 12)
The process of acquiring text data containing one or more words,
Related words are extracted from one or more documents to be searched using the text data for at least one word included in the acquired text data, and the search is executed including the extracted related words. An editing program that causes a computer to perform the process of editing the text data.

10 コンピュータ装置
11 プロセッサ
14 記憶装置
15 入出力インタフェース
16 バス
17 ドライブ装置
18 プログラム
19 周辺機器
20 記録媒体
100 編集装置
110 クエリ取得部
120 クエリ編集部
121 クエリ解析部
122 同義語抽出部
123 同義語追加部
124a 選択情報入出力部
124b 選択情報入出力部
130 クエリ出力部
140 文書記憶部
150 検索装置
10 Computer device 11 Processor 14 Storage device 15 Input / output interface 16 Bus 17 Drive device 18 Program 19 Peripheral device 20 Recording medium 100 Editing device 110 Query acquisition unit 120 Query editing unit 121 Query analysis unit 122 Synonymous word extraction unit 123 Synonymous word addition unit 124a Selection information input / output unit 124b Selection information input / output unit 130 Query output unit 140 Document storage unit 150 Search device

Claims (9)

1以上の語を含むテキストデータを取得する取得手段と、
前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する編集手段と
を備え
前記編集手段は、前記文書の所定の項目に関わる文から、前記関連語を抽出する
編集装置。
An acquisition method for acquiring text data containing one or more words,
Related words are extracted from one or more documents to be searched using the text data for at least one word included in the acquired text data, and the search is executed including the extracted related words. Is equipped with an editing means for editing the text data .
The editing means extracts the related word from a sentence related to a predetermined item of the document.
Editing device.
前記文書は、所定の技術領域に関する文書である
請求項1記載の編集装置。
The editing device according to claim 1, wherein the document is a document relating to a predetermined technical area.
前記所定の項目を選択するための情報を出力する出力手段をさらに備え、
前記編集手段は、前記文書の、選択された所定の項目に関わる文から、前記関連語を抽出する
請求項1または請求項2記載の編集装置。
Further provided with an output means for outputting information for selecting the predetermined item,
The editing device according to claim 1 or 2 , wherein the editing means extracts the related word from a sentence related to a selected predetermined item in the document.
前記取得したテキストデータに含まれる少なくとも1つの語に対して、前記関連語を抽出するか否かを選択するための情報を出力する出力手段をさらに備え、
前記編集手段は、前記関連語を抽出することを選択された語について前記関連語を抽出する
請求項1ないし請求項のいずれか1項記載の編集装置。
Further, an output means for outputting information for selecting whether or not to extract the related word is provided for at least one word included in the acquired text data.
The editing device according to any one of claims 1 to 3 , wherein the editing means extracts the related word from the word selected to extract the related word.
前記抽出された関連語のうち前記テキストデータに含める関連語を選択するための情報を出力する出力手段をさらに備え、
前記編集手段は、前記選択された関連語を含めて検索が実行されるように前記テキストデータを編集する
請求項1ないし請求項のいずれか1項記載の編集装置。
Further provided with an output means for outputting information for selecting a related word to be included in the text data from the extracted related words.
The editing device according to any one of claims 1 to 4 , wherein the editing means edits the text data so that the search is executed including the selected related word.
前記編集手段により抽出された関連語のうち1または複数の関連語を選択する関連語選択手段をさらに備え、
前記編集手段は、前記関連語選択手段により選択された関連語を含むテキストデータを用いて実行された検索の結果を取得し、前記関連語選択手段が選択した前記関連語とは異なる関連語を前記関連語選択手段から取得して、当該異なる関連語を含めて検索が実行されるように前記テキストデータを編集する
請求項1ないし請求項のいずれか1項記載の編集装置。
Further provided with a related word selection means for selecting one or more related words from the related words extracted by the editing means.
The editing means acquires the result of a search executed using text data including the related word selected by the related word selection means, and obtains a related word different from the related word selected by the related word selection means. The editing device according to any one of claims 1 to 5 , which is obtained from the related word selection means and edits the text data so that the search is executed including the different related words.
前記編集手段は、前記テキストデータに含まれる語の数のうち複合語の数の割合が基準に満たない場合、前記抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する
請求項1ないし請求項のいずれか1項記載の編集装置。
The editing means edits the text data so that the search is executed including the extracted related words when the ratio of the number of compound words to the number of words included in the text data does not meet the standard. The editing device according to any one of claims 1 to 6 .
コンピュータが、
1以上の語を含むテキストデータを取得し、
前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について、前記文書の所定の項目に関わる文から関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する
編集方法。
The computer
Get text data containing one or more words,
For at least one word contained in the acquired text data, related words were extracted from the sentences related to a predetermined item of the document from one or more documents to be searched using the text data, and the extracted words were extracted. An editing method for editing the text data so that the search is executed including related words.
1以上の語を含むテキストデータを取得する処理と、
前記テキストデータを用いた検索の対象である1以上の文書から、前記取得したテキストデータに含まれる少なくとも1つの語について、前記文書の所定の項目に関わる文から関連語を抽出し、該抽出した関連語を含めて検索が実行されるように前記テキストデータを編集する処理と
を、コンピュータに実行させる編集プログラム。
The process of acquiring text data containing one or more words,
For at least one word contained in the acquired text data, related words were extracted from the sentences related to a predetermined item of the document from one or more documents to be searched using the text data, and the extracted words were extracted. An editing program that causes a computer to perform a process of editing the text data so that a search including related words is executed.
JP2018040970A 2018-03-07 2018-03-07 Editing device, editing method and editing program Active JP7050533B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018040970A JP7050533B2 (en) 2018-03-07 2018-03-07 Editing device, editing method and editing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018040970A JP7050533B2 (en) 2018-03-07 2018-03-07 Editing device, editing method and editing program

Publications (2)

Publication Number Publication Date
JP2019159396A JP2019159396A (en) 2019-09-19
JP7050533B2 true JP7050533B2 (en) 2022-04-08

Family

ID=67992546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018040970A Active JP7050533B2 (en) 2018-03-07 2018-03-07 Editing device, editing method and editing program

Country Status (1)

Country Link
JP (1) JP7050533B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020537A (en) 1998-07-01 2000-01-21 Nec Corp Text retrieving device and computer-readable recording medium having recorded text retrieving program thereon
JP2002123551A (en) 2000-10-17 2002-04-26 Canon Inc Device and method for information retrieval, and storage medium
JP2006190023A (en) 2005-01-05 2006-07-20 Canon Inc Electronic document management device
JP2014106665A (en) 2012-11-27 2014-06-09 Hitachi Ltd Document retrieval device and document retrieval method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10289241A (en) * 1997-04-14 1998-10-27 Canon Inc Image processor and its control method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020537A (en) 1998-07-01 2000-01-21 Nec Corp Text retrieving device and computer-readable recording medium having recorded text retrieving program thereon
JP2002123551A (en) 2000-10-17 2002-04-26 Canon Inc Device and method for information retrieval, and storage medium
JP2006190023A (en) 2005-01-05 2006-07-20 Canon Inc Electronic document management device
JP2014106665A (en) 2012-11-27 2014-06-09 Hitachi Ltd Document retrieval device and document retrieval method

Also Published As

Publication number Publication date
JP2019159396A (en) 2019-09-19

Similar Documents

Publication Publication Date Title
Kuzman et al. Automatic genre identification: a survey
KR101723862B1 (en) Apparatus and method for classifying and analyzing documents including text
RU2639655C1 (en) System for creating documents based on text analysis on natural language
US20080162115A1 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
Krishnaveni et al. Automatic text summarization by local scoring and ranking for improving coherence
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
WO2004001570A1 (en) Method for describing existing data by a natural language and program for that
JP4967133B2 (en) Information acquisition apparatus, program and method thereof
JP2004021445A (en) Text data analysis system, text data analysis method and computer program
JPH0484271A (en) Intra-information retrieval device
Jaafar et al. Towards a new hybrid approach for abstractive summarization
Hoeber et al. Visualization support for interactive query refinement
JP7050533B2 (en) Editing device, editing method and editing program
Neri et al. Mining the Web to monitor the Political Consensus
KR101835994B1 (en) Method and apparatus of providing searching service for electronic books
JP4401269B2 (en) Parallel translation judgment device and program
US20220138407A1 (en) Document Writing Assistant with Contextual Search Using Knowledge Graphs
KR101755437B1 (en) Method for machine-translating Korean into other languages by using Lexico Semantic Pattern
JP2003108584A (en) Information retrieving system and program
Renteria-Agualimpia et al. Exploring the advances in semantic search engines
Maarek Automatically constructing simple help systems from natural language documentation
JP2004220226A (en) Document classification method and device for retrieved document
Limani et al. Bringing scientific blogs to digital libraries
JP2012022443A (en) Apparatus, method and program for searching document
Gupta et al. A survey of existing question answering techniques for Indian languages

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210215

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20211110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220329

R150 Certificate of patent or registration of utility model

Ref document number: 7050533

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150