JP4602388B2 - 類似文検索システム及びプログラム - Google Patents
類似文検索システム及びプログラム Download PDFInfo
- Publication number
- JP4602388B2 JP4602388B2 JP2007242641A JP2007242641A JP4602388B2 JP 4602388 B2 JP4602388 B2 JP 4602388B2 JP 2007242641 A JP2007242641 A JP 2007242641A JP 2007242641 A JP2007242641 A JP 2007242641A JP 4602388 B2 JP4602388 B2 JP 4602388B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- sentence
- keyword
- unit
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
用例A1:中山がフリーキックで得点を上げた。
用例A2:そして、30分後に、中田がPKで貴重な得点をした。
検索対象文X1:「応募総数は、過去最高の415万編で、参加学校は3万校近くにのぼっている。」
用例A3:「応募総数は、過去最高の約415万編にも及んだ。」
用例A4:「国内外の参加学校数は、3万校近くにのぼっている。」。
検索対象文X2:患者40人と健常成人20名を、○○薬を使用する群としない群にそれぞれランダムに割り付けた。
用例A5:手術可能な△△疾患患者100人を、術前にXX薬を3サイクル投与後に手術を実施した群と、手術単独群にランダムに割り付けた。
用例A6:たとえば、60の工場の半数をランダムに治療群に、半数を対照群に割り付ける。
用例A7:小児をランダム化により化学療法実施群と標準的な追跡ケア群とに割り付けた。
用例データベースを記憶した記憶装置と、類似文の用例検索の検索対象文を入力するとともに操作に必要な情報を入力する入力装置と、
前記検索対象文や前記用例データベースから検索された用例を表示する表示装置と、
前記入力装置から入力された検索対象文を受け付ける検索対象入力部と、前記検索対象入力部で受け付けられた検索対象文中のキーワードの指定を受け付けるキーワード指定部と、前記検索対象入力部で受け付けられた検索対象文を構成する各語の構文・意味上の役割情報を解析する言語解析部と、前記言語解析部で解析した各語の構文・意味上の役割情報のうち前記キーワードの構文・意味上の役割情報と前記キーワードとを含む検索式を生成する検索式生成部と、前記検索式生成部で生成された検索式を用いて前記キーワードを含む用例を前記用例データベースから検索しその中から前記構文・意味上の役割情報が一致する用例を検索するデータベース検索部と、前記データベース検索部で検索された用例を前記表示装置に出力する出力部とを備えた類似文検索プログラムを演算実行するCPUとを備えることを特徴とする。
検索式:割り付け@@(fukushi _ランダム@@kan-moku_群@@(heiretu_群@@))
この一例においては、カッコが単語同士の繋がりを表しており、ローマ字で記された文字列が構文・意味上の役割情報を表している。また、記号「@@」は、キーワードが「必須」であることを示している。これらの用例と検索式は、「割り付け(fukushi _ランダム kan-moku_群(heiretu_群))」という部分が一致することで、マッチしたと判断されることとなる。
検索対象文X2:患者40人と健常成人20名を、○○薬を使用する群としない群にそれぞれランダムに割り付けた。
(用例データベース)
用例A5:手術可能な△△疾患患者100人を、術前にXX薬を3サイクル投与後に手術を実施した群と、手術単独群にランダムに割り付けた。
用例A6:たとえば、60の工場の半数をランダムに治療群に、半数を対照群に割り付けるような場合である。
用例A7:小児をランダム化により化学療法実施群と標準的な追跡ケア群とに割り付ける。
用例A8:このバイアスは、対象の選択から始まって、対象群と介入群への割り付け、曝露状態や結果の評価、データの解析などあらゆる時点で起こり得ます。
用例A9:患者を治療群と対照群の2つの群に封筒法などで無作為に割り付け、適切なサンプルサイズで比較試験を行うことが大切といえる。
キーワードをすべて「必須」として指定した場合である。すなわち、キーワードとして、「割り付け」、「群」、「ランダム」を指定し、各キーワードの優先順位には差がなく、すべてが検索結果に含まれると指定する。そうすると、検索式は以下の通りとなる。
「割り付け(必)+(副詞_ランダム(必)) +(間接目的_(群(必)_並列_群(必)))」
検索の結果、用例データベース21の5つの用例A5〜A9から、まず、必須のキーワードを含む用例A5、A6、A7が検出される。次に、この1次検索結果から、検索式と同じツリー構造を持つ用例A5と用例A6に検索結果が絞り込まれる。このように、キーワードの一致だけでなく、キーワードの文中における構文・意味上の役割情報までも考慮した検索を行うことで、検索対象文中でのキーワードの使われ方がより近い用例に絞り込んだ、効率の良い検索を行うことができる。
キーワードの優先順位、及び検出される類似文に必ず含まれるかどうかという条件を指定した場合である。指定したキーワードに加えて「患者」をキーワードに指定して、他の4つのキーワードよりも優先順位は低く、検出結果に必ずしも含まれなくてよい、という条件を指定したとする。この条件では、用例A6は「患者」を含まないが、「患者」は「必須」のキーワードではないため、用例A6は検出の対象となり、「患者」を含む用例A5よりは類似度が低くなる。このように、キーワードの指定の際に条件を指定することによって、検索の網羅度は高くしながらも、注目する言い回しの中で重要度の高い部分により焦点を当てた検索を行うことができる。
類義語辞書22を使用するよう指定した場合である。類義語辞書22を使用するよう指定すると、類義語の関係にある語同士は一致しているとみなされる。類義語辞書22の中に、「ランダム」と「無作為」とは類義語関係にある語が関連付けられているとすると、用例A9の「無作為」と「ランダム」とが同義語とみなされて、1次検索の際にも検出されるようになる。このように、類義語辞書22を用いると、キーワードと文字列としては完全一致していなくても、似た言い回しも検出することができる。
Claims (4)
- 用例データベースを記憶した記憶装置と、類似文の用例検索の検索対象文を入力するとともに操作に必要な情報を入力する入力装置と、
前記検索対象文や前記用例データベースから検索された用例を表示する表示装置と、
前記入力装置から入力された検索対象文を受け付ける検索対象入力部と、前記検索対象入力部で受け付けられた検索対象文中のキーワードの指定を受け付けるキーワード指定部と、前記検索対象入力部で受け付けられた検索対象文を構成する各語の構文・意味上の役割情報を解析する言語解析部と、前記言語解析部で解析した各語の構文・意味上の役割情報のうち前記キーワードの構文・意味上の役割情報と前記キーワードとを含む検索式を生成する検索式生成部と、前記検索式生成部で生成された検索式を用いて前記キーワードを含む用例を前記用例データベースから検索しその中から前記構文・意味上の役割情報が一致する用例を検索するデータベース検索部と、前記データベース検索部で検索された用例を前記表示装置に出力する出力部とを備えた類似文検索プログラムを演算実行するCPUとを備える類似文検索システム。 - 前記キーワード指定部は、前記入力装置から複数のキーワードの指定を受け付けたときは、受け付けたキーワードの優先順位及び検索結果に必ず含めるかどうかの条件も併せて受け付けることを特徴とする請求項1に記載の類似文検索システム。
- 特定の語に対して類義語関係にある語を関連付けて登録した類義語辞書を設け、前記キーワードに対し前記類義語辞書の使用の要求が前記入力装置からあったときは、前記データベース検索部は、前記キーワードに対して類義語関係にある語を含む用例も検索することを特徴とする請求項1または2に記載の類似文検索システム。
- 類似文検索プログラム及び用例データベースを記憶した記憶装置と、類似文の用例の検索対象文を入力するとともに操作に必要な情報を入力する入力装置と、前記検索対象文や前記用例データベースから検索された用例を表示する表示装置と、前記類似文検索プログラムを演算実行するCPUとを備えた類似文検索システムにおいて、コンピュータに、前記入力装置から入力された検索対象文を受け付ける機能と、受け付けられた検索対象文中のキーワードの指定を受け付ける機能と、受け付けられた検索対象文を構成する各語の構文・意味上の役割情報を解析する機能と、解析した各語の構文・意味上の役割情報のうち前記指定されたキーワードの構文・意味上の役割情報と前記キーワードとを含む検索式を生成する機能と、生成された検索式を用いて前記キーワードを含む用例を前記用例データベースから検索しその中から前記構文・意味上の役割情報が一致する用例を検索する機能と、検索された用例を前記表示装置に出力する機能とを実現させるための類似文検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007242641A JP4602388B2 (ja) | 2007-09-19 | 2007-09-19 | 類似文検索システム及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007242641A JP4602388B2 (ja) | 2007-09-19 | 2007-09-19 | 類似文検索システム及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009075747A JP2009075747A (ja) | 2009-04-09 |
JP4602388B2 true JP4602388B2 (ja) | 2010-12-22 |
Family
ID=40610667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007242641A Expired - Fee Related JP4602388B2 (ja) | 2007-09-19 | 2007-09-19 | 類似文検索システム及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4602388B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5527726B2 (ja) * | 2010-07-21 | 2014-06-25 | 独立行政法人情報通信研究機構 | 翻訳支援装置、翻訳支援方法、およびプログラム |
JP5699789B2 (ja) * | 2011-05-10 | 2015-04-15 | ソニー株式会社 | 情報処理装置、情報処理方法、プログラム及び情報処理システム |
JP5915274B2 (ja) * | 2012-03-09 | 2016-05-11 | 富士通株式会社 | 情報検索方法、プログラムおよび情報検索装置 |
JP2014006770A (ja) * | 2012-06-26 | 2014-01-16 | Nec Corp | 資産化装置、資産化方法および資産化プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005031950A (ja) * | 2003-07-11 | 2005-02-03 | Canon Inc | 情報検索装置、情報検索方法およびプログラム |
JP2005208825A (ja) * | 2004-01-21 | 2005-08-04 | Toshiba Corp | データ検索システム、データ検索方法及びプログラム |
JP2006058934A (ja) * | 2004-08-17 | 2006-03-02 | Toppan Printing Co Ltd | 検索システム、方法、プログラム、及びそのプログラムを記録した記録媒体 |
JP2006079366A (ja) * | 2004-09-09 | 2006-03-23 | Ricoh Co Ltd | 情報検索システム、情報検索端末、情報検索方法、並びに、プログラムおよび記録媒体 |
JP2006215717A (ja) * | 2005-02-02 | 2006-08-17 | Toshiba Corp | 情報検索装置、情報検索方法および情報検索プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2609173B2 (ja) * | 1990-03-26 | 1997-05-14 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 用例主導型機械翻訳方法 |
JPH07146878A (ja) * | 1993-11-25 | 1995-06-06 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置 |
JP3275813B2 (ja) * | 1998-01-06 | 2002-04-22 | 日本電気株式会社 | 文書検索装置、方法及び記録媒体 |
-
2007
- 2007-09-19 JP JP2007242641A patent/JP4602388B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005031950A (ja) * | 2003-07-11 | 2005-02-03 | Canon Inc | 情報検索装置、情報検索方法およびプログラム |
JP2005208825A (ja) * | 2004-01-21 | 2005-08-04 | Toshiba Corp | データ検索システム、データ検索方法及びプログラム |
JP2006058934A (ja) * | 2004-08-17 | 2006-03-02 | Toppan Printing Co Ltd | 検索システム、方法、プログラム、及びそのプログラムを記録した記録媒体 |
JP2006079366A (ja) * | 2004-09-09 | 2006-03-23 | Ricoh Co Ltd | 情報検索システム、情報検索端末、情報検索方法、並びに、プログラムおよび記録媒体 |
JP2006215717A (ja) * | 2005-02-02 | 2006-08-17 | Toshiba Corp | 情報検索装置、情報検索方法および情報検索プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2009075747A (ja) | 2009-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Clark et al. | Tydi qa: A benchmark for information-seeking question answering in ty pologically di verse languages | |
Pasha et al. | Madamira: A fast, comprehensive tool for morphological analysis and disambiguation of arabic. | |
JP3820242B2 (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
JP5699789B2 (ja) | 情報処理装置、情報処理方法、プログラム及び情報処理システム | |
JP2000513843A (ja) | 辞書に基づく品詞確率による自然言語パーザ | |
JPH1011447A (ja) | パターンに基づく翻訳方法及び翻訳システム | |
JP2010157178A (ja) | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム | |
Meyers et al. | The termolator: terminology recognition based on chunking, statistical and search-based scores | |
Chen et al. | Ranking medical terms to support expansion of lay language resources for patient comprehension of electronic health record notes: adapted distant supervision approach | |
JP2019121139A (ja) | 要約装置、要約方法、及び要約プログラム | |
JP4602388B2 (ja) | 類似文検索システム及びプログラム | |
Cossin et al. | Iam at clef ehealth 2018: Concept annotation and coding in french death certificates | |
Wróbel et al. | Transformer-based part-of-speech tagging and lemmatization for Latin | |
JP2002278949A (ja) | 表題生成装置及び方法 | |
JP2002503849A (ja) | 漢字文における単語区分方法 | |
JP2007122660A (ja) | 文書データ処理装置および文書データ処理プログラム | |
JP6689466B1 (ja) | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム | |
Granfeldt et al. | CEFLE and Direkt Profil: A new computer learner corpus in French L2 and a system for grammatical profiling | |
JP2006190072A (ja) | 自動換言装置、自動換言方法及び換言処理プログラム | |
JP5640856B2 (ja) | プログラムおよび情報処理装置 | |
Trandafili et al. | A novel document summarization system for Albanian language | |
JP7295429B2 (ja) | 文書処理プログラム、文書処理方法および文書処理装置 | |
Malireddy et al. | Gold corpus for telegraphic summarization | |
JP7302267B2 (ja) | 検索プログラム、検索方法及び検索装置 | |
WO2024004184A1 (ja) | 生成装置、生成方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100302 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100422 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100907 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100929 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131008 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4602388 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |