JP4721344B2 - 単語検索装置、単語検索方法及びプログラム - Google Patents

単語検索装置、単語検索方法及びプログラム Download PDF

Info

Publication number
JP4721344B2
JP4721344B2 JP2005372859A JP2005372859A JP4721344B2 JP 4721344 B2 JP4721344 B2 JP 4721344B2 JP 2005372859 A JP2005372859 A JP 2005372859A JP 2005372859 A JP2005372859 A JP 2005372859A JP 4721344 B2 JP4721344 B2 JP 4721344B2
Authority
JP
Japan
Prior art keywords
word
character
words
evaluation value
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005372859A
Other languages
English (en)
Other versions
JP2007172539A (ja
Inventor
秀夫 伊東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2005372859A priority Critical patent/JP4721344B2/ja
Publication of JP2007172539A publication Critical patent/JP2007172539A/ja
Application granted granted Critical
Publication of JP4721344B2 publication Critical patent/JP4721344B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、入力された単語に類似した単語を予め記憶された単語群の中から検索し、類似度順に提示することが可能な単語検索装置、単語検索方法びプログラムに関する。
従来、このような単語検索を行うための検索装置としては、入力された検索対象の単語を基に、予め記憶されている単語群を検索し、入力された単語と、記憶されている単語とに共通する文字の数に基づいて類似度の評価値を求め、評価値の大きい順にランキング表示するようにしたものがある(特許文献1参照)。
特開平10−232877号公報
しかしながら、上記従来の検索装置では、共通な文字数に基づいて、入力された単語と記憶されている単語との類似度の評価値を求めているため、共通な文字数を多く含む単語程評価値が高くなるため、必ずしも入力された単語と類似した単語が検索されるとは限らないという問題がある。
本発明は、このような問題を解決するためになされたものであり、その目的は、入力された単語に類似した単語を予め記憶された単語群の中から検索し、類似度順に提示するときに、入力された単語と記憶された単語との共通な文字数に基づく検索よりも精度の高い検索を可能にすることである。
請求項1の発明は、複数の単語を記憶する単語記憶と、複数の文字と、該文字毎に、前記複数の単語のうち前記文字を含む単語を関連付けて記憶する単語索引と、入力された検索対象である単語中の文字毎に、該文字に関連付けられた単語の数を、前記単語索引部を参照することで文字頻度として算出する文字頻度算出部と、該算出された文字頻度に応じて該文字の評価値を算出する文字評価値算出と、該算出された評価値を用いて、前記入力された単語中の文字を含む前記単語記憶部に記憶される単語の類似度を算出する単語類似度算出と、を備えたことを特徴とする単語検索装置である。
請求項2の発明は、請求項1記載の単語検索装置において、前記単語記憶部に記憶される前記複数の単語は、該単語毎に単語IDが対応して記憶され、前記単語索引部に記憶される文字に関連付けられた単語は、前記単語IDを用いて関連付けられることを特徴とする単語検索装置である
請求項3の発明は、請求項1または2に記載の単語検索装置において、前記文字評価値算出部は、文字頻度が小さい程高い評価値を与えることを特徴とする単語検索装置である。
請求項4の発明は、請求項1乃至3のいずれか一項に記載の単語検索装置において、前記文字評価値算出部は、前記文字頻度および前記単語記憶部に記憶された単語の総数に基づいて評価値を算出することを特徴とする単語検索装置である。
請求項5の発明は、請求項1乃至4のいずれか一項に記載の単語検索装置において、前記検索対象である単語を入力する単語入力部をさらに備えることを特徴とする単語検索装置である。
請求項6の発明は、複数の単語を記憶する単語記憶部と、複数の文字と、該文字毎に、前記複数の単語のうち前記文字を含む単語を関連付けて記憶する単語索引部とを備えた単語検索装置における単語検索方法であって、入力された検索対象である単語中の文字毎に、該文字に関連付けられた単語の数を、前記単語索引部を参照することで文字頻度として算出する文字頻度算出工程と、該算出された文字頻度に応じて該文字の評価値を算出する文字評価値算出工程と、該算出された評価値を用いて、前記入力された単語中の文字を含む前記単語記憶部に記憶される単語の類似度を算出する単語類似度算出工程と、を備えたことを特徴とする単語検索方法である。
請求項7の発明は、複数の単語を記憶する単語記憶部と、複数の文字と、該文字毎に、前記複数の単語のうち前記文字を含む単語を関連付けて記憶する単語索引部とを備えた単語検索装置のコンピュータを、入力された検索対象である単語中の文字毎に、該文字に関連付けられた単語の数を、前記単語索引部を参照することで文字頻度として算出する文字頻度算出部と、該算出された文字頻度に応じて該文字の評価値を算出する文字評価値算出部と、該算出された評価値を用いて、前記入力された単語中の文字を含む前記単語記憶部に記憶される単語の類似度を算出する単語類似度算出部と、して機能させるためのプログラムである。
本発明によれば、入力された単語に類似した単語を予め記憶された単語群の中から検索し、類似度順に提示するときに、入力された単語中の文字頻度に応じて類似度を算出することにより、文字頻度の大小を類似度に反映させることができるので、共通な文字数に基づく検索よりも精度の高い検索が可能となる。
以下、本発明の実施形態について図面を参照しながら詳細に説明する。
図1は、本発明の実施形態の単語検索装置の構成を示すブロック図である。この単語検索装置1は、制御装置2と、それぞれ制御装置2に接続された操作装置3、表示装置4、及び記憶装置5からなる。
制御装置2は、各種演算処理を実行するCPU(Central Processing Unit)2A、CPU2Aの演算処理時に使用される各種プログラムが格納されたROM(Read Only Memory)2B、及びCPU2Aの演算処理時に各種データが一時的に記憶されるRAM(Random Access Memory)2Cを備え、この単語検索装置1全体の制御等を行う。操作装置3は、この単語検索装置1を動作させるために各種操作情報を入力するためのキーボード,タッチパネル等である。表示装置5は、操作装置3によって各種操作入力を行なうときの操作ガイダンスやその操作結果、及びその他のメッセージの表示等を行うCRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)等である。記憶装置6は、ハードディスク装置等の大容量記憶装置からなり、検索対象となる単語群、その検索のために必要な各種データ、及び検索結果等が記憶される。
図2は本発明の実施形態の単語検索装置の機能ブロック図である。この図おいて、単語記憶部11は、単語をその単語ID(Identification:識別子)に対応させて記憶する手段であり、記憶装置5により実現される。単語索引部12は、単語記憶部11に記憶されている単語の文字毎にその文字を含む単語の単語IDを記憶する手段であり、記憶装置5により実現される。入力部13は、検索対象となる単語を入力し、記憶するための手段であり、入力装置3及び制御装置2により実現される。検索部14は、単語記憶部11に記憶されている単語群の中から入力部13に記憶された単語に含まれている文字を含む単語を取り出し、後述する手順により、入力部13に記憶されている単語に対する単語記憶部11から取り出した単語の類似度を算出すると共に、類似度の高い順にその単語の単語IDを後述する検索バッファ部15に出力する手段であり、制御装置2により実現される。検索バッファ部15は、検索部14から出力された、入力部13に記憶されている単語と類似度の高い単語の単語IDを類似度順に記憶する手段であり、制御装置2のRAM2Cにより実現される。表示部16は、検索バッファ部15に記憶されている単語IDに対応する単語を単語記憶部11から読み出し、類似度順に表示する手段であり、制御装置2及び表示装置4により実現される。
次に、以上の構成を備えた単語検索装置の動作について、図3のフローチャートを参照しながら説明する。
まず、入力部13に検索対象の単語が入力され、記憶される(ステップST1)。ここでは、検索対象として、単語「文書検索」が入力されたものとする。単語「文書検索」が記憶されると、検索部14は、単語「文書検索」に含まれている文字である「文」、「書」、「検」、「索」を順次取り出す(ステップST2)。
次いで、検索部14は、単語索引部12を参照することにより、文字「文」、「書」、「検」、「索」を含む単語の単語IDのリストを取り出す(ステップST3)。ここでは、図4に示すように、文字「文」及び「書」については単語1、単語4、単語5、文字「検」及び「索」ついては単語2、単語3、からなるリストが取り出されたものとする。これらの単語IDに対応する単語は単語記憶部11に記憶されており、本実施形態では、図5に示されている。
次に、検索部14は、以上のようにして取り出した単語1〜5が、入力された検索対象の単語である「文書検索」に類似している度合(類似度)を算出する。この算出は、大別して二つのステップからなる。一つ目のステップST4では、入力された単語「文書検索」を構成する文字「文」、「書」、「検」、「索」の各々の評価値Sを下記の式[1]により算出する。
S=log(N/F+1)・・・式[1]
この式において、Nは単語記憶部11に記憶されている単語の総数であり、Fは評価値Sの算出対象文字を含む単語の総数である。以下、Fを文字頻度と言う。本実施形態の場合、図4より、文字「文」、「書」、「検」、「索」の各々の文字頻度は、それぞれ「3」、「3」、「2」、「2」である。この評価値Sは、単語記憶部11に記憶されている単語の総数Nに対し、評価値の算出対象である文字の文字頻度が小さい程大きくなる。従って、一般的な文字或いはありふれた文字よりも特殊な文字或いは珍しいも文字の方が評価値Sは大きくなる。
本実施形態では、説明を分かりやすくするために、N=5とし、5個の単語及びその単語IDは図4に示されているものとする。従って、文字「文」の評価値S(文)、及び文字「書」の評価値S(書)は、共に式[1]にN=5、F=3を代入することで、「log(5/3+1)=0.42」となる。また、文字「検」の評価値S(検)、及び文字「索」の評価値S(索)は、共に式[1]にN=5、F=2を代入することで、「log(5/2+1)=0.54」となる。
このようにして、各文字の評価値を算出した後、二つ目のステップST5にて、単語1〜単語5の各々に含まれている文字に対して、S(文)、S(書)、S(検)、S(索)の総計を求めることにより、単語1〜単語5の類似度Uを算出する。
本実施形態の場合、単語1(「文書管理」)の類似度U(1)は、「U(1)=S(文)+S(書)=0.42+0.42=0.84」である。同様に、単語4(「文書」)及び単語5(「文書保管」)の類似度U(4)及びU(5)は何れも「S(文)+S(書)=0.84」 である。一方、単語2(「類似検索」)及び単語3(「検索」)の類似度U(2)及びU(3)は何れも「S(検)+S(索)=0.54+0.54=1.08」である。
次に、検索部14は、単語1〜5の類似度U(1)〜U(5)を類似度の高い順に並べて検索バッファ部15に出力する(ステップST6)。ここでは、「U(2)=U(3)>U(1)=U(4)=U(5)」 であるから、単語2及び3が同値で1位、単語1、4、5が同値で3位となる。
次いで表示部16は、検索バッファ部15に記憶されている単語1〜5に対応する単語を単語記憶部11から読み出し、検索バッファ部15に記憶されている類似度の高い順に表示する(ステップST7)。ここでは、単語「類似検索」及び「検索」が同値の1位で表示され、単語「文書管理」、「文書」、及び「文書保管」が同値の3位で表示される。なお、従来装置により類似度を算出した場合は、検索対象である「文書検索」と、単語1〜5との間の共通文字数は何れも2個であるから、単語1〜5の類似度は同一となる。
このように、本実施形態によれば、検索対象の単語に含まれている文字を含む単語を取り出し、その文字を含む単語数が少ない(文字頻度が小さい)程その文字に大きな評価値を与え、その評価値を基に、その文字を含む単語の類似度を算出するので、検索対象の単語に含まれている文字のうち、一般的な文字よりも特殊な文字を含む単語により高い類似度を与えることができる。このため、共通な文字数に基づいて類似度を算出する従来装置に比べ、検索対象の単語の特徴に近い単語を検索結果のランキングの上位に提示することができる。
なお、以上の実施形態では、図3のフローチャートにおいて、検索部14が検索バッファ部15に類似度の高い順に単語IDを書き込み、表示部16がその単語IDに対応する単語を単語記憶部11から読み出し、表示するものとしたが、検索部14が検索バッファ部15に類似度の高い順に単語を書き込み、表示部16がその単語を読み出し、表示するように構成してもよい。
本発明の実施形態の単語検索装置の構成を示すブロック図である。 本発明の実施形態の単語検索装置の機能ブロック図である。 本発明の実施形態の単語検索装置の動作を示すフローチャートである。 本発明の実施形態において単語索引部から単語リストを取り出す処理を説明するための図である。 本発明の実施形態の単語記憶部の記憶内容を示す図である。 本発明の実施形態において単語IDとその単語の類似度の評価値との関係を示す図である。
符号の説明
1・・・単語検索装置、2・・・制御装置、2A・・・CPU、2B・・・ROM、2C・・・RAM、3・・・操作装置、4・・・表示装置、5・・・記憶装置、11・・・単語記憶部、12・・・単語索引部、13・・・入力部、14・・・検索部、15・・・検索バッファ部、16・・・表示部。

Claims (7)

  1. 複数の単語を記憶する単語記憶と、
    複数の文字と、該文字毎に、前記複数の単語のうち前記文字を含む単語を関連付けて記憶する単語索引と、
    入力された検索対象である単語中の文字毎に、該文字に関連付けられた単語の数を、前記単語索引部を参照することで文字頻度として算出する文字頻度算出部と、
    該算出された文字頻度に応じて該文字の評価値を算出する文字評価値算出と、
    該算出された評価値を用いて、前記入力された単語中の文字を含む前記単語記憶部に記憶される単語の類似度を算出する単語類似度算出と、
    を備えたことを特徴とする単語検索装置。
  2. 請求項1記載の単語検索装置において、
    前記単語記憶部に記憶される前記複数の単語は、該単語毎に単語IDが対応して記憶され、前記単語索引部に記憶される文字に関連付けられた単語は、前記単語IDを用いて関連付けられることを特徴とする単語検索装置。
  3. 請求項1または2に記載の単語検索装置において、
    前記文字評価値算出部は、文字頻度が小さい程高い評価値を与えることを特徴とする単語検索装置
  4. 請求項1乃至3のいずれか一項に記載の単語検索装置において、
    前記文字評価値算出部は、前記文字頻度および前記単語記憶部に記憶された単語の総数に基づいて評価値を算出することを特徴とする単語検索装置。
  5. 請求項1乃至4のいずれか一項に記載の単語検索装置において、
    前記検索対象である単語を入力する単語入力部をさらに備えることを特徴とする単語検索装置。
  6. 複数の単語を記憶する単語記憶部と、複数の文字と、該文字毎に、前記複数の単語のうち前記文字を含む単語を関連付けて記憶する単語索引部とを備えた単語検索装置における単語検索方法であって、
    入力された検索対象である単語中の文字毎に、該文字に関連付けられた単語の数を、前記単語索引部を参照することで文字頻度として算出する文字頻度算出工程と、
    該算出された文字頻度に応じて該文字の評価値を算出する文字評価値算出工程と、
    該算出された評価値を用いて、前記入力された単語中の文字を含む前記単語記憶部に記憶される単語の類似度を算出する単語類似度算出工程と、
    を備えたことを特徴とする単語検索方法。
  7. 複数の単語を記憶する単語記憶部と、複数の文字と、該文字毎に、前記複数の単語のうち前記文字を含む単語を関連付けて記憶する単語索引部とを備えた単語検索装置のコンピュータを、
    入力された検索対象である単語中の文字毎に、該文字に関連付けられた単語の数を、前記単語索引部を参照することで文字頻度として算出する文字頻度算出部と、
    該算出された文字頻度に応じて該文字の評価値を算出する文字評価値算出部と、
    該算出された評価値を用いて、前記入力された単語中の文字を含む前記単語記憶部に記憶される単語の類似度を算出する単語類似度算出部と、
    して機能させるためのプログラム。
JP2005372859A 2005-12-26 2005-12-26 単語検索装置、単語検索方法及びプログラム Active JP4721344B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005372859A JP4721344B2 (ja) 2005-12-26 2005-12-26 単語検索装置、単語検索方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005372859A JP4721344B2 (ja) 2005-12-26 2005-12-26 単語検索装置、単語検索方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2007172539A JP2007172539A (ja) 2007-07-05
JP4721344B2 true JP4721344B2 (ja) 2011-07-13

Family

ID=38298979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005372859A Active JP4721344B2 (ja) 2005-12-26 2005-12-26 単語検索装置、単語検索方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4721344B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5560105B2 (ja) * 2010-06-08 2014-07-23 株式会社エヌ・ティ・ティ・データ 文字列選択装置、文字列選択方法およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274701A (ja) * 1993-03-22 1994-09-30 N T T Data Tsushin Kk 単語照合装置
JPH1185776A (ja) * 1997-09-02 1999-03-30 Canon Inc 情報処理装置及びその方法、記憶媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274701A (ja) * 1993-03-22 1994-09-30 N T T Data Tsushin Kk 単語照合装置
JPH1185776A (ja) * 1997-09-02 1999-03-30 Canon Inc 情報処理装置及びその方法、記憶媒体

Also Published As

Publication number Publication date
JP2007172539A (ja) 2007-07-05

Similar Documents

Publication Publication Date Title
US9842110B2 (en) Content based similarity detection
US9477703B1 (en) Item version similarity scoring system
CN107122400A (zh) 用户查询结果的视觉提示细化
US11531693B2 (en) Information processing apparatus, method and non-transitory computer readable medium
JP6180470B2 (ja) 文章候補提示端末、文章候補提示システム、文章候補提示方法、及びプログラム
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
JP2008198132A (ja) 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置
CN109284497B (zh) 用于识别自然语言的医疗文本中的医疗实体的方法和装置
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP4721344B2 (ja) 単語検索装置、単語検索方法及びプログラム
CN107908724B (zh) 一种数据模型匹配方法、装置、设备及存储介质
JP2019061522A (ja) 文書推薦システム、文書推薦方法および文書推薦プログラム
CN111949767A (zh) 一种文本关键词的查找方法、装置、设备和存储介质
JP4972271B2 (ja) 検索結果提示装置
JP2010250389A (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
KR20170085736A (ko) 전자 출판물에 대한 정보를 생성하는 장치 및 방법
JP5400688B2 (ja) 提案仕様書作成支援方法、プログラムおよび提案仕様書作成支援装置
US7933853B2 (en) Computer-readable recording medium, apparatus and method for calculating scale-parameter
JP7131518B2 (ja) 電子機器、発音学習方法、サーバ装置、発音学習処理システムおよびプログラム
JP4574186B2 (ja) 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置
Mealand Hellenistic Greek and the New Testament: A Stylometric Perspective
JP7295463B2 (ja) 業務フロー作成支援装置、業務フロー作成支援方法、および、業務フロー作成支援プログラム
TWI716153B (zh) 檢索系統及其運作方法
JP2017097451A (ja) 情報処理方法、情報処理プログラムおよび情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081024

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110401

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110401

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4721344

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150