CN104462109B - 检索装置及检索方法 - Google Patents
检索装置及检索方法 Download PDFInfo
- Publication number
- CN104462109B CN104462109B CN201310424601.0A CN201310424601A CN104462109B CN 104462109 B CN104462109 B CN 104462109B CN 201310424601 A CN201310424601 A CN 201310424601A CN 104462109 B CN104462109 B CN 104462109B
- Authority
- CN
- China
- Prior art keywords
- character
- mentioned
- recall precision
- string
- character position
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种检索装置和检索方法,能够有效限缩字符串候选列表的数量,使得能够快速检索到目标字符串。检索装置具有:输入部、存储部、检索部、以及输出部,还具有:字符串提取部,从上述存储部提取检索前的全部字符串候选或上述检索部当前提取的字符串候选;检索效率计算部,针对还未被输入字符的每个字符位置,计算字符位置的检索效率,检索效率表示该字符位置上的字符在检索部筛选字符串候选时所起的作用大小;以及处理部,根据检索效率计算部计算出的各个字符位置的检索效率,对相应的字符位置赋予输入优先级。
Description
技术领域
本发明涉及一种能够以字符串作为关键字进行检索的检索装置和检索方法。
背景技术
现在,以字符串作为关键字进行检索的检索技术应用非常广泛,例如对网页信息的检索、车载系统中进行GPS导航时对目的地的检索等等。
在进行这样的字符串检索时,常常会根据已经输入的字符对后续的字符进行联想,在数据库中找到所有符合的数据串,形成联想候选列表,用户可以在联想候选列表中迅速找到目的字符串,从而能够减少检索时间。
但是,在车载系统中的GPS导航时手动输入字符串的情况下,有时用户由于正处于驾驶过程中从而能够用于输入字符的时间较短,或者由于联想候选列表中的候选过多而无法快速从该列表中找到目标。因此,需要能够满足用户快速检索目标的需求的检索技术。
在专利文献1(WO2010/061545)中记载了一种能够在候选列表的项目较多的情况下容易发现期望设施的技术。根据专利文献1的方法,通过将所检索到的设施中具有同一名称及同一类别的多个设施名称作为共同设施名称显示为一行,来生成简化后的列表,由此更加容易找到期望设施的效果。
另外,在专利文献2(日本特开平10-325734)中记载了一种更加容易进行目的地等输入操作的导航用输入装置。专利文献2的导航用输入装置中,在输入目的地时,利用表示任意一个字符的符号“★”与特定字符,从单词库中检索同时满足特定字符与该字符位置的目的地,将检索到的目的地作为候选加以显示。
但是,在专利文献1和专利文献2的检索技术中,都是按照当前检索时的字符输入顺序依次输入规定设施名的各个字符(或者用通用符来代替某个字符),所以还是需要依照字符的读写顺序输入各个字符。需要花费输入字符所需的时间。特别是,在这种依次输入字符的情况下,开头的几个字符一般对于整体字符串来说辨识性不高,如果碰到字符串宽度较长的情况下,在驾驶等情形中无法及时检索而影响检索装置的工作效率。
并且,如专利文献1、2这样依次输入字符串的各个字符的情况下,有时联想列表中的项目过多而无法快速找到目的地。
例如,在想要检索字符串“大连市甘井子区诚信科技发展有限公司”的情况下,在输入了“大连市甘”之后,候选列表成为如下所示的表(1),基于现有的通用数据库的显示,最后的能够联想到的候选项目的总数为476项,也就是说,即使输入了开头的四个字符,候选列表也没有有效缩减。
表(1)
大连市甘 | 井 | 子 | 区 | 政 | 协 | |||
大连市甘 | 井 | 子 | 区 | 体 | 育 | 场 | ||
大连市甘 | 井 | 子 | 区 | 少 | 年 | 宫 | ||
大连市甘 | 井 | 子 | 区 | 图 | 书 | 馆 | ||
大连市甘 | 井 | 子 | 区 | 文 | 化 | 宫 | ||
大连市甘 | … | … | … | … | … | … | … | … |
大连市甘 | … | … | … | … | … | … | … | … |
大连市甘 | … | … | … | … | … | … | … | … |
大连市甘 | 泉 | 股 | 份 | 有 | 限 | 公 | 司 | |
大连市甘 | 露 | 寺 | ||||||
大连市甘 | 草 | 杏 | 厂 | |||||
… | ||||||||
… |
发明内容
本发明是鉴于以上问题而完成的,其目的在于,提供一种检索装置和检索方法,能够有效限缩字符串候选列表的数量,使得能够快速检索到目标字符串。
本发明是一种检索装置,具有:输入部,能够以任意的字符位置的顺序输入检索用字符串;存储部,存储成为检索对象的字符串;检索部,从上述存储部中提取与上述输入部输入的字符串的字符和字符位置一致的字符串;以及输出部,输出由上述检索部提取出的字符串;其特征在于,还具有:字符串提取部,从上述存储部提取检索前的全部字符串候选或上述检索部当前提取的字符串候选;检索效率计算部,针对还未被输入字符的每个字符位置,计算字符位置的检索效率,上述检索效率表示该字符位置上的字符在检索部筛选字符串候选时所起的作用大小;以及处理部,根据上述检索效率计算部计算出的各个字符位置的检索效率,对相应的字符位置赋予输入优先级。
根据本发明,通过对字符位置赋予输入优先级,从而可以按照不同字符位置找出需要优先输入的字符位置,从而能够有效限缩字符串候选列表的数量,使得能够快速检索到目标字符串,从而大幅提高检索效率。
此外,也可以是,处理部根据字符位置被赋予的优先级,控制输入部优先输入优先级最高的字符位置上的字符,或控制输出部提示优先级最高的字符位置。
通过输入或提示检索最有效的字符位置,能够尽可能地保证用户快速容易地从候选列表中选出所需的候选项,减少用户的输入次数。
此外,也可以是,检索装置还具有字符串宽度指定部,上述字符串宽度指定部受理对检索字符串的宽度的指定,检索效率计算部仅针对被指定的字符串宽度内的字符位置进行检索效率的计算。
通过对字符串宽度进行指定,可以根据检索装置的处理能力或者应用情形来选择从第几个字符开始对字符位置赋予优先级,从而能够减少初期由于字符串候选过多等带来的计算处理,从而保证检索装置的执行速度,能够更加有效地进行检索。也避免了当用户所需的检索对象字数较少时,按照本发明的方法,对检索对象字符位置以外的字符位置的无效提示。
此外,也可以是,检索效率计算部在字符串的候选数量为规定数量以下时进行检索效率的计算。
通过限制字符串候选的数量,同样能够减少在字符串候选过多时进行的计算处理,从而保证检索装置的执行速度,能够更加有效地进行检索。
附图说明
图1是本发明的第一实施方式涉及的检索装置的结构框图。
图2是本发明的第一实施方式涉及的检索装置中的字符位置优先级设定的流程图。
图3是处理部控制输入部优先输入优先级最高的字符位置的示意图。
图4是检索部检索到的查找结果的示意图。
图5是本发明的变形例2涉及的检索处理的流程图。
图6是本发明的第二实施方式涉及的检索装置的结构框图。
图7是本发明的第二实施方式涉及的检索处理的流程图。
图8是本发明的第三实施方式涉及的检索装置的结构框图。
图9(a)、图9(b)、图9(c)是字符位置抽样分析案例的折线图,其中,图9(a)是单列汉字种类统计的折现图,图9(b)是单列最多重复汉字统计的折线图,图9(c)是两者的差分折线图。
符号说明:
10输入部;20检索部;30输出部;40存储部;50字符串提取部;60检索效率计算部;70处理部;80字符宽度指定部;90检索效率加权部。
具体实施方式
以下,参照附图详细说明本发明的实施方式。另外,在以下各个实施方式中,针对同一部件赋予相同的附图标记,并适当地省略重复的说明。
(第一实施方式)
图1是本发明的第一实施方式涉及的检索装置的结构框图。
如图1所示,第一实施方式涉及的检索装置1包括输入部10、检索部20、输出部30、存储部40、字符串提取部50、检索效率计算部60以及处理部70。
其中,输入部10能够以任意的字符位置的顺序输入检索用字符串,作为检索时的关键字。可以通过键盘、鼠标、语音输入设备等硬件设施完成输入。
存储部40用于存储检索过程中使用的数据库。特别是存储有成为检索对象的各个字符串。
检索部20从存储部40中提取与输入部10输入的字符串的字符和字符位置一致的字符串。使提取出的字符串作为检索结果从输出部30输出。
此外,字符串提取部50用于在输入部10输入字符串之前或者输入过程中,即在获得目标字符串之前,从存储部10提取可能是本次所希望检索到的字符串的所有字符串,作为字符串候选。具体来说,在用户没有输入任何字符的情况下,数据库中的所有字符串都成为字符串候选,当用户通过输入部10输入了字符时,将检索部20提取出的、与输入部10已经输入的各个字符和字符位置相一致的所有字符串作为字符串候选,这些字符串候选都有可能成为目标字符串,因此将这些可能的字符串提取,并将提取到的字符串发送至检索效率计算部60。
检索效率计算部60针对还未被输入字符的每个字符位置,计算字符位置的检索效率,这里所谓的“检索效率”表示该字符位置上的字符在检索部筛选字符串候选时所起的作用大小。例如,该字符位置的检索文字的输入,较其它字符位置来说,能够更为有效的限缩字符串候选列表,则该字符位置在检索部筛选字符串候选列表时所起的作用越大。所谓的有效限缩字符串候选列表,是指该字符位置检索文字的输入较其它字符位置来说,能够抽出尽量少的字符串候选。这里,也可以以输入栏的长度为限,或者以存储部40中存储的最长字符串的长度为限,来计算该长度内除了已经输入字符的位置之外的字符位置中的每个字符位置的检索效率。关于检索效率的计算,结合流程图详细说明。
处理部70根据检索效率计算部60计算出的剩余字符位置的各个字符位置的检索效率,对相应的字符位置赋予输入优先级。例如对检索效率最高的字符位置,赋予最高级别的输入优先级,并控制输入部10将光标等移动到优先级最高的字符位置,由此使得优先级最高的字符位置上的字符被优先输入,从而用户可以先输入输入优先级最高的字符位置处的字符,从而最大程度地限缩字符串候选的数量。此外,处理部70也可以控制输出部30提示优先级最高的字符位置,从而用户能够根据所提示的字符位置,选择是否先输入该优先级最高的字符位置。
下面结合流程图,说明检索装置1进行的检索处理。图2是本发明的第一实施方式涉及的检索装置中的字符位置优先级设定的流程图。
如图2所示,在将字符串作为关键字进行检索的检索装置1中,从用户开始输入字符串的第一个字符开始,或者在针对规模较小的数据库进行检索时在输入字符串之前就开始执行按照每个字符位置赋予输入优先级的处理。
首先,字符串提取部50从存储部10提取检索前的全部字符串候选或检索部20当前提取的字符串候选,该字符串候选包括可能是本次所希望检索到的字符串的所有字符串。例如,在没有输入任何字符的情况下,数据库中的所有字符串都成为字符串候选,当通过输入部10输入了字符时,将检索部20提取出的、与输入部10已经输入的各个字符和字符位置相一致的所有字符串作为字符串候选(步骤S201)。
接着,检索效率计算部60针对每一个还未被输入字符的其他字符位置,计算该字符位置的检索效率(步骤S202)。
这里,“检索效率”用于评价每个字符位置在检索过程中对命中所起的贡献,可以理解为在该字符位置处输入的字符能够最为有效的限缩字符串候选列表。因此,由于检索效率高的字符位置处的字符对检索命中的贡献更大,所以在以检索效率为基准赋予输入优先级时,能够提高检索装置的检索效率,进而节省检索装置检索目标字符串的时间。
作为检索效率的指标可以预先设定,只要是能够体现出字符位置之间的不同作用的指标即可。例如,当所输入的字符为汉字时,一般来说,所有字符串候选在待输入的各个字符位置上的字符的集合中,汉字的重复率比较低的字符位置说明该位置的字符重复率较低,因此检索效率更高。因此,可能采用加权平均法计算各个字符位置的字符重复率作为相应字符位置的检索效率。
例如在输入“大连市甘”这四位字符之后,假设共检索如下表1所示的12个字符串候选,以第5个位置为例,设第5个位置所对应的列中共有4中文字,分别是:a、b、c、d,12条中a文字重复了9次,b、c、d分别出现一次。则检索效率计算部60计算:(9x 9/12+1x 1/12+1x1/12+1x 1/12)/12作为第5个位置的重复率。
同理,对其他字符位置也同样地计算重复率作为检索效率,进而进行比较,按照重复率从小到大的顺序,赋予输入优先级,重复率最小的字符位置,其输入优先级最大。
表1:
此外,例如还可以将字符串候选中的每个字符位置处的所有候选字符的种类数作为检索效率,或者将由上述字符串提取部提取出的所有字符串候选中位于相同字符位置的不同字符的数量与字符串候选的数量之比作为检索效率。
例如,在想要检索字符串“大连市甘井子区诚信科技发展有限公司”的情况下,同样在输入“大连市甘”这四位字符之后,以最多输入13位字符串的情况为例,字符串提取部50形成如表2所示的具有476项候选的下列列表。
表2:
在这种情况下,检索效率计算部60针对每个字符位置,计算“候选字符种类数/候选字符项目数”作为检索效率,具体来说,首先计算出如表2倒数第二行所示的各个字符位置的字符候选种类数量(空白单独算一种),进而再将各个字符位置处的字符种类数除以总项目数的476,从而计算出如表2最后一行所示的检索效率。
并且,如表2所示,由于总项目数一定,所以各个字符位置的字符候选种类数量的趋势与“候选字符种类数/候选字符项目数”的趋势一致,因此,例如候选种类数量最多的一列(第8个字符位置)也是“候选字符种类数/候选字符项目数”的百分比最大的一列。因此,也可以将各个字符位置的字符候选种类数量作为检索效率,按字符候选种类数由多到少的顺序对各文字位置赋予优先级。
此外,检索效率计算部60也可以找出各列中重复次数最多的汉字,然后找出各列中重复次数最多的汉字中重复次数最少的1列,将该列对应的字符位置作为检索效率最高的字符位置。
这是因为,将候选列表中汉字纵向排成n列。a代表1列中重复次数最多那个汉字出现的次数。则如果接下来在该列对应的字符位置处输入一个汉字后最多能提取的候选项个数为a。比较每一列的最多提取选项个数a1,a2,a3……,an。选取其中最小值a(min)。(另外算出其中的最大值a(max),备用),则在该列输入任意一个汉字后,得到的候选项个数一定小于其他列重复次数最多汉字的候选项个数。
在步骤S202计算出检索效率之后,处理部70根据检索效率计算部60计算出的剩余字符位置的各个字符位置的检索效率,对相应的字符位置赋予输入优先级。找到输入优先级最大的字符位置。
通过以上的处理,能够找到接下来要输入的各个字符位置中输入优先级最高的字符位置,从而输入部10可以使输入优先级最高的字符位置上的字符优先被输入。
例如在确认表2中的输入优先级最高的字符位置为第8个位置的情况下,输入部10可以如图3所示那样将输入光标直接跳转到第8个位置,从而提示用户先不输入第5、6、7个位置处的字符而直接输入第8个位置。
这样输入第8个位置的字符“诚”之后,检索装置1检索与已输入的第1~第4位置以及第8位置的字符相一致的字符串,从而查找结果如附图4所示,字符串候选仅变成两项,从而用户可以从候选列表中直接找到作为目标字符串的目的地。大大缩小了候选列表的范围,从而大大提高了检索的效率。
此外,除了输入部10使光标跳转到目标字符位置的方式之外,也可以光标不自动跳转,而是由输出部30对用户提示应优先输入的字符位置,由用户选择性地自行移动光标。或者,也可以在自动移动光标位置的之后,如附图3所示将光标前的空白位置用代表任意字符的规定符号替代,从而更加清晰地表达出中间间隔几个字符位置。
在图2的流程图中,通过对每个字符位置赋予不同的输入优先级,从而可以从输入优先级较高的位置开始输入字符串。在依次输入输入优先级较低的字符位置。
此外,也可以在检索动作结束之前重复执行图2的流程,也就是说,在字符输入的过程中,每输入一个字符,就执行检索效率的计算处理,找到输入优先级最高的字符位置,随着字符串中的字符输入的进行,在每次输入一个新的字符时,重复执行图2所示的赋予输入优先级的处理,找到下个新的输入优先级最高的字符位置,作为向用户推荐输入的字符位置,这种重复处理直到找到目标字符串为止。
(变形例1)
在第一实施方式中,检索装置1从检索处理的字符串输入开始时就开始执行赋予输入优先级的处理。但是,在检索数据库比较大从而字符串候选过大的情况下,也可以仅在字符串提取部50所提取的字符串候选的项目数量低于预定数量(例如是500项以下)时,检索效率计算部60才进行检索效率的计算。
这样,能够减少检索装置的数据处理量,保证检索装置的执行速度。用户在依次输入一个或者多个检索字符之后,在利用用户已经输入的字符通过数据库联想到的字符串候选成为规定个数以下时(达到系统能够进行计算的数量),系统从该候选结果中确定检索最有效率的字符位置,并提示用户输入该位置的字符,用户输入该位置的字符之后,利用缩小后的列表,再次按照前述方法从剩余的位置中确定检索最有效率的字符位置,由此,候选列表被再次有效缩小,这样重复以上方法,候选列表每次都能够更加高效地缩小,能够快速检索出期望设置。
(变形例2)
此外,第一实施方式中,针对检索效率的计算,单独列举出几个参数,但是也可以组合运用多种参数来找打检索效率最高的字符位置。
例如,设算法1为:找出各列中重复次数最多的汉字,然后找出各列中重复次数最多的汉字中重复次数最少的1列,将该列对应的字符位置作为检索效率最高的字符位置。
设算法2为,以汉字种类数作为检索效率的算法。
这样,在导航系统中应用本发明的检索装置的情况下,某列重复率特别高的汉字往往是所属地域名称等,对于这样的列,并不适用以汉字种类数作为检索效率的算法(以下称为算法2)。因此认为应该将某汉字重复率在一定数值以上的列从算法2中排除掉。因此,当某列中某汉字重复率在该数值以上时,不采用汉字种类数的判断方法,即不使用算法2。而从汉字重复个数的角度思考,可以找到最大重复次数最小的列,将该列对应字符位置作为检索效率最高的字符为止(以下称为算法1)。
在算法1中,将候选列表中汉字纵向排成n列。a代表1列中重复次数最多那个汉字出现的次数。则如果接下来在该列对应的字符位置处输入一个汉字后最多能提取的候选项个数为a。比较每一列的最多提取选项个数a1,a2,a3……,an。选取其中最小值a(min)和最大值a(max)。
由此,用算法1中得到的a(max)来判断使用算法1还是算法2,当a(max)>所定值的情况下,使用算法1,当a(max)≤所定值的情况下,使用算法2,该所定值可以根据一屏最多能显示的候补数来设定。例如,一屏最多能显示10条,当a(max)>10时,使用算法1,当a(max)≤10时,使用算法2(此时即使输入的是重复次数最多的那个字,因为重复数≤10,即显示屏1页内能全部显示,所以应该在用户可接受范围内)。
图5是以上组合例涉及的检索处理的流程图。如图5所示,检索效率计算部60对于待提取候选项,计算每一列重复次数最多的那个汉字出现的次数,取最大值(步骤S501),并判断该最大值是否大于指定值(步骤S502)。
在步骤S502为肯定的情况下,取每一列重复次数最多的那个汉字出现的次数的最小列(步骤S503)。并且处理部70判断该列是否是唯一的(步骤S504)。在步骤S504为肯定的情况下,输入部10将输入光标移动到此列对应的字符位置(步骤S505)。
另一方面,在步骤S502为否定的情况下,检索效率计算部60进一步计算每一列汉字共有多少种,取种类最多的那一列(步骤S511)。在步骤S504判断为否定的情况下,处理部70在剩余几列中选取汉字种类最多的一列(步骤S510),并判断该列是否是唯一的(步骤S512),在判断为是唯一的情况下(步骤S512:是),输入部10将输入光标移动到此列对应的字符位置(步骤S505)。在判断为不是唯一的情况下(步骤S512:否),选取位置最靠前的一列(步骤S513),从而输入部10将输入光标移动到此列对应的字符位置(步骤S505)。
进而,输入部10受理想要搜索的目标设施名是否短于提示位置的判断输入(步骤S506),在步骤S506为肯定的情况下,字符串提取部50删除列表中多于或等于提示位置的候选项。构成新的候选列表(步骤S509)。并且流程返回开始出重新进行计算。
在步骤S506为否定的情况下,进入步骤S507,输入部10推荐用户输入该位置上的汉字进行搜索。在步骤S508,检索部20判断是否选出希望候补,在根据现有字符输入还没有选择目标字符串时,字符串提取部50进一步根据接下来要输入的字符位置提取获选字符串,返回处理开始重复进行处理。
这里,当然也可以省略步骤S506的判断,直接推荐用户输入优选的字符位置,由用户自行将光标移动回目标字符串的长度范围内。
(第二实施方式)
第二实施方式的检索装置1与第一实施方式的不同点在于,除了具有第一实施方式中的检索装置1中的各个部分之外,还具有字符宽度指定部80。
在第一实施方式中,在检索时对字符串的宽度并没有限制,因此,检索装置1计算检索效率时需要计算的字符位置的数量有时比较长。在第二实施方式,通过字符宽度指定部80对要检索的字符串的宽度进行指定,仅在指定的宽度范围内进行检索,能够减少处理量。
图6是本发明的第二实施方式涉及的检索装置的结构框图。如图6所示,检索装置1具有包括输入部10、检索部20、输出部30、存储部40、字符串提取部50、检索效率计算部60、处理部70以及字符宽度指定部80。
其中,字符宽度指定部80受理对检索字符串的宽度的指定。例如通过输入部10从用户受理对字符串宽度的指定。或者根据检索领域从数据库中提取规定的字符串宽度等。
由此,字符串提取部50仅提取宽度是指定的字符串宽度的字符串作为字符串候选,并且,检索效率计算部60仅以指定的字符串宽度计算字符位置的检索效率。
图7是本发明的第二实施方式涉及的检索处理的流程图。与图5类似,同样采用组合的方式找到检索效率最高的字符位置,对该字符位置赋予最高的输入优先级。
具体来说,首先,字符宽度指定部80受理用户对所要搜索的设施名字符长度的指定(步骤S701),从而字符串提取部50将检索到的候选列表中不符合该字符长度(多于或少于)的候选项删除(步骤S702)。
检索效率计算部60对于待输入的剩余候选项,计算每一列重复次数最多的那个汉字出现的次数,取最大值(步骤S703),并判断该最大值是否大于指定值(步骤S704)。
在步骤S704为肯定的情况下,检索效率计算部60计算每一列重复次数最多那个汉字出现的次数,取该次数最小的列(步骤S705)。并且处理部70判断该列是否是唯一的(步骤S706)。在步骤S706为肯定的情况下,输入部10将输入光标移动到此列对应的字符位置,从而推荐用户输入该位置上的汉字进行检索(步骤S707)。
另一方面,在步骤S704为否定的情况下,检索效率计算部60进一步计算每一列汉字共有多少种,取种类最多的那一列(步骤S711)。在步骤S706判断为否定的情况下,处理部70在剩余几列中选取汉字种类最多的一列(步骤S710),并判断该列是否是唯一的(步骤S712),在判断为是唯一的情况下(步骤S712:是),输入部10将输入光标移动到此列对应的字符位置,从而推荐用户输入该位置上的汉字进行检索(步骤S707)。在判断为不是唯一的情况下(步骤S712:否),选取位置最靠前的一列(步骤S713),从而输入部10将输入光标移动到此列对应的字符位置,从而推荐用户输入该位置上的汉字进行检索(步骤S707)。
接着,在步骤S708,检索部20判断是否选出希望候补,在根据现有字符输入还没有选择目标字符串时,字符串提取部50进一步根据接下来要输入的字符位置提取获选字符串(步骤S709),返回处理开始重复进行处理。
这里,字符宽度指定部80指定了目标字符串的宽度。但是,字符宽度指定部80也可以指定目标字符串的宽度的最大值,即检索装置在字符串宽度的最大值的范围内执行检索处理以及对字符位置的检索效率的计算,从而检索效率计算部60仅对该指定的宽度范围内的未输入字符位置进行检索效率的计算。
根据第二实施方式,能够减少检索装置的计算量。
(第三实施方式)
第三实施方式的检索装置1与第一实施方式的不同点在于,除了具有第一实施方式中的检索装置1中的各个部分之外,还具有检索效率加权部90。
图8是本发明的第三实施方式涉及的检索装置的结构框图。如图8所示,检索装置1具有包括输入部10、检索部20、输出部30、存储部40、字符串提取部50、检索效率计算部60、处理部70以及检索效率加权部90。
其中,检索效率加权部90根据字符位置的不同,对上述检索效率计算部计算出的检索效率赋予加权值,将赋予了加权值后的检索效率作为新的检索效率。
由此,处理部70根据新的检索效率,对字符位置赋予输入优先级。
在字符串中的各个字符位置中,有时针对不同的检索领域,每个字符位置之间的权重并不相同。例如,在导航系统中的汉字目的地检索中,某列汉字中,汉字的种类数越多该位检索越有效。有时某列汉字中,同一汉字重复的最大重复个数越少该位越有效。而通常,在实际中,某列中某文字大量重复通常出现在文字的首部,例如xx市xx区;和尾部,例如……公司,……酒店。因此作为检索最有效的文字位置,应当是除了首尾文字以外的中间部分文字。这种情况下,就可以对每个字符位置赋予不同的权重,提高中间字符位置的权重,使得中间字符位置更可能被赋予高的输入优先级,从而会被优先输入。
下面通过对100个样本的采样统计来说明这种规律。
例如,对表3中的100组字符串进行采样分析,对其各位的文字种类数,最多重复的文字个数进行统计,得到表4的统计结果,并根据该统计结果制作折线图。
表3:
表4:
图9(a)、图9(b)、图9(c)是字符位置抽样分析案例的折线图,其中,图9(a)是单列汉字种类统计的折现图,图9(b)是单列最多重复汉字统计的折线图,图9(c)是两者的差分折线图。
图9(a)是单列汉字的文字种类数的折线图,横轴代表所在列数,纵轴表示该列文字种类数。按照上述分析,纵轴值越高则表明该位越有效。由折线图可以看到,检索有效位集中在中间。这同理论分析相一致。
图9(b)是单列汉字的重复次数最多文字重复数的折线图,横轴代表所在列数,纵轴表示重复次数最多文字重复数。按照上述分析,纵轴越低则表明该位越有效。由折线图得到,纵轴较低的部分并非仅出现在中间区域,而是中间位置及以后持续较低,这是由于存在较长的检索文字列,所以靠近末端的位置仅有很少的几个文字存在所造成的。这样的位置的特征是该列的文字种类数及文字的重复数都较低。为了将这样的位置排除在考虑范围之外,采用文字种类数与文字数的差值,进行表示。
图9(c)是图9(a)和图9(b)之间的差分折线图。对文字种类数和文字数的差值接近于0的位置(点划线右侧),不予考虑。除此之外的位置,由于文字的种类数越多越表明该位有效,文字的重复数越少越表明该位有效,所以其差值越大越表明该位有效。且通过两项差值,能够将有效性从折线图上放大,效果更明显。
从实际采样中可以看到,检索有效位集中在中间(虚线之间),这也同理论分析相一致。
因此,检索效率加权部90可以路径的设施名称字符串的检索中对第4、5、6个位置赋予较高的权重,而相应地越往外侧权重越小。
工业实用性:
本发明中,通过对检索效率的计算,来找到输入优先级最高的字符位置,使其优先被输入。由于检索效率高的字符位置处的字符对检索命中的贡献更大,所以在以检索效率为基准赋予输入优先级时,能够提高检索装置的检索效率,进而节省检索装置检索目标字符串的时间。
本发明可以在各种需要对字符串进行检索的设备中使用,特别是对于车载导航装置来说,在驾驶时输入字符串等用于输入字符的时间希望尽可能短的情形下,尤其适用本发明。
Claims (11)
1.一种检索装置,具有:输入部,能够以任意的字符位置的顺序输入检索用字符串;存储部,存储成为检索对象的字符串;检索部,从上述存储部中提取与上述输入部输入的字符串的字符和字符位置一致的字符串;以及输出部,输出由上述检索部提取出的字符串;其特征在于,
还具有:
字符串提取部,从上述存储部提取检索前的全部字符串候选或上述检索部当前提取的字符串候选;
检索效率计算部,针对还未被输入字符的每个字符位置,计算字符位置的检索效率,上述检索效率表示该字符位置上的字符在检索部筛选字符串候选时所起的作用大小;以及
处理部,根据上述检索效率计算部计算出的各个字符位置的检索效率,对相应的字符位置赋予输入优先级。
2.根据权利要求1所述的检索装置,其特征在于,
上述处理部,根据字符位置被赋予的优先级,控制上述输入部优先输入优先级最高的字符位置上的字符,或控制上述输出部提示优先级最高的字符位置。
3.根据权利要求1所述的检索装置,其特征在于,
上述检索效率是候选字符的重复率;
上述检索效率计算部针对还未被输入字符的每个字符位置,计算由上述字符串提取部提取出的所有字符串候选中位于相同字符位置的不同字符的重复率,作为对应的字符位置上的上述检索效率;
上述处理部按照重复率由低到高的顺序,对相应的字符位置赋予输入优先级。
4.根据权利要求1所述的检索装置,其特征在于,
上述检索效率是候选字符种类数;
上述检索效率计算部针对还未被输入字符的每个字符位置,计算由上述字符串提取部提取出的所有字符串候选中位于相同字符位置的不同字符的数量,作为对应的字符位置上的上述检索效率;
上述处理部按照上述候选字符种类数由多到少的顺序,对相应的字符位置赋予输入优先级。
5.根据权利要求1所述的检索装置,其特征在于,
上述检索效率计算部找出各字符位置上的候选字符中重复次数最多的字符,并找出各重复次数最多的字符中重复次数最少的字符位置,作为检索效率最高的字符位置,
上述处理部对该检索效率最高的字符位置赋予最高的输入优先级。
6.根据权利要求1所述的检索装置,其特征在于,
上述检索效率计算部针对还未被输入字符的每个字符位置,计算由上述字符串提取部提取出的所有字符串候选中位于相同字符位置的不同字符的数量与字符串候选的数量之比,作为对应的字符位置上的上述检索效率;
上述处理部按照比值由大到小的顺序,对相应的字符位置赋予输入优先级。
7.根据权利要求1所述的检索装置,其特征在于,
还具有检索效率加权部,上述检索效率加权部根据字符位置的不同,对上述检索效率计算部计算出的检索效率赋予加权值,将赋予了加权值后的检索效率作为新的检索效率。
8.根据权利要求1所述的检索装置,其特征在于,
还具有字符串宽度指定部,上述字符串宽度指定部受理对检索字符串的宽度的指定,
上述检索效率计算部仅针对被指定的字符串宽度内的字符位置进行检索效率的计算。
9.根据权利要求1所述的检索装置,其特征在于,
上述检索效率计算部在字符串的候选数量为规定数量以下时进行检索效率的计算。
10.根据权利要求1所述的检索装置,其特征在于,
该检索装置是车载导航系统中的检索装置。
11.一种检索装置中的检索方法,该检索装置具有:输入部,能够以任意的字符位置的顺序输入检索用字符串;存储部,存储成为检索对象的字符串;检索部,从上述存储部中提取与上述输入部输入的字符串的字符和字符位置一致的字符串;以及输出部,输出由上述检索部提取出的字符串;其特征在于,上述检索方法包括:
字符串提取步骤,在上述输入部输入字符串之前或者输入过程中,从上述存储部提取可能是所希望的字符串的所有字符串候选;
检索效率计算步骤,针对还未被输入字符的每个字符位置,计算字符位置的检索效率,上述检索效率表示该字符位置上的字符在检索部筛选字符串候选时所起的作用大小;以及
处理步骤,根据上述检索效率计算步骤中计算出的各个字符位置的检索效率,对相应的字符位置赋予输入优先级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310424601.0A CN104462109B (zh) | 2013-09-17 | 2013-09-17 | 检索装置及检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310424601.0A CN104462109B (zh) | 2013-09-17 | 2013-09-17 | 检索装置及检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104462109A CN104462109A (zh) | 2015-03-25 |
CN104462109B true CN104462109B (zh) | 2018-10-26 |
Family
ID=52908170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310424601.0A Expired - Fee Related CN104462109B (zh) | 2013-09-17 | 2013-09-17 | 检索装置及检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462109B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112650893A (zh) * | 2020-12-18 | 2021-04-13 | 浙江诺诺网络科技有限公司 | 一种字符串检索方法、系统、设备及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010061545A1 (ja) * | 2008-11-26 | 2010-06-03 | 三菱電機株式会社 | 施設検索装置 |
CN102479256A (zh) * | 2010-11-25 | 2012-05-30 | 爱信艾达株式会社 | 检索装置、检索方法以及计算机可读存储介质 |
US8306968B2 (en) * | 2010-09-15 | 2012-11-06 | Alpine Electronics, Inc. | Name retrieval method and name retrieval apparatus |
CN102782680A (zh) * | 2010-02-26 | 2012-11-14 | 乐天株式会社 | 信息处理装置、信息处理方法、记录了信息处理程序的记录介质 |
JP2013125376A (ja) * | 2011-12-14 | 2013-06-24 | Alpine Electronics Inc | 検索システム |
-
2013
- 2013-09-17 CN CN201310424601.0A patent/CN104462109B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010061545A1 (ja) * | 2008-11-26 | 2010-06-03 | 三菱電機株式会社 | 施設検索装置 |
CN102782680A (zh) * | 2010-02-26 | 2012-11-14 | 乐天株式会社 | 信息处理装置、信息处理方法、记录了信息处理程序的记录介质 |
US8306968B2 (en) * | 2010-09-15 | 2012-11-06 | Alpine Electronics, Inc. | Name retrieval method and name retrieval apparatus |
CN102479256A (zh) * | 2010-11-25 | 2012-05-30 | 爱信艾达株式会社 | 检索装置、检索方法以及计算机可读存储介质 |
JP2013125376A (ja) * | 2011-12-14 | 2013-06-24 | Alpine Electronics Inc | 検索システム |
Also Published As
Publication number | Publication date |
---|---|
CN104462109A (zh) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104102720B (zh) | 高效输入的预测方法和装置 | |
JP6398510B2 (ja) | 実体のリンク付け方法及び実体のリンク付け装置 | |
JP3701197B2 (ja) | 分類への帰属度計算基準作成方法及び装置 | |
CN101470732B (zh) | 一种辅助词库的生成方法和装置 | |
RU2016145396A (ru) | Способ и устройство извлечения тематических предложений веб-страниц | |
CN106202124A (zh) | 网页分类方法及装置 | |
CN107408108A (zh) | 用于将候选词建议为用于电子装置处所接收的输入串的替换的方法 | |
CN104360993B (zh) | 一种从文本提取所需内容的方法 | |
EP2674874A1 (en) | Search program, search apparatus, and search method | |
CN109299357B (zh) | 一种老挝语文本主题分类方法 | |
CN103970815A (zh) | 语音输入和输出数据库搜索方法和设备 | |
WO2020065970A1 (ja) | 学習システム、学習方法、及びプログラム | |
CN106815265A (zh) | 裁判文书的搜索方法及装置 | |
CN108345694A (zh) | 一种基于主题数据库的文献检索方法及系统 | |
CN104462109B (zh) | 检索装置及检索方法 | |
KR20130137048A (ko) | 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체 | |
JP2008165401A (ja) | 文献検索プログラム、文献検索装置、文献検索方法 | |
KR101793578B1 (ko) | 효율적으로 질의를 처리하는 방법 및 장치 | |
KR20130045054A (ko) | 키워드 추출 및 정련 시스템과 그 방법 | |
KR101615164B1 (ko) | 엔-그램 기반의 질의 처리 장치 및 그 방법 | |
CN114238661B (zh) | 一种基于可解释模型的文本歧视性样本检测生成系统与方法 | |
JP6571053B2 (ja) | 施設検索装置、施設検索方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体 | |
Efremova et al. | A hybrid disambiguation measure for inaccurate cultural heritage data | |
CN110806861B (zh) | 一种结合用户反馈信息的api推荐方法及终端 | |
US20090037487A1 (en) | Prioritizing documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181026 |