CN101295307B - 文档检索系统及文档检索方法 - Google Patents
文档检索系统及文档检索方法 Download PDFInfo
- Publication number
- CN101295307B CN101295307B CN2008100058666A CN200810005866A CN101295307B CN 101295307 B CN101295307 B CN 101295307B CN 2008100058666 A CN2008100058666 A CN 2008100058666A CN 200810005866 A CN200810005866 A CN 200810005866A CN 101295307 B CN101295307 B CN 101295307B
- Authority
- CN
- China
- Prior art keywords
- numerical value
- document
- attribute
- group
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000006243 chemical reaction Methods 0.000 claims description 56
- 238000000605 extraction Methods 0.000 claims description 28
- 239000000284 extract Substances 0.000 claims description 27
- 238000009826 distribution Methods 0.000 claims description 24
- 238000013075 data extraction Methods 0.000 claims 2
- 239000013598 vector Substances 0.000 abstract description 13
- 230000000875 corresponding effect Effects 0.000 description 20
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 18
- 239000008280 blood Substances 0.000 description 18
- 210000004369 blood Anatomy 0.000 description 18
- 239000008103 glucose Substances 0.000 description 18
- 230000008569 process Effects 0.000 description 13
- 206010028980 Neoplasm Diseases 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 208000024891 symptom Diseases 0.000 description 10
- 235000013339 cereals Nutrition 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 241000209094 Oryza Species 0.000 description 4
- 235000007164 Oryza sativa Nutrition 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 235000009566 rice Nutrition 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 240000005373 Panax quinquefolius Species 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 241000345998 Calamus manan Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 201000001421 hyperglycemia Diseases 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013549 information retrieval technique Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 235000012950 rattan cane Nutrition 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供一种文档检索系统及文档检索方法,考虑文档中的数值数据的相似度来进行检索。对属性A的数值集合D,生成包含D的全部要素的数值区间集合E,通过使在区间内包含D的要素x的区间对应1、使不包含的区间对应0,来对文档中的数值附加索引。文本部分使用单词频度、数值部分使用所述数值的索引附加方法,来对包含数值的文档数据附加索引。使用如此生成的文档数据的索引,计算基于矢量空间法或概率模型的文档数据间的相似度,从相似度高的文档数据开始依次提示。
Description
技术领域
本发明涉及一种文档检索系统及文档检索方法,涉及包含数值数据的文档的检索系统及检索方法。
背景技术
随着文档信息的电子化,从大量的信息中高效率地找出用户需要的信息成为重要的问题。信息检索技术是用于解决这种问题的技术,因特网的检索引擎应用信息检索技术,如果用户输入检索请求,则从大量的文档信息中检索与输入相关联的信息,并按关联度顺序显示。
另外,在特开2000-155758号公报“将多个文档数据库作为对象的文档检索方法及文档检索服务”中公开了被称为文档联想检索的方法,在该方法中,作为检索请求,将文档群作为输入,检索相同文档数据库内的相关联的文档群。在文档联想检索中,采取如下方法:将文档分解成单词(或字符串),生成某文档中某个单词出现几次的单词出现频度的矢量,根据输入文档与文档数据库内的文档的矢量间的相似度(非专利文献1“语言表现的矢量空间模型中的最佳计量距离”)、或基于概率模型的文档间的相似度(参照特开平9-62693号公报“基于概率模型的文档分类方法”),检索相似文档。
专利文献1:特开2000-155758号公报
专利文献2:特开2004-178490号公报
专利文献3:特开平9-62693号公报
非专利文献1:语言表现的矢量空间模型中的最佳计量距离,持桥大地等、电子信息通信学会论文志“信息·系统:D-II”,J88-D-II,No.4,pp.747-756,April,2005
非专利文献2:以数值信息作为关键词从报纸报道中提取信息,齐藤公一等,自然语言处理研究会报告,1998-NL-125,信息处理学会,1998
发明内容
发明所要解决的技术问题
在文档联想检索中,在文档中包含数值数据(例如实测值数据)的情况下,数值数据作为1个单词来计算出现频度,计算相似度。可是,对于数值,有时想将相近的数值作为同一词处理。作为例子,在利用电子病历或排序系统等医疗信息系统的现场,医师或药剂师想检索与某患者的状态相似的患者的信息。
在这种情况下,参照电子病历的经过记录(在记载了初始记录后,按照经过来输入患者的叙述或诊察所见、检查结果、医师的推论或判断结果治疗方针等)等的记述,搜索症状相似的患者。在经过记录的文档中,还记载检查值等为了表现患者的症状而具有重要含义的数值数据。因此,将经过记录等文档分解成单词,生成出现频度矢量,搜索与某患者的文档的出现频度矢量相似的文档,进行相似患者的信息的联想检索。但是,在“血糖值124mg/dl”、“血糖值125mg/dl”、“血糖值180mg/dl”中,前2个数值意味着中度血糖值,作为症状相似,而与意味着高血糖的后者的症状不同,但由于不考虑具有重要含义的数值数据的相似度,所以作为同一相似度检索,从而检索精度降低。
另外,在病历上记载症状所见时,有时同时使用表现症状的标准用语·代码和数值(例如,对于大小,同时使用“米粒大”和“3mm至4mm左右的数值”)。若根据以标准用语·代码或数值中的任何一方记载的文档进行联想检索,则以另一方的表述记载的文档不作为检索对象,所以同样产生检索精度的降低。
解决技术问题的技术方案
因此,在本发明中,对于属性A的数值的集合D,生成包含D的全部要素的数值区间的集合E,通过使在区间内包含D的要素x的区间对应1,使不包含的区间对应0,对文档中的数值附加索引。在包含多个属性的数值的情况下,生成针对各个属性的数值的数值区间集合,对数值附加索引。文本部分使用单词的频度、数值部分使用上述数值的索引附加方法,来对包含数值的文档数据附加索引。使用文档数据的索引,计算基于矢量空间法或概率模型的文档数据间的相似度,从相似度高的文档数据开始按顺序提示。
作为相似度的计算方法的例子,列举基于矢量空间法的例子。首先,以多维矢量表现文档。
[式1]
x=(x1,x2,…,xl)
文档矢量的各要素既有某单词是否在该文档中出现的2值的情况,也有某单词在该文档中出现几次的出现频度的情况,还有通过适当的方法(TF-IDF等)加权后的实数值的情况。
使用两个文档矢量X1和X2的余弦距离,作为两个文档的相似度。
[式2]
对于在文档中混合表述表示属性状态的用语(例如表示大小的用语“米粒大”)和表示其属性的数值(例如“4mm”)的情况,执行下面的方法。对表示属性的用语规定对用语赋予特征的数值、或为了表现用语而允许何种程度的数值(例如“3mm至4mm”的数值)区间,生成数值区间和用语的对应数据。然后,在上述区间内包含表示属性状态的数值的情况下,对上述区间提供1,在不包含的情况下提供0,对于用语,通过对上述数值区间提供1的索引附加方法,来对同时使用属性状态的用语和数值的数据附加索引。
在由于与数值对应的属性的状态不同而使用了多个用语的情况下(例如,对于大小这一属性,使用米粒大或鸡蛋大这样多个用语),首先,生成表现各个用语的代表数值或数值区间和与该用语对应的数据(米粒大为“3mm至4mm的数值区间”、鸡蛋大为“50mm至60mm的数值区间”)。
然后,以所述数值区间的最短区间宽度(上述例子中为1mm),生成覆盖全部数值的区间集合。
文档中包含的数值数据的提取是以特定的形式提取数值和与其关联的属性信息。在如数据库那样对项目明确地分配了属性时,作为数值和项目的属性的对来提取,并用作文档数据的索引。在文档数据中,根据数据附近的用语或数值之后出现的单位的语言表现模式,确定是具有什么含义的数值,抽取数值。可利用非专利文献2“以数值信息作为关键词从报纸报道中提取信息”等已有的方法。用户任意决定将什么样的数值数据作为提取对象。
由于数值的表述不同,即使是具有相同含义的数值,单位也不同,所以存在不同的表述,可如特开2004-178490号公报“数值信息检索装置”那样,使用统一单位的方法。
发明效果
根据本发明,在包含于数据中的数值数据包含重要含义时,可执行考虑了数值相似度的检索精度更高的文档检索。还可提高检索作业效率。
附图说明
[图1]构成本发明的实施例的图。
[图2]表示客户端的初始画面例的示意图。
[图3]表示客户端的检索结果例的示意图。
[图4]表示数值转换表的例子的图。
[图5]表示数值转换表生成方法的例子的图。
[图6]表示附加索引的例子的图。
[图7]表示覆盖数值的数值区间的例子的图。
[图8]表示覆盖数值的数值区间的例子的图。
[图9]表示医疗中的标准用语·代码和数值的对应表的例子的图。
[图10]表示医疗中的标准用语·代码和数值区间对应表的例子的图。
[图11]表示针对用语的索引生成方法的例子的图。
[图12]表示用于生成数值转换表的用户界面的例子的图。
[图13]表示提取数值数据、生成索引的流程的序列图。
[图14]表示客户端、服务器之间的数据及处理流程的序列图。
[图15]数值提取程序的流程图。
[图16]索引生成程序的流程图。
[图17]用于生成数值区间的程序的流程图。
[图18]表示属性信息词典和转换信息词典的例子的图。
[图19]表示索引生成的用户界面的例子的图。
[图20]表示属性名·单位用语词典的例子的图。
[图21]表示模式词典的例子的图。
[图22]数值分布数据生成程序的流程图。
[图23]表示解析对象指示表的例子的图。
符号说明
11、客户端
111、检索请求输入部件
112、检索请求发出部件
113、检索结果显示部件
114、显示器·键盘·鼠标
115、控制·运算装置
12、通信网络
13、服务器
131、控制·运算装置
132、索引生成程序
133、检索服务器程序
134、数值提取程序
135、文档数据
136、索引
137、数值区间生成程序
138、数值转换表
201、检索请求输入区
202、检索指示按钮
203、检索源指定区
301、文档选择区
302、联想检索指示按钮
1201、属性指定区域
1202、数据指定区域
1203、分布显示部
1204、数值区间显示部
1205、参数(区间宽度)
1206、参数(重复度)
1207、完成按钮
1208、单位选择单选框
1209、等间隔·等比例选择单选框
1210、区间生成的起点
1211、区间生成的终点
1212、属性名选择单选按钮
1213、数据指定区
1214、数据指定部
1215、读入按钮
1216、文档数据指定部
1217、分布生成按钮
具体实施方式
图1是表示用于实现本发明的系统的构成例的示意图。该系统由客户端11、服务器13、连接客户端和服务器间的通信网络12构成。客户端11具备:检索请求输入部件111,输入来自用户的检索请求;检索请求发出部件112,接收来自用户的检索请求,向服务器发出检索请求;检索结果显示部件113,对用户显示检索结果;显示器·键盘·鼠标114;和控制·运算装置115。
服务器13具备:控制·运算装置131、索引生成程序132、检索服务程序133、数值提取程序134、文档数据135、文档索引136、数值区间生成程序137、数值转换表138和用语-数值转换表139。利用数值区间生成程序137,预先生成数值转换表138。后面详细叙述数值转换表的生成。服务器13事先使用数值提取程序134,从成为检索对象的文档数据135中,提取具有重要含义的数值,并且使用索引生成程序132,属于数值转换表138的某区间的数值数据利用表示该区间的索引和向该索引提供1的处理来附加索引,文本部分利用单词的频度来附加索引,将各文档中出现的单词和单词的频度信息作为索引136存储,用于检索处理。
下面,说明客户端11得到与文档数据库内的任意文档群相关联的文档群的方法。
客户端11使用检索请求发出部件112,对应于用户的输入,指定成为检索源的文档数据库内的文档群,经由通信网络12,将用户指定的文档信息发送至服务器13。在服务器13侧,使用检索服务程序133、索引136,从文档数据库中检索指定的文档群和关联度(相似度)高的文档群。使用作为公知技术的矢量空间法,可计算文档间的关联度。文档检索结果按照关联度的加权,经由通信网络12返回客户端11。使用以上的方法,客户端11可得到与文档数据库135内的任意文档群相关联的文档群。
图2是表示客户端11的初始画面的例子的图。利用者向检索请求输入区201输入检索请求,通过点击检索指示按钮202进行检索。检索源的文档数据有多个的情况下,使用检索源指定区203的复选框来进行检索源文档数据的指定。
图3是表示客户端11的关联文档的检索结果例子的图。通过检索结果显示部件112显示检索结果。检索结果显示部件112还兼作文档群指定部件,利用文档选择区301的复选框,选择任意个数的消息,通过点击联想检索指示按钮302,可联想检索与选择的记事相关联的文档。在上述画面中,若选中患者ID0350046的报告并进行联想检索,则如下面画面那样,按与选中的报告关联度高的报告的顺序,显示检索结果。另外,该例使用后述的图6的索引来进行联想检索。
图4是在对使用数值提取程序134从成为检索对象的文档数据135中提取的数值进行索引时使用的数值转换表138的例子。从文档中提取的数值数据通过索引生成程序132,转换成对应于数值转换表138的所属区间的索引,并向索引提供1。图4(a)的数值转换表是血糖值数据的数值转换表的例子。第1列为表示数值属性的属性名的字段,第2列为表示数值区间的字段。在从文档提取的数值中找出上述数值转换表的相应的数值区间,将相当于相应的数值区间的字符串和其数值属性的组作为提取的数值索引。图4(b)的数值转换表是血糖值数据的数值转换表的例子,但数值区间与图4(a)的表不同。即使是同一属性,也考虑使用不同数值区间对1个数值生成多个索引。通过利用数值区间不同的索引来进行索引,可从各种视点对数值进行索引。图4(c)的数值转换表为年龄数据的数值转换表的例子。根据从文档中提取的数值属性不同,分开使用数值转换表。
图5是表示数值转换表生成方法的例子的图。例如,对于人的血糖值数据分布,按人数等比例地将区间分割成几个,在包含于同一区间的情况下,认为数值含义相近。在图中,按人数各15%的比例分割来决定区间。由此生成的区间为“10mg/dl以上不足50mg/dl”、“50mg/dl以上不足80mg/dl”、“80mg/dl以上不足100mg/dl”、“100mg/dl以上不足130mg/dl”、“130mg/dl以上不足200mg/dl”。利用该区间分割方法生成的数值转换表的例子如图4(a)所示。并且,通过使用多种区间分割方法,进行数值的转换,可针对位于区间边界附近的数值,从多个视点进行数值的含义赋予。在图中,除了15%的分割方法外,还示出按人数各30%来分割的例子。通过按各30%的比例的分割方法生成的索引如图4(b)所示。若使用这些数值区间不同的数值转换表,则在文档数据中包含“血糖值124mg/dl”的数值信息时,可以从“100mg/dl以上不足130mg/dl”和“120mg/dl以上不足200mg/dl”这两个区间对数值附加索引。
图6是使用索引生成程序132等生成索引136时的数据例。在该例子中,将数值数据作为由表示数值属性的标签和表示数值区间的词构成的索引进行索引,表示出该索引的出现频度。另外,利用单词频度对文本部分附加索引。在图3的例文中包含血糖值数据和年龄数据,但不同属性的数值数据使用各属性的数值转换表进行索引。若对图3的患者ID0350046或患者ID1112708的文章使用图4(a)的表对血糖值数据进行索引,则可生成患者ID0350046的索引“血糖值%100mg/dl以上不足130mg/dl”或患者ID1112708的索引“血糖值%130mg/dl以上不足200mg/dl”。另外,使用图4(b)的表,生成患者ID0350046的索引“血糖值%120mg/dl以上不足200mg/dl”或患者ID1112708的索引“血糖值%120mg/dl以上不足200mg/dl”,通过对同一属性使用等级不同的索引进行索引,可从多个视点来进行索引。另外,可使用图4(c)的属性不同的表,对年龄数据进行索引,生成患者ID0350046的索引“年龄%40岁以上不足60岁”或患者ID1112711的索引“年龄%60岁以上”。
利用数值区间生成程序137生成数值转换表138的方法因数值数据的特性不同而存在各种方法。图7~11示出由区间覆盖具有某分布的数值的方法的例子。
图7是由数值的个数比例相同的区间覆盖具有某分布的数值的例子。覆盖全部值的区间集合覆盖按等级不同的几个比例生成的数值。例如,某数值x1属于比例等级不同的4个区间I1、I2、I3、I4。因此,若对该数值x1附加索引,则对包含该数值的区间I1、I2、I3、I4提供1。另外,对于数值x2,对3个区间I3、I4、I5的索引提供1。由此,通过以不同的索引来对区间的宽度或覆盖的数值附加索引,在数值位于区间边界等的情况下,可执行弹性的含义赋予。
图8是按各a%的等比例包含具有某分布的数值、并且由区间的重叠错开b%的区间覆盖的例子。
图9是表示用语-数值转换表139的一例的图。本例是在病历中记载症状所见时,与为了表现症状而使用的标准用语·代码对应的数值例。图9示出的表格示出表示大小的用语群和利用该用语表示的数值的对应关系,可通过使用该表,将表示大小的用语转换成数值。在图9中,离散的数值成为特征量,但在特征有偏差时,如图10示出的用语-数值转换表139所示,有时还用数值区间来表示用语的特征。在文档数据中记载了表示大小的数值时,进行将包含数值的数值区间作为索引、对索引提供1的索引附加,在出现表现症状的用语时,将对应的数值区间作为索引,对索引提供1。在数值与长度或重量等标准用语·代码对应的情况下,将表现转换成一个表述来生成索引。
图11是说明以各种容许宽度生成如图10的例子所示的多个对应于表示症状的用语的数值区间时的索引附加方法的图。是利用具有最短容许宽度(在图10的例子中为“粟粒大”的“1mm”)的区间集合覆盖数值集合的例子。在文档数据中出现表现大小的数值时,将包含数值的区间作为索引,对索引提供1。另外,在出现用语时,将与对用语赋予特征的数值区间重叠的最小容许宽度的区间集合作为索引,对各个索引提供1。如图11的例子所示,在出现“鸡蛋大”的表现时,将区间In、In+1、In+2、In+3、...、In+10作为索引,对这些索引提供1。通过这种索引附加方法生成索引。另外,也考虑如区间I’1、I’2、...、I’m那样,生成长度不同的区间,使用长度不同的区间索引来对用语或数值进行索引的情况。
图12表示用于生成数值转换表的用户界面的例子。从属性指定区域1201的属性名选择单选按钮1212中选择作为数值区间生成对象的数据的属性。作为数值区间生成对象的数据既可以由用户从数据指定区域1202的数据指定部1214中任意地给出,也可以从文档数据中生成。通过数据指定区的单选按钮1213选择采取哪种方法。在用户提供具有分布的数据的情况下,如果对指定具有分布的数值数据的数据指定部1214指定数据文件并按下读入按钮1215,则读入数据。在分布显示部1203中显示读入的数据的分布。在选中了数据指定复选框1213下侧的单选按钮时,从文档数据生成分布数据。从文档数据指定部1216中选择作为分布生成对象的文档数据,点击分布生成按钮1217。生成与按照来自该用户的请求而通过属性名选择单选按钮1212选择的属性名数据相关的分布数据。使用数值分布数据生成程序(图22中示出流程)生成分布数据。在数值分布数据生成程序中,从由文档数据指定部1216指定的文档数据中,收集与通过属性名选择单选按钮1212选择的属性名相关的数据,生成分布数据。使用生成的分布数据,显示在分布显示部1203中。
对上述的分布数据,使用数值区间生成程序137,生成数值区间。在指定了参数1205、1206等并按下完成按钮1207后,生成数值区间1204和数值转换表138。也可以存在单位选择单选框1208或可以选择等比例·等区间等的单选框1209。另外,用户也可以增加必要个数的上述功能,以便按各种种类生成区间宽度。并且,也可指定区间生成的起点1210和终点1211,以便可以指定进行区间生成的范围。
利用图13的序列图,说明使用数值提取程序134提取文档数据135中的数值数据,并使用索引生成程序132生成索引136的流程。在用户进行检索前,预先生成索引。
从数据库向运算装置参照文档数据135(T11)。运算装置使用数值提取程序134从文档数据135中提取与特定数值相关的数据。接着,使用索引生成程序132,对属于数值转换表138的某区间的数值数据进行表示该区间的索引和对该索引提供1的处理,对文档数据135的文本部分进行利用单词频度来附加索引的处理。将通过所述处理生成的索引136存储于数据库中(T12)。下面使用图15、图16的流程图描述各程序的详情。
利用图14的序列图,说明客户端、服务器之间的数据及处理的流程。用户指定并输入询问文档,使用检索请求发出部件,发送至运算装置(T21)。参照与询问文档相关的单词出现频度数据和与包含同一文档的文档数据库中的文档相关的单词出现频度数据(T22、T23)。运算装置使用单词出现频度数据计算询问文档与存储的文档的相似度,返回相似度高的文档(T24)。
使用图15、图16、图17的流程图来说明各程序的动作。图15是说明涉及从作为检索对象的文档数据135中提取具有重要含义的数值及其属性的处理的数值提取程序134的流程图。这里提取的数值信息是某特定的属性和与该属性有关的数值的组。数值提取程序通过按下图19的索引生成界面的索引生成按钮来起动,接着执行索引生成程序。将在索引生成界面指定的属性作为提取的对象。
取得用户通过索引生成界面指定的文档数据135(1346)(1347),使用茶刷等词素解析程序来解析(1341)。参照属性名·单位用语词典1344提取词素解析的结果被分类为名词的词中、与用户指定的属性有关的用语、数词和属性相关联的单位(1342)。图20(a)示出属性名用语词典的例子。由于属性名不同,存在各种表现方式,所以生成网罗全部不同表述的用语词典,在提取中使用。另外,图20(b)示出单位词典的例子。由于单位也存在各种单位的表述方法,所以生成网罗全部不同表述的单位词典,在提取中使用。接着,通过模式匹配提取数词信息和在其邻近出现的单位、属性(1343)并输出。事先定义作为提取对象的模式“数词”、“单位”和“属性”,作为模式词典(1345)保持。图21示出模式词典的例子。
在图16中,说明文档数据中包含数值和与其属性有关的名称的组时的索引生成程序132的动作。数值信息和与其属性有关的名称的组1321预先使用数值提取程序134从文档数据中提取,与文档数据相对应。文本部分和数值信息部分分别处理(1322)。文档数据的文本部分利用词素解析程序等分解成单词(1323),计算出现频度(1325)。这种情况下,既可对单词进行索引,也可对N-gram等字符串进行索引。另外,既可包含提取的数值信息部分的文本,也可以不包含。关于数值信息和属性名的组,使用与属性名有关的数值转换表,将提取的数值置换成相应的数值区间(1324),作为数值区间和属性名的组来进行索引,计算其出现频度(1325)。生成的索引和出现频度作为索引存储于数据库中(1326)。
在图17中,说明用于生成数值区间的程序137的一例。用户使用GUI输入具有由属性名选择单选按钮1212指定的属性分布的数值数据(1371、图12的1214、1215)、或根据由文档数据指定部1216指定的文档数据生成分布数据(使用数值分布数据生成程序(图22示出流程),根据由文档数据指定部1216指定的文档数据,生成与由属性名选择单选按钮1212指定的属性有关的分布数据)。显示生成的分布(1372)。对应于用户指定的数值区间的种类(1373),使用用户指定的参数(区间生成范围、区间生成单位、区间的宽度、等比例或等区间、重复度)1374,生成数值区间(1375)。存储生成的属性和数值区间的数据作为数值转换表138(1376)。
图18示出由于数值的表述方法不同而使数值的单位或表述方法不同时,用于进行单位转换的属性信息词典和转换信息词典的例子。图18(a)表示属性信息词典的例子,图18(b)表示转换信息词典的例子。参考特开2004-178490号公报“数值信息检索装置”的统一单位的方法。在对文档数据应用了数值提取程序134后进行单位转换。在文档中出现数词和单位的组时,使用属性信息词典检查是否是单位转换的对象。在属性信息词典中存储作为单位转换对象的数词和单位或属性名。在文档中出现作为单位转换对象的数词和单位的组时,对该字符串赋与标签。接着,使用存储了属性、转换前的数词·单位、转换后的数词·单词的转换信息词典,在赋与了标签的字符串对应于转换前的数词·单位的组时,转换成转换后的数词·单位的组,统一单位。
作为例子,使用以下的例文(a)、(b)、(c)。
(a)0.15cm大小的肿瘤
(b)20mm大小的肿瘤
(c)0.05米大小的肿瘤
使用数值提取程序134,向表示属性的用语、数词和付随的单位赋与标签。
(a-1)<数词和单位>0.15cm</数词和单位>的<属性>大小的肿瘤</属性>
(b-1)<数词和单位>20mm</数词和单位>的<属性>大小的肿瘤</属性>
(c-1)<数词和单位>0.05米</数词和单位>的<属性>大小的肿瘤</属性>
对于赋与了标签的部分,使用属性信息词典,针对数词·单位的组检查是否有必要进行单位转换,在必要时赋与用于转换的标签。
(a-2)<数词和单位><LENGTH>0.15cm</LENGTH></数词和单位>的<属性>大小的肿瘤</属性>
(b-2)<数词和单位>20mm</数词和单位>的<属性>大小的肿瘤</属性>
(c-2)<数词和单位><LENGTH>0.05米</LENGTH></数词和单位>的<属性>大小的肿瘤</属性>
对于确认有必要转换的字符串,使用转换信息词典进行单位的转换。
(a-3)<数词和单位>0.15*10**2mm</数词和单位>的<属性>大小的肿瘤</属性>
(b-3)<数词和单位>20mm</数词和单位>的<属性>大小的肿瘤</属性>
(c-3)<数词和单位>0.05*10**3mm</数词和单位>的<属性>大小的肿瘤</属性>
图19表示索引生成界面的例子。该界面具备:解析器指定部1901,指定用于进行词素解析或N-gram等文档数据的解析的解析器;数据指定部1902,指定成为解析对象的数据;数值转换表指定部1903,从多个数值转换表中指定任意的表;和索引生成按钮1904。
图21示出模式词典1345的例子。在利用词典的模式表现在文章中的情况下,提取属性的信息。“血糖值+数词+mg/dl”的模式在文章中(也可以设置在哪些词以内的限制)按用语“血糖值”、“数词”和单位“mg/dl”的顺序出现时,提取这些字符串作为血糖值信息,赋与提取标签。
利用图22的流程图,示出数值分布数据生成程序的处理流程。通过图12示出的数值转换表生成界面的分布生成按钮来起动数值分布数据生成程序。取得由属性名选择单选框1212指定的文档数据135(2201、2202),对文档数据进行词素解析(2203)。参照属性名·单位用语词典1344,提取词素解析结果被分类成名词的词当中与用户指定的属性有关的用语、数词和属性相关联的单位(2204)。接着,通过模式匹配提取数词信息和其附近出现的单位、属性(2205)并输出。事先定义作为提取对象的模式“数词”、“单位”和“属性”,作为模式词典1345保持。图21示出模式词典的例子。由于提取的数值信息有时即使是表示相同属性的数值、单位也不同,所以如上所述,使用属性信息词典或转换信息词典2209进行单位的转换(2206)。对每个提取的数值进行合计(2207),生成分布数据后输出(2208)。这里生成的数据形成用于生成数值区间的程序137的输入。
图23(a)示出表示将数据的哪个项目作为解析对象来生成索引的解析对象指示表的例子。在解析对象指示表中,第1列放入数据的种类,第2列放入存储了各数据中作为解析对象的文档数据的项目名称,第3列以后放入存储了属性数据的项目名称。图23(b)示出解析对象的数据例。解析对象的数据例在经过记录数据例中,在第3列的报告项目中存储文档数据,在第4列的基本信息(年龄)项目中存储年龄。在想对经过记录的数据的血糖值数据和年龄数据进行数据转换、生成索引时,必须使用文档数据项目和年龄数据项目生成索引。因此,在解析对象指示表的数据的种类为“经过记录”的行,取得文档数据项目和年龄数据项目,将经过记录数据的各项目作为解析对象。
Claims (13)
1.一种文档检索系统,其特征在于,具有:
文档数据库,存储了多个文档的数据;
数值数据提取单元,从存储于所述文档数据库中的所述文档中提取数值数据;
根据由所述数值数据提取单元提取的数值数据的分布,指定所述数值数据的数值范围分割方法的单元;
数值区间生成单元,按照所述指定的分割方法分割所述数值范围,生成多个数值区间;
每个文档的索引,利用由所述数值区间生成单元生成的多个数值区间,将存储于所述文档数据库中的文档中的数值作为表示该数值的属性的标志、包含该数值的数值区间、和在文档中的出现频度的组来附加索引,并将文档中的文本作为构成该文本的单词和其出现频度的组来附加索引;和
运算部,接收文档的指定作为检索输入,使用所述索引,计算所述指定的文档与存储于所述文档数据库中的文档间的相似度,从相似度高的文档开始,依次提示。
2.根据权利要求1所述的文档检索系统,其特征在于:
所述数值区间针对属性A的数值的集合D,构成至少在某个区间中包含D的全部要素的数值区间的集合E。
3.根据权利要求2所述的文档检索系统,其特征在于:
存在一部分相互重复的数值区间的组。
4.根据权利要求1所述的文档检索系统,其特征在于,
具有数值提取处理部、将按属性的每个种类准备的数值转换成数值区间的数值转换表和索引生成部,对存储于所述文档数据库中的各文档,通过所述数值提取处理部提取属性和数值的组,所述索引生成部按照所述数值转换表,对所述提取的属性和数值的组附加索引。
5.根据权利要求4所述的文档检索系统,其特征在于:
具有使属性和用语的组与属性和数值或数值区间的组相对应的用语-数值转换表,所述数值提取处理部从文档中提取属性和用语的组,通过所述用语-数值转换表将提取的属性和用语的组转换成用语和数值区间的组,所述索引生成部按照所述数值转换表,对利用所述用语-数值转换表转换成属性和数值的组的属性和用语的组附加索引。
6.一种文档检索方法,其特征在于,具有以下步骤:
从存储了多个文档的数据的文档数据库所存储的文档中提取数值数据;
根据所述提取的数值数据的分布,指定所述数值数据的数值范围分割方法;
按照所述指定的分割方法分割所述数值范围,生成多个数值区间;
利用所生成的多个数值区间,将存储于所述文档数据库中的文档中的数值作为表示该数值的属性的标志、包含该数值的数值区间、和在文档中的出现频度的组附加索引,并将文档中的文本作为构成该文本的单词和其出现频度的组来附加索引;
接收文档的指定作为检索输入;
使用每个文档的索引和被指定作为所述检索输入的文档的索引,计算所述指定的文档与存储于所述文档数据库中的各文档的相似度;以及
按所述相似度从高到低的顺序,提示所述文档数据库的文档。
7.根据权利要求6所述的文档检索方法,其特征在于:
所述数值区间针对属性A的数值的集合D,构成至少在某个区间中包含D的全部要素的数值区间的集合E。
8.根据权利要求7所述的文档检索方法,其特征在于:
存在一部分相互重复的数值区间的组。
9.根据权利要求6所述的文档检索方法,其特征在于,具有以下步骤:
针对存储于所述文档数据库中的各文档提取属性和数值的组;以及,按照针对每个属性将数值转换为数值区间的数值转换表,对所述提取的属性和数值的组附加索引。
10.根据权利要求9所述的文档检索方法,其特征在于,具有如下步骤:
从文档中提取属性和用语的组;按照使属性和用语的组与属性和数值或数值区间的组相对应的用语-数值转换表,将所述提取的属性和用语的组转换成用语和数值区间的组;以及,按照所述数值转换表,对在前述步骤中转换成属性和数值的组的属性和用语的组附加索引。
11.一种文档检索方法,其特征在于,具有以下步骤:
从存储了多个文档的数据的文档数据库所存储的文档中提取数值数据;
根据所述提取的数值数据的分布,指定所述数值数据的数值范围分割方法;
按照所述指定的分割方法分割所述数值范围,生成多个数值区间;
从所述文档数据库中存储的各文档中,提取属性和数值的组;
利用所生成的多个数值区间,按照将按属性的每个种类准备的数值转换成数值区间的数值转换表,将所述提取的数值转换成数值区间,并作为属性、数值区间和出现频度的组附加索引;
将文档中的文本作为构成该文本的单词和其出现频度的组附加索引;
使用所述附加索引后的文档数据,计算被指定作为检索输入的文档数据与存储于所述文档数据库中的各文档的相似度;以及
按所述相似度从高到低的顺序提示所述文档数据库的文档。
12.根据权利要求11所述的文档检索方法,其特征在于:
所述数值区间针对属性A的数值的集合D,构成至少在某个区间中包含D的全部要素的数值区间的集合E。
13.根据权利要求11所述的文档检索方法,其特征在于,具有以下步骤:
从文档中提取属性和用语的组;按照使属性和用语的组与属性和数值或数值区间的组相对应的用语-数值转换表,将所述提取的属性和用语的组转换成用语和数值区间的组;以及,按照所述数值转换表,对在前述步骤中转换成属性和数值的组的属性和用语的组附加索引。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007119872A JP5154832B2 (ja) | 2007-04-27 | 2007-04-27 | 文書検索システム及び文書検索方法 |
JP2007-119872 | 2007-04-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101295307A CN101295307A (zh) | 2008-10-29 |
CN101295307B true CN101295307B (zh) | 2010-08-04 |
Family
ID=39888210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008100058666A Expired - Fee Related CN101295307B (zh) | 2007-04-27 | 2008-02-15 | 文档检索系统及文档检索方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8046368B2 (zh) |
JP (1) | JP5154832B2 (zh) |
CN (1) | CN101295307B (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5211557B2 (ja) * | 2007-06-15 | 2013-06-12 | 富士通株式会社 | Web会議支援プログラム、該プログラムを記録した記録媒体、Web会議支援装置、およびWeb会議支援方法 |
US7941399B2 (en) | 2007-11-09 | 2011-05-10 | Microsoft Corporation | Collaborative authoring |
US8825758B2 (en) | 2007-12-14 | 2014-09-02 | Microsoft Corporation | Collaborative authoring modes |
US8301588B2 (en) | 2008-03-07 | 2012-10-30 | Microsoft Corporation | Data storage for file updates |
US8352870B2 (en) | 2008-04-28 | 2013-01-08 | Microsoft Corporation | Conflict resolution |
US8825594B2 (en) | 2008-05-08 | 2014-09-02 | Microsoft Corporation | Caching infrastructure |
US8429753B2 (en) | 2008-05-08 | 2013-04-23 | Microsoft Corporation | Controlling access to documents using file locks |
US8417666B2 (en) | 2008-06-25 | 2013-04-09 | Microsoft Corporation | Structured coauthoring |
US8682065B2 (en) * | 2008-12-24 | 2014-03-25 | Microsoft Corporation | Distance metric learning with feature decomposition |
US8346768B2 (en) | 2009-04-30 | 2013-01-01 | Microsoft Corporation | Fast merge support for legacy documents |
US9183203B1 (en) * | 2009-07-01 | 2015-11-10 | Quantifind, Inc. | Generalized data mining and analytics apparatuses, methods and systems |
JP5538830B2 (ja) * | 2009-11-12 | 2014-07-02 | 株式会社日立製作所 | 文書分析システム及び辞書作成システム |
CN101894160B (zh) * | 2010-07-21 | 2012-02-08 | 同方知网(北京)技术有限公司 | 一种智能检索方法 |
US9892279B2 (en) * | 2010-12-22 | 2018-02-13 | Koninklijke Philips N.V. | Creating an access control policy based on consumer privacy preferences |
JP5924339B2 (ja) | 2011-06-21 | 2016-05-25 | 日本電気株式会社 | 数値範囲検索装置、数値範囲検索方法、および数値範囲検索プログラム |
US9690845B2 (en) | 2011-07-29 | 2017-06-27 | Nec Corporation | System for generating index resistant against divulging of information, index generation device, and method therefor |
US8996350B1 (en) | 2011-11-02 | 2015-03-31 | Dub Software Group, Inc. | System and method for automatic document management |
JP5324677B2 (ja) * | 2012-02-24 | 2013-10-23 | 株式会社日立製作所 | 類似文書検索支援装置及び類似文書検索支援プログラム |
US20140019854A1 (en) * | 2012-07-11 | 2014-01-16 | International Business Machines Corporation | Reviewer feedback for document development |
JP6054790B2 (ja) | 2013-03-28 | 2016-12-27 | 三菱スペース・ソフトウエア株式会社 | 遺伝子情報記憶装置、遺伝子情報検索装置、遺伝子情報記憶プログラム、遺伝子情報検索プログラム、遺伝子情報記憶方法、遺伝子情報検索方法及び遺伝子情報検索システム |
CN103593816A (zh) * | 2013-11-25 | 2014-02-19 | 方正国际软件有限公司 | 病历文档的存储装置和存储方法 |
US20160055348A1 (en) * | 2014-07-27 | 2016-02-25 | Jerzy Jozef Lewak | Double key coding methods of providing fast search, analysis, and data retrieval of encrypted data without decryption |
CN104573350A (zh) * | 2014-12-26 | 2015-04-29 | 深圳市前海安测信息技术有限公司 | 基于网络医院的全科医生辅助诊疗系统及方法 |
CN105786932B (zh) * | 2014-12-26 | 2020-03-27 | 北大医疗信息技术有限公司 | 医疗系统中临床业务的查询方法及查询装置 |
US20210074395A1 (en) * | 2016-02-01 | 2021-03-11 | MD Aware LLC | Computerized system to provide medical diagnosis, prognosis, and treatment using more refined digital health records having improved context |
AU2017250467B2 (en) * | 2016-04-15 | 2019-12-19 | Solventum Intellectual Properties Company | Query optimizer for combined structured and unstructured data records |
CN106933787A (zh) * | 2017-03-20 | 2017-07-07 | 上海智臻智能网络科技股份有限公司 | 判决文书相似度的计算方法、查找装置及计算机设备 |
JP6841154B2 (ja) * | 2017-05-15 | 2021-03-10 | 富士通株式会社 | 新奇性分析装置、新奇性分析システム、新奇性分析プログラムおよび新奇性分析方法 |
US11687734B2 (en) | 2019-07-05 | 2023-06-27 | Elsevier, Inc. | Systems and methods to extract the context of scientific measurements using targeted question answering |
US11714964B2 (en) | 2020-03-13 | 2023-08-01 | Canon Medical Systems Corporation | Text processing method and apparatus |
JP7446147B2 (ja) * | 2020-04-14 | 2024-03-08 | 株式会社日立製作所 | 合意形成支援装置および合意形成支援方法 |
CN116860828A (zh) * | 2023-06-16 | 2023-10-10 | 深圳市世强元件网络有限公司 | 一种区间数值检索方法、存储介质及计算机 |
CN116633673B (zh) * | 2023-06-29 | 2023-10-27 | 北京东华博泰科技有限公司 | 用于综合能源平台的数据安全传输系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5404514A (en) * | 1989-12-26 | 1995-04-04 | Kageneck; Karl-Erbo G. | Method of indexing and retrieval of electronically-stored documents |
CN1975729A (zh) * | 2005-12-02 | 2007-06-06 | 国际商业机器公司 | 搜索文本中关键词的系统及其方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63101963A (ja) * | 1986-10-20 | 1988-05-06 | Fujitsu Ltd | 検索システム |
JPH0962693A (ja) | 1995-08-24 | 1997-03-07 | Hitachi Ltd | 確率モデルによる文書分類方法 |
JP3760057B2 (ja) | 1998-11-19 | 2006-03-29 | 株式会社日立製作所 | 複数文書データベースを対象とした文書検索方法および文書検索サービス |
JP2001216306A (ja) * | 2000-01-31 | 2001-08-10 | Hitachi Ltd | カテゴリ作成装置 |
JP2001273322A (ja) * | 2000-03-24 | 2001-10-05 | Matsushita Electric Ind Co Ltd | 情報検索方法 |
US6584406B1 (en) | 2000-06-15 | 2003-06-24 | Geo-X Systems, Ltd. | Downhole process control method utilizing seismic communication |
JP2004178490A (ja) | 2002-11-29 | 2004-06-24 | Oki Electric Ind Co Ltd | 数値情報検索装置 |
JP2005250980A (ja) | 2004-03-05 | 2005-09-15 | Oki Electric Ind Co Ltd | 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム |
JP2005275560A (ja) * | 2004-03-23 | 2005-10-06 | Techno Network Shikoku Co Ltd | 形容詞キーワード拡充システムと、これを用いた形容詞情報から検索者の意図理解検索システムと、形容詞情報から検索者の意図推論検索システム。 |
US20050261941A1 (en) * | 2004-05-21 | 2005-11-24 | Alexander Scarlat | Method and system for providing medical decision support |
JP2006227914A (ja) * | 2005-02-17 | 2006-08-31 | Canon Inc | 情報検索装置、情報検索方法、プログラム、記憶媒体 |
US7657521B2 (en) * | 2005-04-15 | 2010-02-02 | General Electric Company | System and method for parsing medical data |
JP4618045B2 (ja) * | 2005-05-18 | 2011-01-26 | 沖電気工業株式会社 | 範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラム |
-
2007
- 2007-04-27 JP JP2007119872A patent/JP5154832B2/ja not_active Expired - Fee Related
-
2008
- 2008-02-12 US US12/029,694 patent/US8046368B2/en not_active Expired - Fee Related
- 2008-02-15 CN CN2008100058666A patent/CN101295307B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5404514A (en) * | 1989-12-26 | 1995-04-04 | Kageneck; Karl-Erbo G. | Method of indexing and retrieval of electronically-stored documents |
CN1975729A (zh) * | 2005-12-02 | 2007-06-06 | 国际商业机器公司 | 搜索文本中关键词的系统及其方法 |
Non-Patent Citations (1)
Title |
---|
JP特開2006-331117A 2006.12.07 |
Also Published As
Publication number | Publication date |
---|---|
JP5154832B2 (ja) | 2013-02-27 |
CN101295307A (zh) | 2008-10-29 |
JP2008276550A (ja) | 2008-11-13 |
US20080270386A1 (en) | 2008-10-30 |
US8046368B2 (en) | 2011-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101295307B (zh) | 文档检索系统及文档检索方法 | |
Szekely et al. | Connecting the smithsonian american art museum to the linked data cloud | |
Vuong et al. | Characteristics of retracted articles based on retraction data from online sources through February 2019 | |
Milojević et al. | Information metrics (iMetrics): A research specialty with a socio-cognitive identity? | |
Yan | Research dynamics, impact, and dissemination: A topic‐level analysis | |
Gaizauskas et al. | The METER corpus: a corpus for analysing journalistic text reuse | |
Pignal et al. | Saint-Hilaire virtual herbarium, a new upgradeable tool to study Brazilian botany | |
Tseng et al. | Journal clustering of library and information science for subfield delineation using the bibliometric analysis toolkit: CATAR | |
Van Hooland et al. | Evaluating the success of vocabulary reconciliation for cultural heritage collections | |
CN103282903A (zh) | 话题提取装置和程序 | |
CN109074858A (zh) | 没有明显准标识符的去识别的健康护理数据库的医院匹配 | |
Brugman et al. | Nederlab: Towards a single portal and research environment for diachronic Dutch text corpora | |
Petras et al. | Time period directories: a metadata infrastructure for placing events in temporal and geographic context | |
CN101770291B (zh) | 输入系统语意分析数据散列存储和分析方法 | |
Farhat et al. | Analyzing the scholarly footprint of ChatGPT: Mapping the progress and identifying future trends | |
Connaway et al. | Publisher names in bibliographic data | |
Vernygora et al. | Toward transparent taxonomy: An interactive web‐tool for evaluating competing taxonomic arrangements | |
Lacasta et al. | Approaches for the clustering of geographic metadata and the automatic detection of quasi-spatial dataset series | |
JP2004102818A (ja) | 検索支援方法および検索支援装置 | |
Álvarez-Mellado | A corpus of Spanish political speeches from 1937 to 2019 | |
Elsayed et al. | Applying data mining for ontology building | |
Mayernik | The distributions of MARC fields in bibliographic records | |
Caracciolo et al. | Knowledge management at FAO: a case study on network of ontologies in fisheries | |
Lakatos et al. | Designing prompts and creating cleaned scientific text for retrieval augmented generation for more precise responses from generative large language models | |
Pattuelli | FOAF in the Archive: Linking Networks of Information with Networks of People: Final Report to OCLC |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100804 Termination date: 20210215 |