CN101388019A - 文献字段标准化的方法 - Google Patents
文献字段标准化的方法 Download PDFInfo
- Publication number
- CN101388019A CN101388019A CNA2007103070650A CN200710307065A CN101388019A CN 101388019 A CN101388019 A CN 101388019A CN A2007103070650 A CNA2007103070650 A CN A2007103070650A CN 200710307065 A CN200710307065 A CN 200710307065A CN 101388019 A CN101388019 A CN 101388019A
- Authority
- CN
- China
- Prior art keywords
- value
- field
- candidate
- candidate record
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/217—Database tuning
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种对结构字段相关数据库的文献字段进行标准化的方法。该方法包括根据潜在的侯选记录内相应字段里的值,同时考虑数据库里该候选记录以及其他相关记录内的其他相关字段,对候选记录进行加权。连续对每个候选记录进行评估,并与一个可接受门限值进行比较。如果该权重超过该门限值,那么从查询返回该候选记录。否则就在数据库里生成新条目。视需要,在生成这种新条目之前,可以将最高加权候选记录与最低可接受门限值进行比较,如果该权重超过这个较低门限值,那么根据查询返回该候选。
Description
技术领域
本发明涉及数据库条目(entry),具体地,本发明涉及对数据库条目进行文献字段标准化的改进方法。
背景技术
很多数据库系统都包含着数千乃至数百万的记录。通常,主要用这些记录中的一个或多个字段来编录或检索数据库记录。这些字段被称为文献字段。
并不鲜见的是,对这些文献字段而言,多个数据库记录具有一个共同值。例如,在一个记载有多个专利记录细节的数据库中,可以用个人或公司的名字访问该专利数据库,该个人或公司可以是该专利的发明人和/或受让人。而该相同的个人或公司名字可以用于具有相同发明人和/或受让人的若干专利。
如通常的情形那样,当记录条目是采用手工输入时,碰到错误的条目是很常见的。即使设立标准的命名规则,如对个人名字设立标准的命名规则(例如,名在姓后面,以逗号分开,或者在姓名前冠以一系列称呼之一,如“Mr.”、“Ms.”),也是如此。
而且,记录数据可能被正确地输入,但是记录本身的信息可能表现为较早阶段的潜在条目错误,例如,在已授权专利的封页上,发明人的名字存在着排字错误。
通常,大多数数据库条目系统执行的是人工验证步骤,借此检验员手动地检查所输入的记录,或者检查正在输入的记录字段与已输入进数据库内的对应条目之间的匹配。这样就确保了数据库自始至终保持着正确的形式,从而适合于检索。
然而无论以何种方实现,即使在一个记录包含很少的文献字段的情形下,这种人工验证过程的成本也很高,并且不能保证与任意命名规则都普遍相适应或者数据条目的100%准确度。实际上,如果错误是潜在的,即在当前输入进数据库内的文件或记录上已经有错误的信息,那么这种验证过程将没有任何作用。
另外,这种验证过程的成本还使得只能对所识别的关键文献字段中很少的一部分,例如在专利数据库中,只能对第一发明人和/或受让人的名字执行这样的检验。而其他的文献字段,比如共同发明人的名字、代理人或者其他当事人,通常未经验证,而且估计会充斥着数据库条目错误。因此,对于使用这种次级文献字段进行检索而言,这种人工验证工作根本无法保证检索能够覆盖正确或希望的记录。
由于上述的这些缺点,人们对开发标准化的程序产生了兴趣。与促使数据库条目的正确性相比,这种标准化程序更多的是针对潜在的不正确条目,并产生一种度量标准(metrics),该度量标准用于识别哪些不是完全相同的文献字段能够指向相同的条目,从而便于检索数据库。
这些程序中的许多都使用的是编辑距离算法(edit distancealgorithm),这些算法包括但并不限于Levenshtein,Hamming以及damerau-levenshtein算法,这些算法用于量化两词之间的相似度。同样已知的还有模糊检索,这种算法通常通过对两个文本字符串间的差别进行加权从而测定它们之间的相关性,其中对应于相同字符串的权重为零,对应于相差单个替换(词语中单个字母产生的变化)的字符串的权重为1,等等。
采用这种度量标准,加权值越小,所考虑字符串构成匹配的可能性越大,也即,所考虑字符串涉及相同的文献实体的可能性越大,该文献实体可以用查找表或词典加以识别。
现有技术中已有许多涉及在查询时能自动校正文本错误的方法的系统。
例如,2006年7月11日授权给Nagao的、名称为“DocumentProcessing Apparatus Having an Authoring Capability for Describing aDocument Structure”的美国专利No.7,706,732描述了使用词典循环(looping)来校正短语字符串中的错误。短语字符串指的是不构成完整语句的词语字符串,如搜索引擎中的关键词。Nagao教导的这种方法将整个短语字符串分段成子字符串,而不是由空格描绘(space-delineated)的词语,然后将这些子字符串与短语词典里的条目进行比较,获得最佳匹配。Nagao主要针对的是搜索引擎中的拼写校正,并且仅能有限地适用于较大数据库内文献字段的标准化。
2003年4月29日授权给Borkovsky的、名称为“Item NameNormalization”的美国专利No.6,556,991将拼写相似的侯选文献字段集合在一起,在有关所选择标准化文献字段的词典里形成簇(cluster)。输入进数据库里的侯选字段被映射(map)到该簇的对应标准字段。然而,Borkovsky将这种匹配能力限制为仅考虑所列的词典。因而,对侯选记录的加权只是基于有问题文献字段的值。
Trajtenberg等人在2004年Tel Aviv University召开的NBER和CEPR会议上、名为“The Names Game:Using Inventors Patent Data in EconomicResearch”的报告中,其网址为:<www.siepr.stanford.edu/programs/SST_Seminars/Seminar_Stanford_1.ppt>(“Trajtenber No.1”),和在国家经济研究局工作文件12479(2006年8月)上、名为“The‘Names Game’:Harnessing Investors’Patent Data for Economic Research”的文件中,其网址为:国家经济研究局<www.nber.org/papers/w 12479>(“TrajtenbergNo.2”),描述了一种在经济研究时从专利信息,具体是从发明人信息获得有用数据的方法。在检索期间通过用相关字段使侯选与查询的文献字段相匹配,例如,使专利号与发明人名字这对字段相匹配,将对应于发明人的记录字段标准化。然而,Trajtenber No.1和Trajtenber No.2只是用成对的匹配技术来使这些成对的相关字段相匹配,它并不考虑在与该有问题文献字段相关的数据库里的不止一个相关字段或任何潜在相关记录。
因此,设计一种改进的自动文献字段标准化方法将会有优点,该方法能够最少地使用人工方式对输入进数据库里的数据记录的精确度进行验证。
发明内容
本发明的目的是提供一种改进的在检索过程中对文献字段进行标准化的方法,该方法能够最优化找到对查询中的特定文献字段的匹配的能力。
而且,本发明的目的是提供一种改进的文献字段标准化方法,其能够在一个共用数据库里将多个同样的文献字段值和/或类似的文献字段值区别开来。
依照本发明的一个实施例,本发明公开了一种对潜在的易于出错的文献字段进行标准化的方法,该文献字段是结构字段相关数据库查询的基础。当基于文献字段来表述查询时,利用词语间的间隔、可能的缩写或其他相似形式,将该文献字段的可能侯选识别出来。
本发明利用的是查询时在可以被指定或没有被指定的相关字段里包含的线索,本发明还基于这样的事实,即在许多相关数据库里,可以存在着多个通过指定的文献字段或其他方式而与侯选记录相关的记录。
依照本发明一个实施例的第一宽泛方面,本发明公开一种在结构相关数据库里通过查询对查询字段进行标准化的方法,其中该结构相关数据库具有多个记录,该方法包括如下步骤:(a)从多条记录中识别出至少一个侯选记录,该至少一个侯选记录在相应字段里具有一值,该值相似于查询字段里的一值;(b)对于该至少一个侯选记录里的一选定侯选记录,考虑到侯选记录中其他字段里的值,产生一相似度权重,该相似度权重反映该相应字段里的值与该查询字段里的值的相似度;(c)将该相似度权重与一可接受门限值比较,如果该相似度权重小于该可接受门限值,那么用一不同的选定侯选记录重复步骤(b),直到该至少一个侯选记录里的所有侯选记录都已被选择过;(d)如果该相似度权重至少等于该可接受门限值,那么响应于该查询,将选定的侯选记录返回;以及(e)否则,响应于该查询在数据库里生成新条目。
依照本发明一个实施例的第二宽泛方面,本发明公开一种存有计算机可执行指令的计算机可读取介质,当计算机执行该指令时,能够使计算机实现在结构相关数据库里通过查询对查询字段进行标准化的方法,其中该结构相关数据库具有多个记录,该方法包括如下步骤:(a)从多条记录中识别出至少一个侯选记录,该至少一个侯选记录在相应字段里具有一值,该值类似于查询字段里的一值;(b)对于该至少一个侯选记录里的一选定侯选记录,考虑到侯选记录中其他字段里的值,产生一相似度权重,该相似度权重反映该相应字段里的值与该查询字段里的值的相似度;(c)将该相似度权重与一可接受门限值比较,如果该相似度权重小于该可接受门限值,那么用一不同的选定侯选记录重复步骤(b),直到该至少一个侯选记录里的所有侯选记录都已被选择过;(d)如果该相似度权重至少等于该可接受门限值,那么响应于该查询,将选定的侯选记录返回;以及(e)否则,响应于该查询在数据库里生成新条目。
附图说明
现在,参看下面的附图描述本发明的实施例,在不同附图中,相同的附图标记表示相同的元件。其中:
图1是示出第一种现有技术方法的文献字段标准化所遵循的处理步骤的流程图;
图2是示出第二种现有技术的文献字段标准化所遵循的处理步骤的流程图;
图3是示出本发明的一个例举实施例所遵循的处理步骤的流程图;
图4是示出本发明的另一个例举实施例所遵循的处理步骤的流程图。
具体实施方式
下面仅为了说明起见,将依据某些实施例来描述本发明,然而应当理解,借助于下面对附图的描述,本发明的其他目的和优点将变得很明显。虽然公开的是优选实施例,但本发明不限于此。相反,这里阐述的一般原理仅仅是为了说明本发明的范围,并且可以理解,在不超出本发明的范围的条件下可以作出许多变化。
参看图1,流程图100示出的是现有技术中最简单的文献字段标准化所遵循的处理步骤,这种文献字段标准化作为用于数据库的第三种标准化形式,对本领域普通技术人员而言是众所周知的。
根据流程图100,第一步骤110涉及到在文献字段下输入一个值,以便进行检索,并从数据库里取回记录。例如,该记录可以是专利数据库里的一篇专利,该输入的值可以是第一发明人或者受让人的名字。
接下来,步骤120在数据库里检索具有与输入字段值相匹配的相应文献字段的记录。这样,具有零加权值的侯选记录将代表着与相应文献字段的精确匹配。
若在判断步骤130发现精确匹配,则步骤140响应于该查询(或在响应于该查询的过程中)将匹配于相应字段的记录返回。在步骤140之后,该过程结束。
若在判断步骤130没有发现任何匹配,则输入的字段值作为一个唯一的新条目被添加到数据库150。在步骤150之后,该过程结束。
在图2中,流程图200示出了一个稍强大的现有技术方法。流程图200非常类似于图1所示的流程图100。但根据流程图200示出的处理步骤,若在步骤130没有发现精确匹配,则不是在该阶段生成新条目,而是在步骤260作出进一步的查询。步骤260在数据库里检索具有与输入字段值不精确匹配的相应文献字段的侯选记录。具有大于零的加权值的侯选记录将代表着与相应文献字段不精确的匹配。
接下来,基于与侯选字段相关联的该加权值,判断步骤270判断该不精确的匹配是否可接受。若在判断步骤270发现可接受的匹配,则步骤280响应于该查询(或在响应于该查询的过程中)将匹配于该相应字段的记录返回。在步骤280之后,该过程结束。
若没有发现任何可接受的匹配,则在步骤150,输入的字段值作为一个唯一的条目被添加到数据库。在步骤150之后,该过程结束。
在该现有技术的第二个实例中,通过设立适当的门限加权值,确定可接受的匹配,低于该门限加权值的匹配被认为可接受,高于该门限加权值的匹配被认为不可接受。零值表示精确匹配。
在许多现有技术的方法中,都采用一种与加权稍微有些差别的方法,包括评价有限量的额外数据。例如,在专利数据库的情形中,当第一文献字段是受让人的名字时,第二检索步骤260既可以包括该第一文献字段的检索,又可以包括第一发明人名字的相应字段的检索。根据这种方法,基于这两个字段与添加在数据库里的记录的相应条目的相似度,就可以计算出加权。考虑这种额外数据就允许对要分配的权重进行分级。
本领域的普通技术人员能够很容易地理解,找出可接受匹配的可能性是随着所考虑的额外相关字段数据的数量而增加的。
现在参看图3,示出的是本发明一个例举性实施例所遵循的处理步骤的流程图300。根据这些处理步骤,步骤110包括在文献字段下输入一个值,以进行检索,并从数据库取回一条记录。例如,该记录可以是专利数据库里的一篇专利,而所输入的该值可以是第一发明人的名字。
接下来,步骤320在数据库里检索具有与所输入字段值相匹配的相应文献字段的记录。具体地,步骤320检索对于相应的文献字段、具有接近于零的加权值的侯选记录。基于该数据库,步骤320还产生一个在相应字段下具有相似值的侯选记录列表。该侯选记录列表仅基于参考所指定的文献字段而分配的加权值编制而成。
优选地,设立一个合适的第一门限加权值,低于该第一门限加权值的匹配被认为可接受,高于该第一门限加权值的匹配被认为不可接受,从而限制潜在侯选的数目以进行评价。该第一门限加权值可以在系统级予以预先设定。或者,该第一门限加权值可以取决于所考虑的文献字段的属性和/或正被查询的数据库的类型。但无论在何种情形下,都可以用本领域众所周知的方式进行一些试验,以达到合适的门限值。
在步骤320之后,在侯选列表里选择下一个侯选记录以用于步骤330考虑。在步骤340,对于该选定的侯选,将考虑中的文献字段里的值,连同其他结构数据一起与原始查询相关的记录的相关值进行比较,这些结构数据包括但不限于对所有与该侯选记录相关的记录、相同文献字段里的值。
其他合适的结构数据可以包括相同侯选(或相关)记录、文献、相关的非文档以及其他中的字段。
其他合适的结构数据集对本领域的普通技术人员而言也是很显然的。
这样的结构数据基于它与文献字段的相关度,以分级的方式进行加权。因此,一个文献字段与另一个文献字段的加权会有所不同。
例如,在专利数据库里,对于查询中所提交文本(像发明人名字)的标准化而言,发明人的地址会比美国专利分类号(举例来说),或者在较低程度上,比受让人的名字具有更高的相关度。另一方面,当文献字段不同时,举例来说,比如是国际分类号,那么相关字段的相对相关度也会发生变化。
优选地,设立一个合适的第二门限加权值,低于该第二门限加权值的匹配被认为可接受,高于该第二门限加权值的匹配被认为不可接受。
对于侯选列表里的每个侯选记录,步骤340将侯选记录里的相关数据与结构数据、即在步骤110输入的文献字段值进行比较。具体地,在步骤340,将侯选记录以及相关记录里的指定字段和相关字段相对于查询值进行评价,并从中得出一个根据第二门限加权值所测得的权重。
若在判断步骤270发现可接受的匹配,则步骤280响应于该查询(或在响应于该查询的过程中)将匹配于该相应字段的记录返回。在步骤280之后,该过程结束。
若没有发现任何可接受的匹配,并且若根据判断步骤380,存在着较多的侯选记录,则返回到步骤330开始评价这些侯选记录。若没有发现任何可接受的匹配,并且根据判断步骤380,也不存在着任何其他侯选记录,则在步骤150,将在步骤110输入的字段值作为一个唯一的条目添加到数据库。
现在参看图4,流程图400详细描述了本发明第二个例举性实施例所遵循的处理步骤。
该流程图400至少在初始步骤110、320、330、340、270和380类似于图3所示的流程图300。
然而,当确定不再存在着任何侯选记录之后,在步骤150将查询中输入的该字段值作为唯一条目输入数据库之前,会发生一对额外的处理步骤。
首先,步骤490根据权重将先前考虑的已经被认为是不可接受的每个侯选区分出优先次序。
其次,根据步骤495,将分配给最高加权侯选的权重与第三门限加权值比较,该第三门限加权值小于第二门限加权值但大于第一门限加权值。该第三门限值包括一个最小可接受值,该最小可接受值代表着具有最低满意匹配的值、但考虑到未曾发现完全满意的匹配这样的事实,该值是一个可以接受的值。
该三个门限值可以如下理解。第一门限值被设计为最小值,其仅仅用来剪切候选列表以避免其过长。第二门限值是将容易识别的那些候选识别为匹配的一个值。第三门限值是将那些可能是匹配的侯选识别出来的一个值,并且建议在其他侯选可能性中进行比较和优先次序区分。
在步骤495,只有当最高加权的侯选不超出第三门限值时,在查询时所输入的字段值才作为唯一的条目在步骤150输入进数据库。
在流程图300或400中详细描述的方法还可以以迭代(iterative)的方式加以应用,以获得其他可接受的侯选,在每次迭代时考虑递减数目的侯选,从而将额外的记录一致起来。例如,方法300和400可以确定“John Doe”和“John M.Doe”实际上是同一个人,从而将它们各自的记录一致起来。因此,在进一步迭代时,可以在目前一致化记录的基础上,部分地根据目前的“John Doe”和“John M.Doe”的一致化记录,来判断“ABC”公司和“ABCD”公司是同一家公司。从而,经过每次迭代,应用这些方法可以对数据库进一步标准化。
下面的实例用来说明本发明的具体实施例。下面的表1详细说明五个专利记录P1、P2、P3、P4、P5。
表1
专利记录 | P1 | P2 | P3 | P4 | P5 |
受让人 | Semi-ConductorInsights(A1) | Semi-ConductorInsights(A1) | SemiconductorInsights,Inc.(A2) | SemiconductorInsights,Inc.(A2) | SemiconductorInsights,Inc.(A2) |
受让人地址 | 3000SolandtRoad,OttawaON K2K 2X2 | 3000 SolandtRoad,OttawaON K2K 2X2 | 3000 SolandtRd.Kanata ONK2K 2X2 | 3000 SolandtRd.Kanata ONK2K 2X2 | 3000 SolandtRd.Kanata ONK2K 2X2 |
发明人 | Jason White(I1),VyacheslavZavadsky(I2) | Jason White(I1),LindaWallace(I3),Slava Zavadsky(I4) | VyacheslavZavadsky(I2),Jason Abt(I5) | VyacheslavZavadsky(I2),Linda Wallace(I3) | Jason White(I1),Jason Abt(I5),LindaWallace(I3) |
同族专利 | P3的原始申请 | 引用P4 | P1的连续申请 | 无 | 引用P1和P2 |
专利代理人 | B1 | B1 | B1 | B1 | B1 |
根据表1示出的实例,要匹配的文献字段是如上所列的受让人值Semi-Conductor Insights(A1)。一个潜在的侯选匹配是如上所列的受让人值Semiconductor Insights,Inc.(A2)。A1与A2之间的编辑距离是3:一个编辑是删除了“-”,一个编辑是用“c”替代“C”,一个编辑是插入公用短语“,Inc.”。A1的输入长度是23。因此,编辑距离与长度值的比值可表达为3/23,等于13%。根据这个实例,比值3/23是一个可接受的相似度比值,以继续判断A1和A2实际上是否匹配。
依照本发明的一个实施例,该方法将检索所有与“Semi-ConductorInsights”相关的专利记录。这里,发现两条记录:P1,P2。
接下来,依照该同一实施例,该方法检索所有与“SemiconductorInsights,Inc.”相关的专利记录。发现三条记录:P3,P4,P5。
因为对于各个专利记录P1,P2,P3,P4,P5,受让人A1和A2具有非常相似的地址,所以编辑距离比值3/23认为这些受让人的地址可能是相同的。另外,受让人A1和A2的相同地址也非常清楚地表明受让人A1和A2事实上是相同的实体。然而,也可考虑其他的文献字段值。
根据表1,P3是P1的连续申请,即P3专利申请是作为以P1原始申请为基础的连续申请而提出的。一般来说,同一受让人会提交原始申请和连续申请。因而,这种关系再次有力地表明A1与A2之间相匹配。
另外,P1和P2与P3、P4和P5共有四个发明人中的三个。这就再次非常有力地表明A1与A2之间相匹配。
而且,专利权人经常引用他们自己的专利作为现有技术或背景技术,P2引用P4而P5引用P1和P2这样的事实也很好地表明A1与A2之间相匹配。
最后,因为所有专利拥有同一专利代理人B1,所以这又很好表明A1与A2之间相匹配。但是,利用同一专利代理人自身并不是很好的标示。而这个因素与其他有利因素相结合却能成为很好的标示。
给出这些有力的标示后,该方法将条目A1和A2一致为单个条目A2。这种一致化(reconciliation)使数据库得以标准化。
还应当提及的是,在该方法的进一步迭代中,可以将发明人的名字“Vyacheslav Zavadsky”与“Slava Zavadsky”相匹配,因此将I2和I4值一致为单个条目I2。这反过来又会在数据库里产生另外的匹配,依此类推,以一种递减的方式,直到不能再做出其他另外的匹配。
本发明可以在数字电子电路或计算机硬件、固件、软件或在其组合中实施。本发明还可以在计算机程序产品上实施,该计算机程序产品可以有形地具体化为由可编程处理器执行的机器可读存储器件;处理步骤可以用可编程处理器来实施,该可编程处理器通过在输入数据上操作并产生输出来执行指令程序,从而实现本发明的功能。有利地,本发明还可以在一个或多个计算机程序中实施,这些计算机程序可以在包括有至少一个输入设备和至少一个输出设备的可编程系统上执行。每个计算机程序都可以用高级程序或面向对象的编程语言来实施,或者如果需要的话用汇编或机器语言来实施,但无论什么情形,这种语言都可以是编译语言或翻译语言。
合适的处理器包括例如通用和专用微处理器。通常,处理器从只读存储器和/或任意存取存储器接收指令和数据。一般地,计算机包括有一个或多个用于存储数据文件的大容量存储器,这类存储器包括磁盘,像内部硬盘和可移动盘;磁光盘;以及光盘。适合于有形地具体化计算机程序指令和数据的存储器包括:所有形式的非易失存储器,例如包括诸如EPROM、EEPROM以及闪速存储器的半导体存储器;诸如内部硬盘和可移动盘的磁盘;磁光盘;CD-ROM盘;以及诸如锁存器和/或触发器的缓冲电路。任何一种前述的存储器都可以用ASIC(特定应用集成电路)、FPGA(场可编程门阵列)或DSP(数字信号处理器)进行补充或结合在其内。
适合于实施或执行本发明的方法的计算机类型可以包括处理器、任意存取存储器、硬盘驱动控制器以及用处理器总线耦合的输入/输出控制器。
对本领域普通技术人员而言,很显然,可以在不脱离本发明精神和范围的情况下,对在此公开的符合本发明的实施例做出各种改变和变化。
就在此公开的本发明的说明书和实施而言,符合本发明的其他实施例也是很显然的。
因此,本说明书及实施例都应当认为是仅仅用于例举,本发明的实际范围和精神由所附权利要求书限定。
Claims (6)
1.一种在结构相关数据库里通过查询对查询字段进行标准化的方法,其中该结构相关数据库具有多个记录,该方法包括如下步骤:
(a)从多条记录中识别出至少一个侯选记录,该至少一个侯选记录在相应字段里具有一值,该值相似于查询字段里的一值;
(b)对于该至少一个侯选记录里的一选定侯选记录,考虑到侯选记录中其他字段里的值,产生一相似度权重,该相似度权重反映该相应字段里的值与该查询字段里的值的相似度;
(c)将该相似度权重与一可接受门限值比较,如果该相似度权重小于该可接受门限值,那么用一不同的选定侯选记录重复步骤(b),直到该至少一个侯选记录里的所有侯选记录都已被选择过;
(d)如果该相似度权重至少等于该可接受门限值,那么响应于该查询,将选定的侯选记录返回;以及
(e)否则,响应于该查询在数据库里生成新条目。
2.如权利要求1限定的方法,其中步骤(b)要考虑在与选定侯选记录相关的多个记录的其他字段里的值。
3.如权利要求1限定的方法,在步骤(e)之前,还包括另外的如下步骤:
(d1)依照侯选记录的相关的相似度权重,将所有的侯选记录区分出优先次序;和
(d2)如果最高优先侯选记录的相似度权重至少等于一个满意的门限值,那么响应于该查询,将该最高优先侯选记录返回。
4.如权利要求1限定的方法,其中该字段是数据库的文献字段。
5.如权利要求1限定的方法,其中该数据库包含专利记录。
6.一种存有计算机可执行指令的计算机可读取介质,当计算机执行该指令时,能够使计算机实现权利要求1~5中任一项所限定的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CA2602309A CA2602309C (en) | 2007-09-13 | 2007-09-13 | A method of bibliographic field normalization |
CA2,602,309 | 2007-09-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101388019A true CN101388019A (zh) | 2009-03-18 |
Family
ID=40450953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007103070650A Pending CN101388019A (zh) | 2007-09-13 | 2007-12-28 | 文献字段标准化的方法 |
Country Status (3)
Country | Link |
---|---|
US (2) | US8122053B2 (zh) |
CN (1) | CN101388019A (zh) |
CA (1) | CA2602309C (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103098050A (zh) * | 2010-01-29 | 2013-05-08 | 因迪普拉亚公司 | 使用加权字典和正规化来进行文字攻击性检测和处理的系统和方法 |
CN113221705A (zh) * | 2021-04-30 | 2021-08-06 | 平安科技(深圳)有限公司 | 电子文献的自动分类方法、装置、设备以及存储介质 |
CN113722377A (zh) * | 2021-08-30 | 2021-11-30 | 武汉海云健康科技股份有限公司 | 一种药品标准库的搭建方法及系统 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8204902B1 (en) * | 2009-02-27 | 2012-06-19 | Emergent Systems Corporation | Dynamic ranking of experts in a knowledge management system |
US8831969B1 (en) * | 2013-10-02 | 2014-09-09 | Linkedin Corporation | System and method for determining users working for the same employers in a social network |
US9600770B1 (en) | 2014-02-13 | 2017-03-21 | Emergent Systems Corporation | Method for determining expertise of users in a knowledge management system |
CN106682224B (zh) * | 2017-01-04 | 2020-08-28 | 上海智臻智能网络科技股份有限公司 | 一种数据录入方法、系统及数据库 |
US11380305B2 (en) * | 2019-01-14 | 2022-07-05 | Accenture Global Solutions Limited | System and method for using a question and answer engine |
CN115422146B (zh) * | 2022-06-09 | 2023-05-16 | 中国标准化研究院 | 一种新疆地区企业标准化数据库构建及应用方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001051997A (ja) * | 1999-08-11 | 2001-02-23 | Sony Corp | 文書データ作成装置、文書データ作成方法、及び記録媒体 |
US6556991B1 (en) * | 2000-09-01 | 2003-04-29 | E-Centives, Inc. | Item name normalization |
US6961721B2 (en) * | 2002-06-28 | 2005-11-01 | Microsoft Corporation | Detecting duplicate records in database |
US7003516B2 (en) * | 2002-07-03 | 2006-02-21 | Word Data Corp. | Text representation and method |
US20040181526A1 (en) * | 2003-03-11 | 2004-09-16 | Lockheed Martin Corporation | Robust system for interactively learning a record similarity measurement |
WO2004107219A1 (en) * | 2003-05-29 | 2004-12-09 | Locateplus Holdings Corporation | Current mailing address identification and verification |
US20070179956A1 (en) * | 2006-01-18 | 2007-08-02 | Whitmyer Wesley W Jr | Record protection system for networked databases |
US7634508B2 (en) | 2007-03-29 | 2009-12-15 | Microsoft Corporation | Processing of duplicate records having master/child relationship with other records |
US20080319983A1 (en) * | 2007-04-20 | 2008-12-25 | Robert Meadows | Method and apparatus for identifying and resolving conflicting data records |
US20090063318A1 (en) * | 2007-08-31 | 2009-03-05 | Oracle International Corporation | Reconciling Asset Attributes Values Before Saving to Asset Database |
-
2007
- 2007-09-13 CA CA2602309A patent/CA2602309C/en not_active Expired - Fee Related
- 2007-12-28 CN CNA2007103070650A patent/CN101388019A/zh active Pending
-
2008
- 2008-01-07 US US11/970,195 patent/US8122053B2/en not_active Expired - Fee Related
-
2012
- 2012-01-13 US US13/350,478 patent/US8918402B2/en not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103098050A (zh) * | 2010-01-29 | 2013-05-08 | 因迪普拉亚公司 | 使用加权字典和正规化来进行文字攻击性检测和处理的系统和方法 |
CN107402948A (zh) * | 2010-01-29 | 2017-11-28 | 因迪普拉亚公司 | 进行文字攻击性检测和处理的系统和方法 |
CN107402948B (zh) * | 2010-01-29 | 2021-06-08 | 因迪普拉亚公司 | 进行文字攻击性检测和处理的系统和方法 |
CN113221705A (zh) * | 2021-04-30 | 2021-08-06 | 平安科技(深圳)有限公司 | 电子文献的自动分类方法、装置、设备以及存储介质 |
CN113221705B (zh) * | 2021-04-30 | 2024-01-09 | 平安科技(深圳)有限公司 | 电子文献的自动分类方法、装置、设备以及存储介质 |
CN113722377A (zh) * | 2021-08-30 | 2021-11-30 | 武汉海云健康科技股份有限公司 | 一种药品标准库的搭建方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US8918402B2 (en) | 2014-12-23 |
US20090077066A1 (en) | 2009-03-19 |
US20120117085A1 (en) | 2012-05-10 |
CA2602309A1 (en) | 2009-03-13 |
US8122053B2 (en) | 2012-02-21 |
CA2602309C (en) | 2015-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10489500B2 (en) | Method and system for suggesting revisions to an electronic document | |
CN101388019A (zh) | 文献字段标准化的方法 | |
US10860654B2 (en) | System and method for generating an answer based on clustering and sentence similarity | |
US8190538B2 (en) | Methods and systems for matching records and normalizing names | |
US8204874B2 (en) | Abbreviation handling in web search | |
US20080162456A1 (en) | Structure extraction from unstructured documents | |
US20080162455A1 (en) | Determination of document similarity | |
US7970773B1 (en) | Determining variation sets among product descriptions | |
WO2014028860A2 (en) | System and method for matching data using probabilistic modeling techniques | |
CN110109678B (zh) | 一种代码审计规则库生成方法、装置、设备及介质 | |
JP2020512651A (ja) | 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体 | |
US20080005077A1 (en) | Encoded version columns optimized for current version access | |
CN111143370B (zh) | 用于分析多个数据表之间关系的方法、设备和计算机可读存储介质 | |
CN115422372A (zh) | 一种基于软件测试的知识图谱构建方法和系统 | |
US20180307676A1 (en) | Systems, Devices, Components and Associated Computer Executable Code for Recognizing and Analyzing/Processing Modification Sentences within Human Language | |
US11615080B1 (en) | System, method, and computer program for converting a natural language query to a nested database query | |
US11947530B2 (en) | Methods and systems to automatically generate search queries from software documents to validate software component search engines | |
US20220269735A1 (en) | Methods and systems for dynamic multi source search and match scoring of software components | |
US10409861B2 (en) | Method for fast retrieval of phonetically similar words and search engine system therefor | |
US11520798B2 (en) | Model validation for query intent | |
US20120117086A1 (en) | Method of bibliographic field normalization | |
Wilcox et al. | A New Semantic Similarity Scheme for more Accurate Identification in Medical Data | |
CN108304430B (zh) | 一种修改数据库的方法 | |
CN111448561B (zh) | 用于基于聚类和句子相似度来生成答案的系统和方法 | |
US11615089B1 (en) | System, method, and computer program for converting a natural language query to a structured database query |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20090318 |
|
C20 | Patent right or utility model deemed to be abandoned or is abandoned |