CN110741376A - 用于不同自然语言的自动文档分析 - Google Patents
用于不同自然语言的自动文档分析 Download PDFInfo
- Publication number
- CN110741376A CN110741376A CN201880028545.XA CN201880028545A CN110741376A CN 110741376 A CN110741376 A CN 110741376A CN 201880028545 A CN201880028545 A CN 201880028545A CN 110741376 A CN110741376 A CN 110741376A
- Authority
- CN
- China
- Prior art keywords
- document
- score
- corpus
- individual
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title abstract description 64
- 238000000034 method Methods 0.000 claims abstract description 105
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000007781 pre-processing Methods 0.000 claims abstract description 34
- 230000001419 dependent effect Effects 0.000 claims abstract description 20
- 230000015654 memory Effects 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 12
- 238000012552 review Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000013519 translation Methods 0.000 claims description 5
- 238000007689 inspection Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 10
- 238000001914 filtration Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000007667 floating Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 239000008186 active pharmaceutical agent Substances 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 230000009849 deactivation Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 235000020004 porter Nutrition 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000010903 husk Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005293 physical law Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services; Handling legal documents
- G06Q50/184—Intellectual property management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/137—Hierarchical processing, e.g. outlines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
人工手动处理文档通常生成主观的结果,并且包括人工错误。人工手动分析的成本和相对低的速度使得以许多行业期望的规模、速度和成本执行文档分析实际上是不可能或不可行的。因此,采用客观、准确的基于规则的技术来评估和处理文档可以是有利的。该申请公开了特别适于特定应用(文档宽度的分析)的数据处理装备和方法。该处理可以包括依赖上下文的对文档和文档的子部分的预处理。可以基于相应子部分中的词语计数和词语的常见性来分析子部分。本文公开的装备和方法通过实现对人工手动处理定量改进的结果来对用于提供文档处理的其他自动化技术进行了改进。
Description
相关申请的交叉引用
本专利申请要求享有于2017年3月6日递交的题为“Automated DocumentAnalysis for Varying Natural Languages”的美国专利申请第15/451,138号的优先权,所述申请的全部内容通过引用方式并入本文。
背景技术
文档中包含的信息量正在迅速增加。诸如法律、教育、新闻、政治、经济等的许多行业都可以从快速且低成本的文档分析中受益。人工手动分析的成本和相对低的速度使得以许多行业期望的规模、速度和成本执行文档分析实际上是不可能或不可行的。利用较低的成本进行“离岸外包”可以允许雇用更大数量的人,以每小时较低价格的劳力分析文档。即使这样,在成本上存在下限并且在吞吐量上存在上限。因为不同个体的主观判断的不同,因此使用多个不同的人来提供手动分析也很可能引入不一致。例如,仅使用人工分析,将不可能在一夜之间分析一百万个30页的文本文档的语料库。使用计算机的自动文档分析与人工分析相比快得多,并且以低得多的成本执行。此外,自动文档分析提供一致且客观的分析,这减少了主观、容易出错的人工分析所看到的差异。此外,在分析不同语言的文档时,人工分析通常困难且不切实际。为了分析以更大数量的语言的文档,需要说不同语言并被训练以分析文档的大量人员。因此,可以以模拟人工分析的方式来分析文档并且适用于大量语言的设备和方法将跨许多不同行业具有广泛应用。
发明内容
存储在一个或多个数据存储库中的文档可以由一个或多个计算设备自动访问,并且基于一个或个规则集来分析。存储在数据存储库中的任何文档的格式、结构和内容可以最初是未知的。因此,部分分析可以包括从数据存储库中过滤文档,并且对文档进行预处理,以识别适合于进一步分析的文档并准备文档的内容以进行分析。可以分析的文档类型的示例包括但不限于已发布的专利和已公开的专利申请。分析可以侧重于文档的特定部分,例如摘要或专利权利要求。预处理可以通过使内容标准化并通过技术移除可能会对后续分析产生负面影响的内容来修改文档部分,所述技术例如停用词语(stop word)移除、词干提取(stemming)和重复词语移除。
基于考虑词语计数和词语的常见性,分析文档部分的宽度。因此,唯一词语的数量以及那些词语出现在其他文档部分中的频率是自动将宽度值指派给给定文档部分的基础。对于给定文档部分,在相同分析中将词语计数与其他文档部分的词语计数进行比较。类似地,基于与来自相同分析的其他文档部分中的词语常见性相比给定文档部分中词语的常见性来针对给定文档部分确定常见性分数。
如果文档部分是专利权利要求,则宽度值表示相对于作为相同分析的一部分的其他专利权利要求的财产权的自动估计的范围。因此,文档分析能够自动确定权利要求A宽于权利要求B。此分析是人工模拟的,这是因为结果类似于通过人工手动分析实现的结果,但通过减少主观评分和人工错误而优于人工分析。
在一些示例中,技术可以应用于在不同管辖区(jurisdiction)中并且以不同语言书写的申请的专利权利要求。在一些示例中,技术可以将专利权利要求语言翻译成英语(或另一种语言),并且分析权利要求,而在其他示例中,不需要翻译,并且可以以各种外语分析专利权利要求。在各种示例中,当分析不同管辖区中的专利权利要求时,可以考虑管辖区特定的不同实体法。例如,中国专利权利要求的权利要求的前序中的词语可以被给予专利权利要求宽度的权重,而美国专利申请的权利要求前序可以不被给予用于确定权利要求宽度的权重。在一些示例中,可以以各种方式分析不同类型的管辖区的专利申请中的专利权利要求。例如,为了针对在一管辖区(例如,中国)中提交的实用新型专利的专利权利要求确定宽度,可以根据针对在该管辖区中提交的发明专利确定的权利要求宽度分数来对实用新型专利应用缩放因数(scaling factor)。下文讨论了对国际权利要求的这些技术的进一步讨论。
可以将一起分析的各个文档部分的宽度分数进行比较,以基于相对宽度分数来生成文档部分的排序(ranking)。生成了用户界面,所述用户界面示出了唯一的文档识别号以及文档部分的对应的宽度分数和/或排序。
附图说明
参考附图描述了详细描述。在附图中,附图标记的最左边的数字表示该附图标记首次出现于其中的附图。在不同附图中使用相同的附图标记指示相似或相同的项。
图1示出了用于生成用户界面的示例处理流水线,所述用户界面示出自动文档分析的结果。
图2示出了图1的用户界面的一个示例实施方式。
图3是示出用于从数据存储库中过滤文档以识别和准备那些文档的部分以用于分析的示例方法的流程图。
图4是示出用于预处理文档的一部分的示例方法的流程图。
图5是示出了用于确定是否文档的一部分被忽略并且被排除在进一步处理之外或被标记以用于手动审阅的示例方法的流程图。
图6是示出用于自动处理文档以生成用户界面的示例方法的流程图。
图7是示出用于根据多组规则来自动处理数据文件的示例方法的流程图。
图8示出了被设计用于自动、人工模拟的文档处理的一个或多个计算设备的示意图。
具体实施方式
图1示出了示例分析流水线100,所述分析流水线100用于自动分析和呈现从多个文档导出的宽度信息。文档可以来自一个或多个数据存储库102。文档可以是任何类型的文档,例如已发布的专利、已公布的专利申请、学术文章、新闻文章、财务报表等。这些文档也可以以多种不同格式的任何一种格式获得,所述格式例如纯文本、超文本标记语言(HTML)、逗号分隔值(CSV)、或图像,例如便携式文档格式(PDF)、或标记图像文件格式(TIFF)文件。在一些文档格式中,例如,HTML和CSV部分以及文档的属性可以被个别地识别。例如,专利号可以被放置在CSV文件中专利号的列中,或在HTML文件中标有标记<专利号>。类似地,权利要求部分可以被识别为权利要求部分。在其他文件格式中(例如,纯文本或PDF),文档可能不包含任何此类识别信息或元数据。
当文档进入分析流水线100时,从数据存储库102之一接收的文档的格式和/或文件类型最初可能是未知的。因此,在开始时,初始分析的一部分可以包括识别文件格式和/或文档类型。对于所有文档而言,可能需要某种程度的处理,并且某些类型的文件(例如,缺少元数据的图像文件或文本文件)可能在开始进行进一步的分析之前需要进行更广泛的处理。在一种实施方式中,数据存储库102可以包括针对实用、外观和/或植物专利的已发布的专利和已公布的申请。来自各个管辖区并采用各种语言的专利数据也可以被包括在数据存储库102中。数据存储库102的示例包括:由提供的专利数据库、由美国专利商标局维护的美国专利数据库、由Relecura维护的专利数据以及由其他机构(例如,各个管辖区的专利局)维护的专利数据库。
数据过滤104可以将从数据存储库102中获得的数据限制为共享指定特征的文档语料库。当文档来自多个不同来源和/或文档是在不知道文档格式的情况下获取的时,这可以是特别有用的。例如,数据过滤104可以将专利文档限制为仅已发布的专利,而排除已公布的专利申请。数据过滤104可以按专利类型进行过滤,并且例如保留实用专利,同时排除外观和植物专利。数据过滤104还可以按语言、作者、发明人、受让人、技术领域、分类等来过滤文档。过滤器可以通过用户界面由用户生成的输入来指定。在一种实施方式中,用于指定数据要如何被过滤的用户界面可以是命令行界面。命令行上传递的参数由适当的代码解析,以确定输入数据集和/或用于应用于输入数据的过滤器。
预处理106修改文档或文档的一部分以供后续处理。预处理106可以包括:移除标点符号,移除停用词语108,将首字母缩略词和缩写词110转换为完整词语、词干提取和/或移除重复词语。停用词语108是在附加处理之前被过滤掉的词语。标点符号可以包括以下标记中的任何标记:.,!?,;:'"@#$%<Λ>&*()[]<>/\°。停用词语通常是指语言中最常见的词语。停用词语可以包括简短的功能词语,例如“the”、“is”、“at”、“that”和“on”以及其他。然而,不存在通用的停用词语列表。停用词语108可以与个体文档或文档的一部分进行比较,并且移除任何匹配的词语。停用词语108可以直接被包括在预处理算法的代码中。另外地或替代地,停用词语108可以被包括在被访问以识别停用词语108的列表中。该列表可以是可编辑的,以添加或移除停用词语108。停用词语108的多个列表可以是可用的。可以基于正被分析的文档的类型来选择特定的停用词语108。例如,专利特定的停用词语108可以包括诸如“方法(method)”或“包括(comprising)”之类的词语,所述词语通常不被包括在通用停用词语的列表中。类似地,如果数据过滤104将文档限制于特定的技术领域,则停用词语108可以包括特定于该技术领域的词语。
异常检测112识别可能包括异常的文档部分,所述异常将导致文档的该部分被排除在进一步分析之外或者被标记以警告人类用户可能存在手动审阅被标记的文档部分的原因。在一种实施方式中,可以仅对专利独立权利要求进行分析。然而,数据过滤104和预处理106可以创建包括专利独立和从属权利要求二者的文档部分。当该分析被配置为将从属专利权利要求的特征识别为“异常”时,异常检测112可以忽略或丢弃与从属权利要求相对应的文档部分。由于基于计算机的自动文档分析的限制,有些特征可以是可检测到的,但是自动分析系统将无法正确地进行宽度分析。标记或以其他方式指示此类内容允许人们将手动审阅工作侧重于那些不完全适合自动分析技术的文档部分。
宽度计算114确定文档或文档的一部分的宽度。宽度是一个主观概念,其通过考虑词语计数和词语的常见性以一种适合于自动分析的形式表示。词语计数仅是文档或文档部分中的词语数量。可以基于在数据过滤104之后或在某种程度的预处理106之后的原始输入来对词语进行计数。例如,可以在移除重复的词语之后执行词语计数,使得它是唯一词语的词语计数。另外,可以在移除停用词语108之前或之后执行词语计数。类似地,可以在将首字母缩略词和缩写词110转换成它们的完整词语表示之前或之后执行词语计数。在专利权利要求的上下文中,通常认为短的权利要求宽于较长的权利要求。
词语的常见性表示在文档或文档部分的语料库内找到给定词语的频率。通常,相关语料库要经过预处理106。例如,如果来自数据存储库102的起始文档是关于化学的学术论文,并且预处理将语料库限制为那些论文的摘要,则词语的常见性将是根据贯穿所有摘要找到词语的频率。常见词语与较大的宽度相关,而不频繁发现的词语的存在指示降低的宽度。在专利权利要求的上下文中,与非常见词语相比,在技术领域中经常发现的词语通常被认为是较宽的或较小限制性的。
宽度计算114组合词语计数和词语常见性,以将宽度分数指派给文档或文档部分。下面讨论了用于确定词语计数、词语常见性和整体宽度分数的具体技术。一些文档可以具有多个被评分的部分。例如,可以对财务文档的摘要和执行概要进行评分。单个专利文档可以具有多个独立权利要求,并且每个独立权利要求可以被指派不同的宽度分数。文档的宽度可以是其最宽部分的宽度,例如专利文档的最宽权利要求。替代地,文档的宽度可以是文档的最窄部分的宽度(例如,摘要或执行概要中的较窄部分),或者替代地,文档的每个个别评分部分的中位数或平均值。例如,具有20个权利要求的专利文档可以接收每个权利要求的分数,并且被指派给该文档的总分数可以是20个宽度分数的平均值。在一些实施方式中,宽度计算114可以基于权利要求语言和权利要求中使用的术语相对于要与权利要求比较的所有其他权利要求来评估专利和/或专利申请。在一个具体实施方式中,将来自特定专利或申请的权利要求与分类或分类系统(例如,USPTO分类)的特定类别或子类中的所有专利和/或专利申请中的所有权利要求进行比较。
排序116对所分析的文档进行排序或排名。宽度计算114是在语料库中其他文档的上下文内执行的。因此,与作为相同分析的一部分的其他文档相比,文档或文档一部分的宽度分数不是绝对值而是相对值。这种分析设计是人工模拟的,这是因为它捕获了将苹果与苹果进行比较的想法。与将一个软件权利要求的宽度与另一软件权利要求的宽度进行比较相比,将生物技术专利权利要求的宽度与机械专利权利要求的宽度进行比较意义较小。跨不同技术领域的比较可能导致给定词语的常见性对总体权利要求宽度分数产生显著不同的影响。例如,“加密”可能经常发现于信息技术专利权利要求中,并且将只对权利要求宽度产生小的负面影响,但是生物技术权利要求中的同一词语可能相对不常见,并且表示了对权利要求宽度的较显著的限制。因为文档或文档部分是相对于同一语料库中的其他文档给予宽度分数的,所以可以对那些宽度分数进行排序以产生排序,例如100是最宽的(或替代地是最窄的)。
用户界面(UI)118可以向用户显示或以其他方式呈现每个分析的文档的宽度分数、排序和标识符。UI 118还可以包括关于文档族的附加信息、属于同一受让人的文档组或其他信息。每个文档的标识符可以是唯一标识符,例如专利号、公布的专利申请号、国际标准书号(ISBN)、标题、通用资源标识符(URI)等。UI 118可以通过处理文本文件或其他文本输出来生成。UI 118可以被实现为命令行界面、图形用户界面、或另一类型的界面。当被实现为图形用户界面时,UI 118可以由可通过诸如因特网之类的通信网络访问的云服务来生成。云服务不需要最终用户知道递送服务的系统的物理位置或配置。与云服务相关的通用名称包括“软件即服务”或“SaaS”、“平台计算机”、“即时需求计算”等。任何数量的用户可以通过专用应用或通过驻留在其本地计算设备上的浏览器(例如,Internet Google等)来随时访问UI 118。
图2更详细地示出了UI 118的一种实施方式。UI 118可以显示由分析流水线100针对多个不同文档或文档部分生成的信息。在此示例中,文档为已发布专利,并且分析的部分为独立权利要求。然而,相同或相似的UI可以显示对不同类型文档的分析。一种说明性类型的UI是如图2所示的图形用户界面(GUI)。GUI是一种类型用户界面,其允许用户通过图形图标和可视指示符(例如,辅助符号)与电子设备进行交互,而不是通过基于文本的用户界面、键入的命令标签或文本导航。GUI中的动作可以通过使用定点设备(例如,鼠标、触笔或手指)对图形元素的直接操纵来执行。
UI 118中存在一个或多个文档的条目以及关于那些文档的信息。该信息可以包括最宽的权利要求号200、专利号202、最宽的权利要求的宽度分数204、文档相对于语料库中其他文档的排序206、最宽的权利要求的权利要求语言208、和/或任何异常的标识210。UI118还可以包括与每个条目相关联的交互元素212。可以响应于在输入设备上生成的命令而激活交互式元素212之一,以选择文档之一。关于所选文档的分析的信息可以被保存到单独的文件、放置在存储器的单独部分中或被添加到列表中,以供以后访问和/或分析。
宽度分数204可以被视为本身不具有固有含义的任意数字,但是宽度分数的差异可以用于生成排序206并且是对各种专利权利要求或其他文档部分的宽度204之间的变化量的指示。在此示例中,最宽权利要求的宽度分数204为85,并且该权利要求的排序206为1。此UI 118中的一列可以显示分析的文档的最宽权利要求的权利要求语言208。在一些实施方式中,为了使用较少的屏幕空间(例如,在移动设备上),包含权利要求语言208的列可以仅显示权利要求语言的一部分,或者可以程序可操作的UI元素,当激活所述UI元素时,引起对完整的权利要求语言的显示。可以通过在异常210列中的条目来指示针对其检测到异常的那些权利要求。在一种实施方式中,任何异常的存在可以通过符号或标记来标记。该指示本身可以是可操作的UI元素,当被激活时,所述UI元素引起对检测到的特定类型的异常的显示。在由该示例UI 118示出的实施方式中,异常210列提供了对权利要求中检测到的一个或多个异常的简要描述。
说明性方法
方法被示出为逻辑流程图中的框的集合,所述逻辑流程图表示可以以硬件、软件、固件或其组合来实现的一系列操作。被描述和要求保护方法框的顺序不旨在被理解为限制,并且可以以任何顺序组合任何数量的所描述的方法框,以实现该方法或替代方法。另外,在不脱离本文描述的主题的精神和范围的情况下,可以从方法中省略个体框。在软件的上下文中,框表示计算机指令,当由一个或多个处理器执行时,所述计算机指令执行所记载的操作。在硬件的上下文中,一些或所有框可以表示执行所记载的操作的专用集成电路(ASIC)或其他物理组件。
在计算机可执行指令的一般上下文中描述了方法300-700。通常,计算机可执行指令可以包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、过程、模块、功能等。方法也可以在分布式计算环境中实践,其中,功能由通过通信网络链接的远程处理设备执行。在分布式计算环境中,计算机可执行指令可以位于本地和/或远程计算机存储介质中,其包括存储器存储设备。
图3是描绘了对来自一个或多个数据存储库的数据进行过滤的示例方法300的流程图。例如,可以从限于技术领域的数据存储库收集专利和/或申请的集合。这允许词语和/或短语共享共同的本体、词汇表和/或分类法。在一种实施方式中,可以基于分类代码来获得集合,所述分类代码例如美国专利商标局(USPTO)类和子类或国际专利代码(IPC)。
在302处,可以从数据存储库接收单个文档以进行分析。数据存储库中的每个文档都可以与唯一的文档识别号关联。专利文档的唯一文档识别号可以包括申请号、公开号、专利号和/或与可以唯一地识别专利文档的专利文档相关联的信息的组合(例如,发明人的名字和申请日期的组合等)。
该过程可以重复进行,直到分析了目标数据存储库中的所有文档为止。可用的数据库可以包括但不限于由特定国家的专利局提供和/或支持的专利数据库(例如,USPTO(美国专利与商标局)数据库、PAIR(专利申请信息检索)数据库、EPO(欧洲专利局)数据库、WIPO(世界知识产权组织)数据库、SIPO(中国国家知识产权局)数据库等)以及由世界各地的公共和/或私人机构提供的任何其他数据库。
在一些示例中,可以基于管辖区和/或书写专利的语言来收集或搜集从数据存储库中收集的专利的集合。例如,可以从数据存储库收集在中国提交的专利申请。在一些示例中,可以基于各种特征来收集专利申请,例如专利申请所针对的技术领域、专利申请的申请人或受让人是谁、专利申请的类型(例如,实用新型、发明专利等)、或任何其他类型的特征。
在304处,确定了文档是否包含机器可读文本。来自数据存储库的可用的一些类型的文件(例如,HTML文档)可能已经包含机器可读的文本。其他类型的文件(例如,表示纸质文档图像的PDF文件)可能缺少机器可读的文本。例如,草稿文档或未公布的文档可能仅以不包括机器可读文本的形式提供。可以通过使用用于文件类型识别的已知技术(包括文件名后缀的识别)的文件类型自动检测来进行文档是否包含机器可读文本的确定。如果文件类型不是由后缀或其他元数据指定的,则可以通过打开文件并将文件结构与和已知文件类型关联的已知结构的库进行比较来确定。如果确定文档不包括机器可读文本,则方法300可以前进至306,并且可以使用光学字符识别(OCR)来识别文档中的文本。
在306处,可以将OCR应用于文档以将文档转换成包含机器可读文本的格式。OCR是将键入、手写或印刷的文本的图像机械或电子转换成机器编码的文本,无论是来自扫描的文档、文档的照片、还是其他来源。OCR是一种对图像文本进行数字化的方法,使得可以对其进行电子编辑、搜索、更紧凑地存储、在线显示,并且用于机器过程,例如认知计算、机器翻译、(提取的)文本转语音、关键数据和文本挖掘。OCR涉及模式识别、人工智能和计算机视觉。
在308处,识别了文档类型。文档类型是指文档中包含的信息类型,而不是文档以其被编码的计算机文件格式。文档可以包括识别信息,例如唯一的文档识别号、种类代码和来源指示。唯一的文档识别号可以例如包括专利号,所述专利号可以用于基于号码的结构在不同类型的专利之间进行区分。例如,当分析来自美国专利数据库的文档识别号时,可以将七位数的数字解释为指示该文档是实用专利,而11位数的数字(在前四位数后面可选地具有“/”)可以指示已公布的专利申请,以字母D开头的五位数或六位数的数字指示外观设计专利,并且植物专利的标识符则以字母PP开头。专利文档中的种类代码还可以指示文档是实用专利、植物专利、专利申请公开、法定发明注册,还是外观设计专利。要分析的文档可能来自多个不同数据存储库中的任何一个。如果已知给定的数据存储库仅限于仅包含某种类型的文档,则可以假定从该数据存储库获得的所有文档都是指定类型的。例如,从数据存储库获得的仅包含关于生物技术的学术论文的文档可以由于来自该特定数据存储库而被识别为关于生物技术的学术论文。方法300中此时的每个文档将包含机器可读文本,并且与文档类型相关联。
在310处,确定了文档是否是一种或多种指定的文档类型的。这基于文档类型来过滤文档。文档类型可以由用户指定。在没有用户指定的情况下,可以基于默认文档类型执行过滤。在一种实施方式中,默认文档类型可以是已发布的美国专利。因此,保留通过唯一文档识别号、种类代码、通过来自特定数据存储库或其他技术被识别为美国专利的任何文档,以供进一步分析。用户还可以指定已发布的美国专利和已发布的欧洲专利二者,在这种情况下,任一类型的文档都将被确定为与指定的文档类型相匹配。然而,如果文档与指定的文档类型不匹配,则方法300返回302,并且从数据存储库中接收新文档。方法300的这一部分可以自动且连续地进行,直到已经分析了一个或多个数据存储库内的所有文档。此处理和过滤允许使用各种数据存储库,并且允许文档分析跨多个数据存储库进行应用,这是因为存在用于将所有文档转换成机器可读文本并用于排除与指定的文档类型不匹配的文档的机制。
对于在310处与指定的文档类型匹配的那些文档,方法300前进到312。
在312处,确定了文档的权利要求部分是否被标记。标记的权利要求部分被识别为包含与专利文档其他部分分开的专利权利要求的文本的一部分。例如,采用CSV格式的文档的所有权利要求可能都在被标示为包含权利要求的同一列中。替代地,HTML文档可以在每个权利要求上具有特定标记,以指示其是权利要求以及其是独立权利要求或从属权利要求。然而,其他文档(例如,PDF文档的OCR版本)可能仅包含未区分的文本。对于此类文档,在没有附加分析的情况下无法识别权利要求。该示例讨论了确定专利文档的权利要求部分是否被标记。然而,识别文档的特定标记部分不限于该应用,并且还可以应用于确定文档的其他部分被单独地识别,例如确定哪些财务文档具有被标记为执行概要的执行概要。
如果文档不具有标记的权利要求部分,则方法300前进到314。
在314处,检测了权利要求部分。用于检测权利要求部分的特定技术可以基于文档格式而不同。在一种实施方式中,关键字识别可以用于区分权利要求部分。例如,如果文档的页面在第一行内包括词语“权利要求”或“多个权利要求”,并且在同一页面上紧接着以数字开头后跟一个句点的段落,则该段落或整个页面可以被标示为权利要求部分。可以替代地或附加地应用其他识别技术。例如,任何包括以分号结尾的行的段落都可以解释为权利要求。
在316处,从包含权利要求部分和唯一文档识别号的文档创建记录。该记录可以被存储为独立文件或其他文件的一部分。记录可以采用与源文档的格式不同的格式。在许多实施方式中,记录将被存储在与任何数据存储库在逻辑和物理二者上均分开的存储器中。该记录可以通过唯一的文档识别号与源文档相关联。记录中的权利要求可以被区分为个体的权利要求,或者可以是表示专利文档中的一些或全部权利要求的未区分的文本集合。因此,在专利文档的上下文中,该记录可以表示专利文档的权利要求部分。从多个文档生成多个记录可以创建适合进一步分析的专利权利要求语料库。
图4是描绘在分析权利要求宽度之前对权利要求进行预处理的示例方法400的流程图。预处理用于规范权利要求的内容,使得确定权利要求的宽度提供更一致的结果。它还提供了用于在不修改用于确定权利要求范围的技术的情况下自定义文档分析的部分的方法。
在402处,可以将文档的权利要求部分解析成单独的词语。这将权利要求部分的文本划分成多个分立的词语。可以通过识别词语定界符并使用词语定界符将文本分开为个体词语来执行词语解析。定界符是空格、逗号或其他字符或指示字符串、词语或数据项的开头或结尾的符号。在一种实施方式中,词语定界符<空格>和破折号“-”二者。可以在个体权利要求彼此区分之前执行词语解析。
在404处,首字母缩略词和缩写词被替换为替代的标准化表示。这可以通过将来自权利要求部分的每个词语与包含与替代表示配对的已知首字母缩略词和缩写词的同义词库(例如,查找表)进行比较来执行。在一些实施方式中,替代表示可以是被完全写出的词语。替代表示也可以是不使用句点的标准化形式。例如,“NASA”可以用National Air andSpace Administration(国家航空航天局)来代替。类似地,“U.S.A.”可以由“USA”代替,在一些实施方式中也可以由“United States of America(美利坚合众国)”代替。这用于移除在一些缩写词语中找到的句点,并且标准化词语计数,使得权利要求不会仅因为它们使用较多的首字母缩略词和缩写词就不被认为是较短的。移除首字母缩略词中的句点允许使用句子句点的结尾作为第一项权利要求和第二项权利要求处开始之处的指示符。
在406处,权利要求部分可以被划分成个体权利要求。回想在文档过滤之后,文档的每个记录都可以包括权利要求部分,所述权利要求部分可能包含多个彼此没有单独区分的权利要求。尽管对于人来说,识别文档中的不同权利要求可能相对琐碎,但是对于自动化过程而言,将文本字符串准确地解析成单独的权利要求可能困难得多。然而,在专利权利要求的情况下,这可以通过以下方式来实现:每当句点后跟数字,就在第一权利要求和第二权利要求之间创建分隔。可以通过插入回车、换行或其他标记来实现分隔。这是用于划分权利要求的合理近似,这是因为一旦用整个词语替换具有句点的缩写,一组权利要求中存在的仅有的句点将在权利要求的结尾。此外,每项权利要求将均以数字开头,例如来自1-20的数字。因此,在句点之后并且在数字之前的任何点都可能是两个权利要求之间的划分。
在408处,一旦权利要求已经被划分成单独的权利要求,就可以移除所有标点符号。标点符号可以通过对照标点列表进行匹配并删除在列表中找到的任何字符来移除。移除标点符号可以移除句点、分号、逗号、连字符、括号、斜杠等中的任何一个或全部。一般认为标点符号不影响权利要求宽度。因此,通过移除标点符号,不将被进一步处理的字符被从要分析的文本中取出。
在410处,确定了是否存在特定的停用词语。特定停用词语可以基于正被分析的文档的内容。例如,如果文档是专利文档,则特定停用词语可以包括专利权利要求中常见的并且不太可能用于将一个权利要求与另一权利要求区分开的词语。停用词语的专利特定列表可以包括词语和/或短语,例如“计算机可读介质”、“系统”、“机器”、“包括”和“其中”,以及指示法定类别的词语和/或短语,例如“方法”、“制造品”和“物质组成”。也可以使用技术特定的停用词语。例如,如果所有正被分析的专利文档都来自同一技术类别或组,则可以使用先前针对该技术识别的停用词语。例如,“电路”可以被包括在特定于描述电气工程的文档的停止列表中。在一些示例中,取决于专利的特定集合,可以利用不同的停用词语。例如,如果专利集合用中文书写,则可以使用用中文书写的停用词语。此外,如果专利的集合是实用新型专利,则与专利的集合是发明专利的情况相比,可以使用不同的停用词语。
在一些示例中,取决于自然语言的类型,可以存储不同的停用词语列表。例如,不同的停用词语可以取决于递交权利要求的管辖区的语言。例如,当管辖区为美国时,可以使用停用词语的第一列表,而当管辖区为中国时,可以使用停用词语的第二列表。
如果特定停用词语不可用,则方法400前进到412,并且使用默认停用词语。然而,如果特定停用词语可用,则方法400前进到414,并使用特定停用词语。多组停用词语可以一起使用。例如,一个或多个特定停用词语列表可以与默认停用词语列表结合使用。
在416处,移除停用词语。如果同时使用多个停用词语列表,则如果词语出现在任何停用词语列表中,则将其移除。
在418处,对剩余词语执行词干提取。词干提取是将变形(或有时衍生)的词语减少为其词干、基或词根形式(通常是书面词语形式)的过程。词干不需要与词语的形态学的根相同;即使该词干本身不是有效的词根,通常将相关词语映射到同一词干就足够了。词干提取是规范化的附加形式,它移除了相似词语之间的差异,例如“compare(比较)”和“comparing(比较)”。存在许多已知的用于词干提取的技术,包括使用查找表、后缀剥离、词形还原(lemmatisation)、随机算法、n元(n-gram)分析、匹配算法等。在一种实施方式中,使用了来自公开可用的“nltk”包的Porter Stemmer算法来执行词干提取。
在420处,可以移除重复词语。当在词干提取之后发生重复词语移除时,实际上是词语的重复词根形式被移除。例如,词干提取之前的移除重复将在过程权利要求的文本中留下“adapter(适配器)”和“adapted(适配的)”二者,但是在词干提取之后,两个词语都可以被转换为词根形式“adapt(适配)”并且可以将一个移除。
因此,通过预处理来将从专利文档中获得的各个权利要求部分标准化,所述预处理通过用替代的表示(例如,以完整词语写出)来代替首字母缩略词和缩写词、移除标点符号、移除停用词语、词干提取和删除重复词语来进行。这种预处理使来自数据存储库的数据更适合权利要求范围的自动分析。它还除去了由各种专利权利要求撰写技术可能引入的一些变型,以试图使专利权利要求的内容接近特定的书写风格。尽管人类分析人员可以识别书写何时“冗长”,但是宽度的自动分析可能由不同的书写风格混淆,并且可能对相似的权利要求进行不同地评分,除非执行了预处理。
图5是描绘识别和处理具有异常的权利要求的示例方法500的流程图。鉴于自动文档分析尚未如人工手动分析有效,可能存在一些权利要求部分通过文档过滤和预处理却不适合权利要求宽度的进一步分析。这些权利要求应被忽略。另外,即使过滤和预处理如期望地工作时,可能存在专利权利要求的一些特征没有被用于自动确定权利要求宽度的技术正确地分析。可以标记或以其他方式记录这些异常,而不是简单地忽略它们,使得人类用户可以评估实际的权利要求语言。
在502处,确定了被标记为权利要求的文档的一部分是否包含删除的权利要求。如果是这样,则方法500前进到504,并忽略删除的权利要求,使得在进一步分析中不被考虑。标记为具有以下特征之一的任何文档部分都可以被标示为的权利要求:
·包含“(撤销的(canceled))”、“移除(remove)”、“删除(delete)”、“删除。(delete.)”或“删除的(deleted)”中的任何一个;
·少于10个字符;
如果文档部分未表征为删除的权利要求,则方法500前进到506。
在506处,确定了被标记为权利要求的文档的一部分是否包含从属权利要求。因为从属权利要求必然缩小独立权利要求的范围,因此如果方法500被实现以针对给定专利文档中最宽的权利要求识别和确定权利要求宽度,则可以忽略从属权利要求。因此,对于被发现是从属权利要求的任何权利要求,方法500前进到504,并且忽略该权利要求。包含具有以下词语或短语中的任何一个的权利要求的文档部分可以被标示为从属权利要求:
“权利要求”后跟数字
“权利要求”后跟罗马数字
“根据(accroding to)”后跟数字
“方法”后跟数字
“系统”后跟数字
“其中(of wherein)”
“步骤”后跟数字
“根据(according)”后跟数字
“权利要求到”后跟数字
“记载的”后跟数字
“……中记载的”后跟数字
“……中阐述的”后跟数字
“<某物>的物品”后跟数字
“<某物某物>的物品”后跟数字
“<某物>的方法”,后跟数字
“<某物某物的方法>”后跟数字
“……的权利要求”后跟数字
“clam”后跟数字
“clan”后跟数字
“多项权利要求”后跟数字
“申请人”后跟数字
“权利要求”后跟字母/数字
“权利要求”后跟字母/数字<逗号>
“权利要求”<空格><逗号>
“权利要求”<无空格><数字>
<空格>“权利要求<”><句点>
“根据权利要求<”>
以“The”开头,而不是“A”或“An”
“……的数量”<逗号>“其中”
如果文档部分没有表征为从属权利要求,则方法500前进到508。
在508处,确定了权利要求是否具有某种其他类型的异常。如果是这样,则不忽略或删除该权利要求,而是方法500前进到510,并标记该权利要求,使得可以手动查看它。附于权利要求的标志可以指示检测到的异常的类型,或者可以仅存在示出检测到异常的记号。在由人类手动审查了权利要求时,特定类型的异常将可能是不言而喻的。如果权利要求具有以下特征中的任何一项,则可以将其标示为具有某种其他类型的异常:
·空字符串
·权利要求以数字开头
·以小写字母“a”开头
·以其他小写字母开头
在自动分析期间,一旦权利要求被标记为具有任何类型的异常,则进一步的异常检测停止。例如,被确定为从属权利要求的权利要求不被附加地分析以确定它们是否包含单元加功能语言。通过不针对每种可能异常类型分析每个权利要求,这种顺序处理技术节省了处理能力。因为处理循环更少,这也提高了自动分析文档的速度。在508处,如果权利要求没有任何其他异常,则方法500前进到512。
在512处,确定该权利要求是否为单元加功能权利要求。单元加功能权利要求通过在权利要求语言紧接在<空格>的出现之后加上“单元”来识别。被识别为单元加功能的权利要求被标记,这是因为此类权利要求的范围基于专利文档说明书中提供的定义,因此基于词语计数和词语频率以及权利要求来确定权利要求的宽度可能是对权利要求的真实宽度的不准确表示。如果该权利要求是单元加功能要求,则方法500前进到510,并且标记该权利要求。然而,如果否,则方法500前进到514。
在510处,可以基于与递交权利要求的特定管辖区相关联的实体法来标记其他类型的权利要求。例如,在一些管辖区(例如,印度),某些类型的权利要求可能是不允许的,例如计算机可读介质权利要求。因此,如果在印度提交的权利要求中识别了与计算机可读介质相关联的语言,则可以在510处标记那些权利要求,和/或基于检测在特定管辖范围中不可允许的语言来降低其相关联的的权利要求宽度分数。
在514处,确定权利要求是否是可能的从属权利要求。可能的从属权利要求是可能是从属的但自动分析没有足够的信心将权利要求标记为“从属”并出于进一步分析的目的将其忽略的权利要求。因此,对权利要求进行标记,使得可以对其进行手动审阅并且被确定实际上它是否是从属权利要求并且应该被忽略。具有以下任何特征的权利要求可以被标示为可能的从属权利要求:
·<数字><逗号>“其中”;
·其中任意处包含数字;
如果权利要求不具有任何以上特征,则方法500前进到516。
在516处,确定权利要求是否包含规范语言。权利要求中的规范语言是指示关于事物应当或应该如何的与仅描述性语言相对的陈述语言。规范语言的存在可能使用于自动确定权利要求范围的技术困惑,这是因为规范语言具有指示权利要求中的没有真正限制权利要求的宽度的特征的可能。权利要求中存在以下任何词语或短语可能暗示规范语言:
·“一定不”
·“被要求”
·“不应当”
·“应当”
·“不能”
·“无法”
·“不应该”
·“应该”
·“必须”。
如果权利要求包含规范语言,则方法500前进到510并标记该权利要求。然而,如果权利要求不包括规范语言,则不标记该权利要求,并且来自后续分析的任何结果都将呈现给用户,而没有标志或其他异常记号。在510处标记的任何权利要求也进行进一步的分析,但是对该权利要求的分析结果与异常的标志和/或描述相关联。此标志或描述的一个示例是用户界面118的异常210列。
在实施方式中,可以通过检测上述每个潜在异常特征来针对专利权利要求或其他文档部分评估异常。因此,例如,不是将权利要求识别为从属权利要求并且然后停止进一步的分析,而是进一步分析其从属权利要求,以确定它是否是单元加功能权利要求、是否包含规范语言或是否具有另一类型的异常。可以分析权利要求或其他文档部分,以在502处确定它是否为删除的权利要求,以在506确定它是否为从属权利要求,在508确定是否存在任何其他异常,在512处确定其是否是单元加功能权利要求,以在514处确定它是否是可能的从属权利要求,并且在516处确定其是否包含规范语言。
图6是描绘了自动处理文档以生成UI的示例方法600的流程图,所述UI示出了文档的整体宽度分数。方法600的部分可以与上述方法300-500的部分相同或相似。
在602处,接收多个文档。这些文档包含计算机可读形式或其他形式的文本,并且每个文档都与唯一的文档识别号相关联。此唯一的文档识别号可以用于标记文档以及文档的任何子部分。对于一些文档(特别是专利文档),唯一文档识别号可以是专利号或专利申请公开号。可以从一个或多个数据存储库(例如,图1所示的数据存储库102)接收多个文档。接收到的文档可以本地存储在与提供文档的数据存储库分开的存储器设备中。
在604处,对多个文档进行预处理,以针对多个文档中的每个文档生成一个或多个经处理的文档部分。预处理可以使用图4中描述的方法的全部或一部分。因此,经处理的文档或经处理的文档部分是指在预处理之后的文档或其部分。在一些实施方式中,预处理本身可以将文档划分成两个或多个经处理的文档部分。例如,当分析包含专利权利要求的文本时,可以在句点之后和数字之前的位置处将文档划分成多个文档部分(例如,个体专利权利要求)。文档的每个部分都与源文档的唯一文档识别号相关联。例如,来自专利的每个专利权利要求将与专利号相关联。经处理的文档部分包括来自源文档中的文本的一部分。特定的预处理技术可以包括解析文本以分开词语、移除停用词语、移除重复词语以及移除标点符号。停用词语中的一些或全部可以特定于多个文档的文档分类。例如,如果多个文档中的所有文档都与相同的专利分类相关联,并且存在用于该分类的特定停用词语,则可以使用那些特定停用词语代替或附加于通用停用词语。在一些实施方式中,预处理可以包括附加的预处理技术,例如用对应的完整词语替换缩写词和/或首字母缩略词。
在606处,在文档部分中检测到异常。可以根据与图5所示的方法500相同或相似的方法来进行异常检测。基于表征为暗示异常的存在的异常词语或短语,可以检测到许多异常。一种类型的异常是规范语言的存在,而这可以通过文档部分中存在规范词语来检测。
异常检测的一个结果可以是从进一步分析中排除经处理的文档部分。某些异常可以指示经处理的文档部分不适合进一步分析。如果将分析应用于具有某些类型异常的文档部分,则后续分析设计中做出的假设可能导致不准确或不相关的结果。
异常检测的另一个结果是标记被确定为具有异常的经处理的文档部分。对于标记的文档部分以及未标记的文档部分,可以以相同的方式进行进一步的分析。但是异常的标记或其他记号允许人们审阅所分析的文档部分,并且确定(如果有的话)如何解决异常。
在608处,通过对相应文档部分中的单独词语的数量进行计数,针对每个经处理的文档部分生成词语计数。这可以在预处理之后执行,使得从计数中省略停用词语和重复词语。在移除重复词语之后执行的词语计数被称为唯一词语的词语计数。每个文档部分(例如,专利权利要求)与词语计数(其是整数)相关联。
在一些示例中,对于不同的管辖区,可以不同地生成608处的词语计数。例如,对于某些管辖区,实体法可能有所不同。例如,某些管辖区(例如,美国)可能未对权利要求前序中的词语给予可专利性的权重,或可能给予较小的权重。因此,词语计数可能不包括在USA提交的专利权利要求的前序中的词语。相反,其他管辖区(例如,中国)可能对权利要求前序中的词语给予可专利性的权重,并且因此在中国提交的权利要求的词语计数可以被包括在608处生成的词语计数中。
在610处,识别参考词语计数。参考词语计数是数字,但不一定是整数。参考词语计数基于从分析中的个体文档部分的词语计数中得出的特征。参考词语计数可以是在所有所分析的文档部分中具有最大词语计数的文档部分的词语计数。替代地,参考词语计数可以是所有所分析的文档部分中具有最短词语计数的文档部分的词语计数。其他特征也可以用于生成参考词语计数,例如所分析文档部分的平均或中位数词语计数。例如,如果所分析的文档部分是专利权利要求,则参考词语计数可以是最长的专利权利要求的词语计数、最短的专利权利要求的词语计数、所有所分析的专利权利要求的平均词语计数、所有所分析的专利权利要求的中位数词语计数或某个其他度量。对于同一语料库中一起分析的所有文档部分,参考词语计数均相同。然而,由于所分析文档的每个语料库具有不同的特性,因此在不同的分析中,参考词语计数将不同。
在612处,针对文档部分计算词语计数比。词语计数比是参考词语计数除以特定文档部分的词语计数。因此,每个所分析的文档部分将与词语计数比相关联。对于给定语料库中的每个文档部分,分子都是相同的,但是分母取决于该文档部分的个体词语计数而不同。例如,如果给定文档部分的词语计数为25,而参考词语计数为72(例如,所有所分析的文档部分的最长词语计数),则该特定文档部分的词语计数比为72/25或2.88。
在614处,针对被包括在任何文档部分中的每个词语确定基于语料库的词语频率。词语频率特定于词语,而不是词语所在的文档部分。词语频率可以被认为是特定词语在整个所有所分析的文档部分中有多常见的度量。通过对词语在所有所分析的文档部分中出现的次数进行计数来确定词语频率。因此,词语频率表示在移除重复词语之前跨整组待分析的内容找到词语的实例数。例如,如果正被分析的文档语料库包括1000个专利,那些专利均平均具有20项专利权利要求,则将有20,000个文档部分待分析。给定词语(例如,“机器”)贯穿20,000个文档部分出现的次数就是该词语的频率。在特定语料库中常见的词语将具有较高的词语频率值,而在特定语料库中不常见的词语将具有较低的词语频率值。因此,在这一点上,每个文档部分与词语计数相关联,并且每个词语(其在每个文档部分中都必须包括词语)与词语频率相关联。
在616处,针对经处理的文档部分生成常见性分数。每个文档部分可以与它自己的常见性分数相关联。常见性分数基于在分析中贯穿整个文档部分语料库找到特定文档部分中的个体词语的频率。因此,文档部分的常见性分数基于词语在该文档部分中的词语频率。在一种实施方式中,经处理的文档部分的常见性分数基于该经处理的文档部分中每一个单独词语的词语频率倒数的平方和的平方根。因此,可以通过以下等式来计算具有词语1至n的文档部分的常见性分数(cs),每个词语具有由wf1到wfn表示的相关联的词语频率。
通过该计算,具有更多常见词语的文档部分将接收较低的常见性分数,而具有更多不常见词语的文档部分将接收较高的常见性分数。以此方式,常见性分数表示基本的假设或前提,即具有较多常见词语的专利权利要求往往宽于具有较多不常见词语的权利要求。可能并非总是如此,但是对于自动文档分析是有用的概括。
在618处,在经历分析的所有经处理的文档部分中,识别出最高的常见性分数。可以针对每个文档部分计算、分类常见性分数,并且然后将其中最高者存储为最高常见性分数。这表示基于被包括在文档部分中的词语的频率和数量的“最常见”的文档部分的分数。因此,每个其他文档部分将具有低于最高常见性分数的常见性分数。
在620处,针对所有经处理的文档部分计算常见性分数比。通过将最高常见性分数除以经处理的文档部分中个体文档部分的常见性分数来计算常见性分数比。因此,具有最高常见性分数(“最不常见”的词语)的文档部分具有的常见性分数比为1(即,将其除以其自身的常见性分数值)。而具有最高常见性分数的一半(较少的“不常见”词语和较多“常见”词语)的文档部分的常见性分数比为2。随着文档部分中的词语组变得更“常见”,常见性分数比增加。因此,较高的常见性分数比指示在经处理的文档部分中较多的“常见”或频繁词语。在专利权利要求的背景中,常见性比表示基本的假设或前提,即具有较少唯一词语的权利要求往往宽于具有较多唯一词语的权利要求,并且因此随着权利要求中的词语变得更加常见,常见性分数比增加。
在622处,从词语计数比和常见性分数比计算总分数。可以通过对经处理的文档部分中个体部分的词语计数比(wcr)的平方与常见性分数比(csr)
的平方之和求平方根来计算总分数。词语计数比和常见性分数的相对权重可以被归一化。用于归一化的一种技术是将词语计数比和常见性分数比二者的最高相应值设置为100。例如,如果最高词语计数比为h-wcr,则语料库的所有wcr都将乘以100/h-wcr。可以使用最高常见性分数比(h-csr)对常见性分数比执行相似的归一化。当然可以使用除100以外的归一化值,例如1000、500、50、10等。二者都是数字,但对总分数(例如,权利要求宽度)的相对影响可能不直接对应于相应的数值。例如,词语计数比10与常见性分数比10相比,对最终宽度的影响可能更大或更小。然而,在不归一化的情况下,二者对总分数的贡献相等。因此,可以通过第一归一化值K(例如,100/h-wcr)对词语计数比进行加权,并且可以通过第二归一化值L(例如,100/h-csr)对常见性分数比进行加权。当写成方程式时:因此,可以为每个文档部分指派其自己的总分数。可以将总分数视为测量文档部分的宽度,这是因为总分数基于词语计数和词语常见性的度量。这种用于确定总分数的技术还可以缓和词语计数比和常见性比背后的每个基本假设或前提。例如,如果专利权利要求相对短,但使用了非常不常见的术语,则由于权利要求中的限制性语言,专利从业人员可能仍认为该权利要求是窄的。通过基于这两个基本假设定义总分数,如果较短的权利要求使用在其中本体论发展良好的类别内被认为是限制性的或区别性的,即使较短的权利要求也可能被排序得不那么宽。
如果文档具有被分析的多个文档部分(例如,具有多个独立权利要求的专利文档),则可以基于一个或多个文档部分的总分数来为该文档指派单个总分数。归因于文档的总分数可以是文档部分的相应总分数中的最高、最低、平均或中位数。将单个分数指派给文档使得系统能够依据权利要求宽度对例如专利文档相对于彼此的顺序进行排序。
由于通过使用基于计算机的自动分析获得的处理效率,在一些实施方式中,604处的预处理、606处的异常检测、608处的词语计数的生成、610处的识别参考词语计数、612处的词语计数比的计算、614处的词语频率的确定、616处的常见性分数的生成、618处的识别最高常见性分数、620处的常见性分数比的计算以及622处的总分数的计算以显著快于通过人工分析实现的速度来执行。例如,此分析可以以大于每分钟一个文档、每30秒大于一个文档、每10秒一个文档的速率或另一速率进行。这是显著快于通过人工手动分析实现的速度的速度。尽管有知识的专家的主观评估将可能更好地测量宽度(并且使用与计算机不同的、更少公式化的方式来确定宽度),但其将慢得多。通过自动化过程获得的速度上的优势被精度上的损失所抵消。因此,比较各种用于文档分析的自动技术的一种方法是通过识别哪种技术最好地模拟了通过手动分析实现的分析结果。
在一些示例中,可以对以不同自然语言书写的文档执行602-622中的一些或全部。例如,可以将各种步骤或算法定制为以特定的自然语言(例如,英语)执行,并且在602处接收到的文档可以从以书写文档(例如,专利申请)的语言(例如,中文、日文等)翻译为步骤所定制的特定自然语音,并且然后对翻译后的文档执行各种步骤602-622。然而,在一些示例中,无需将文档翻译成特定的自然语言。例如,本文描述的技术预期了,以不同自然语言书书写的文档中包括的词语、字符或其他符号可以以各种方式来表示,例如通过使用词语、字符或其他符号的计算机表示,例如Unicode字符串、ASCII字符串、或其他字符串。不是必须翻译文档,而是各种步骤或算法可以使用文档中的词语、字符或其他符号的计算机表示来执行本文所述的技术。例如,下载的文档语料库都可以以相同的外语书写。不是将文档翻译为特定的自然语言(例如,英语),而是可以针对各个步骤602-622分析文档语料库的计算机表示。例如,不是在608处针对特定的英语词语查找文档语料库,技术可以对文档语料库的文档中包括的词语的计算机表示(例如,Unicode字符串、ASCII字符串等)计数,以针对文档部分识别词语计数。以这种方式,通过需要较少的计算能力来执行步骤602-622,技术可以改进需要翻译的现有技术,同时以不同的自然语言实现步骤602-622的益处。
在一些示例中,可以对以多种不同自然语言书写的文档语料库执行602-622中的一些或全部。例如,在604处,文档的预处理可以包括针对每个文档确定文档以哪种自然语言书写。基于每个专利的语言类型,可以针对各种语言中的每个词语确定特定于该语言的数字表示,并且可以针对每个文档执行606-624中的一个或多个步骤。在一些示例中,在步骤608、610、612、614、616、618、620和/或622中的一个或多个中确定的分数可以基于语言的类型而有所不同。例如,可能的是以中文书写的权利要求可以包括多于以英语书写的相同权利要求的词语。为了准确地对跨不同语言的文档进行排序和比较,可以针对每种语言确定词语计数趋势或平均值,并且可以使用缩放因数对不同语言之间的词语计数进行归一化。通过这种方式,可以跨多种语言确定文档(例如,专利)的精确评分或者排序。在一些示例中,也可以基于用于特定语言的技术分类或任何其他类型的分类来应用不同的缩放因数,以对在步骤608-622中的一个或多个中确定的各个分数进行归一化。在一些示例中,这可以引起超过人工分析的各种效率,例如通过减少说不同语言的人之间的错误,以及减少或消除人的主观性。
在624处,生成了UI,其包括总分数中的一个或多个。可以生成UI,使得在与该经处理的文档部分相关联的唯一文档识别号附近显示经处理的文档部分之一的总分数。例如,专利独立权利要求的总分数可以显示在专利号旁边。另外,UI的生成可以包括指示在606处的异常检测期间来自异常检测的结果的记号的生成。记号可以是指示检测到异常的标记。替代地或附加地,记号可以是对异常类型的描述。
在实施方式中,UI可以是文本UI或命令行界面,其显示包括总分数、唯一文档识别号和异常记号的一行文本。在实施方式中,UI可以类似于图1和图2所示的UI 118。由于屏幕实际使用面积的限制(例如,在移动设备上),UI可能仅在一个处理的文档部分上包括信息,以突出显示特定文档(例如,在分析的语料库中的所有文档中具有最高总分数的文档),以最小化跨网络发送的数据量,或出于其他原因。替代地,UI可以在一个或所有经处理的文档部分上显示信息。UI可以在具有共同的辅助数据字段(例如,受让人)的经处理的文档部分的子集上显示信息。在一些实施方式中,例如当分析上千个文档部分时,可能存在大量的总分数,因此UI可以包括滚动或其他功能,其允许显示设备响应于用户命令来显示UI的不同部分。
图7是描绘了通过应用多组规则来将权利要求宽度分数自动指派给专利权利要求的示例方法700的流程图。方法700的部分可以与上述方法300-500的部分相同或相似。
在702处,获得数据文件。在实施方式中,可以从图1所示的数据存储库102之一获得数据文件。替代地,数据文件可以从本地存储装置或除数据存储库之一之外的另一存储设备获得。数据文件可以包括专利权利要求语料库,并且可以是已发布的专利或已公布的专利申请。
在704处,获得第一组规则。获得第一组规则可以包括将第一组规则加载到随机存取存储器(RAM)中。第一组规则定义了异常专利权利要求。异常专利权要求可以是从属专利权要求、删除的专利权要求、单元加功能专利权要求或包含规范语言的专利权要求。可以使用与图5所示的方法500相同或相似的技术来识别异常的专利权利要求。
在706处,确定了第一组规则是否识别出从属权利要求或删除的权利要求。如果是,则当专利权利要求被确定为从属权利要求或删除的权利要求时,方法700前进到708,并生成包括该权利要求的忽略列表。在专利权利要求语料库内,所有被识别为从属或删除的待定权利要求都可以被包括在忽略列表中。在实施方式中,不对被包括在忽略列表中的任何权利要求执行进一步的分析,例如词语计数分数和常见性分数的生成。与仅生成词语计数分数和/或常见性分数以稍后忽略那些分数的技术相比,这减少了不必要的计算并使处理更快。
如果在706处,第一组规则未将权利要求识别为从属权利要求或删除的权利要求,则方法700前进到710。
在710处,确定了第一组规则是否识别出单元加功能权利要求或包含规范语言的权利要求。如果第一组规则这样做,并且给定的权利要求被识别为单元加功能权利要求或包含规范语言的权利要求,则方法700前进到712,并生成异常记号。异常记号可以是存储在与给定专利权利要求相关联的数据文件中的标志。该标志可以用于生成在UI上显示的异常记号,例如图2所示的异常210。
根据第一组规则分析在702处从数据文件获得的每个权利要求,或者将其忽略、与异常记号相关联并保留以供进一步分析,或者既不忽略也不与异常记号相关联,而是仅保留以供进一步分析。
在714处,获得第二组规则。获得第二组规则可以包括将第二组规则加载到RAM中。第二组规则将专利权利要求的词语计数分数定义为根据专利权利要求中词语计数。在一种实施方式中,第二组规则可以包括第二规则,所述第二规则基于预处理之后的专利权利要求中的词语数量来定义词语计数分数。预处理可以与图4所示的预处理相同或相似。预处理可以包括以下处理技术中的任何一种:词干提取、移除重复词语、移除停用词语以及其他处理技术。
在实施方式中,可以通过高词语计数的专利权利要求中的词语数量与正被分析的专利权利要求中的词语数量之比来确定词语计数分数。高词语计数的专利权利要求是待分析的专利权利要求语料库中的一个权利要求,其在预处理之后的词语数量最大。正被分析的专利权利要求的词语计数是在预处理之后该权利要求中的词语数量。如果预处理包括移除重复词语,则词语计数是唯一词语的计数。
在716处,获得第三组规则。获得第三组规则可以包括将第三组规则加载到RAM中。第三组规则将专利权利要求的常见性分数定义为根据该专利权利要求中的词语出现在待分析的所有专利权利要求语料库中的频率。第三组规则可以包括第三规则,所述第三规则基于根据每个权利要求的常见性分数来定义常见性分数。对于预处理之后的专利权利要求中每个词语,可以通过每个词语的全局词语计数的倒数的平方和的平方根来计算每个权利要求的常见性分数。在实施方式中,第二规则可以根据上面的等式1定义常见性分数。全局词语计数表示该词语在待分析的语料库内的任何专利权利要求中出现的次数的基于语料库的计数。全局词语计数可以基于在预处理期间在移除重复词语之前的词语计数。也可以针对停用词语执行全局词语计数。然而,可以通过在针对剩余词语的全局词语计数之前移除停用词语来减少时间和相关联的计算成本。
在实施方式中,常见性分数可以是高常见性专利权利要求的每个权利要求常见性分数与正被分析的专利权利要求的每个权利要求的常见性分数之比。高常见性专利权要求是专利权利要求语料库中的具有最高每个权利要求常见性分数的专利权利要求权。常见性分数的这种表示不仅考虑了个体权利要求和其他权利要求中的词语计数,而且还考虑了与同一语料库中其他专利权利要求的“常见性”相比给定专利权利要求中的词语“常见性”程度。
在718处,使用第二组规则和第三组规则来生成词语计数分数和常见性分数。可以将第二组规则和第三组规则应用于待分析的语料库中的所有专利权利要求,以针对那些专利权利要求中的每个权利要求获得词语计数分数和常见性分数。这创建由于第二组规则和第三组规则的应用而得到的新数据。该新数据可以与对应的专利权利要求相关联地存储。因此,例如,来自专利号8,000,000的专利权利要求1可以与表示词语计数分数的第一整数和表示常见性分数的第二浮点数相关联。
在720处,从词语计数分数和常见性分数生成权利要求宽度分数。权利要求宽度分数可以通过词语计数分数的平方和常见性分数的平方之和的平方根来计算。可以通过对原始分数值加权以创建加权分数来修改词语计数分数和常见性分数的相对影响。可以针对待分析的每个专利权利要求重复此操作,使得每个专利权利要求现在与表示相关联的权利要求宽度分数的新数据相关联。在实施方式中,可以通过上面的等式2来生成权利要求宽度分数。
一些示例中,可以基于与提交权利要求的管辖区相关联的实体法,在720处进一步生成权利要求宽度分数。
在722处,应用权利要求宽度分数,以产生排序结果。假定每个专利权利要求都与权利要求宽度分数相关联,则那些分数的值可以用于产生专利权利要求在语料库中的排序。可以通过从权利要求宽度分数的值创建排序的列表来实现排序。在一些实施方式中,可以将数据放置在允许随机访问的阵列中,而不是在排序的列表中。可以使用的示例排序算法包括合并排序、堆排序、二叉树排序、块排序、奇偶排序等。
在724处,生成UI以显示在722处生成的排序。该排序示出了待分析的专利权利要求的权利要求宽度分数。UI也可以显示其他来自同一语料库的专利权利要求的权利要求宽度分数。此外,UI可以显示与一项或多项个体专利权利要求相关联的专利号。在一些实施方式中,UI可以与图1和图2所示的UI 118相同或相似。UI还可以是命令行界面,其将宽度分数、排序以及任何相关联的专利或申请号示出为一行或多行文本。
在一些示例中,可以针对专利审查中的不同时间或针对专利文档语料库执行从702-724描述的方法700的一个或多个步骤。例如,可以在第一时间点(例如,当专利被提交时或在对权利要求进行修改之前(或审查中的任何其他时间点)),针对语料库中的专利确定权利要求宽度分数。此外,可以在第二时间点(例如,对应于权利要求被许可指示的时间点(或审查中的任何其他时间)的时间点)确定专利的权利要求宽度分数。在各种示例中,可以确定在审查中的第一点与审查中的第二点之间的权利要求宽度分数的差异,并且可以针对个体专利或专利的语料库确定专利权利要求宽度分数的平均变化。在一些示例中,专利的语料库可以与特定的分类相关联,例如特定的管辖区、某专利类型(例如,发明专利、实用新型专利、实用专利等)、某受让人和/或申请、某发明人等。在各种示例中,专利权利要求宽度分数的平均变化可以进一步用于针对其他专利确定权利要求宽度分数。例如,被指派给特定受让人或由特定申请递交的发明专利的专利宽度分数的平均变化可以应用于同一受让人或申请人的实用新型专利。这样,可以基于同一受让人或申请人的权利要求宽度分数的对应平均变化,针对具有某种程度确定性的实用新型专利确定权利要求宽度分数。
说明性计算机设备
图8示出了示例计算设备800的示意性框图。计算设备800的示例可以包括服务器、桌上型PC(个人计算机)、笔记本或便携式计算机、工作站、大型计算机、手持设备、上网本、互联网设备、便携式阅读设备、电子书阅读器设备、平板或平板式计算机、游戏终端、移动设备(例如,移动电话、个人数字助理、智能电话等)或其组合。计算设备800可以被实现为单个设备或者被实现为多个物理上不同的设备的组合。例如,计算设备800可以被实现为服务器和客户端的组合。
计算设备800可以包括一个或多个处理单元802和存储器804,二者都可以跨一个或多个物理或逻辑位置分布。处理单元802可以包括以下各项的任何组合:中央处理单元(CPU)、图形处理单元(GPU)、单核处理器、多核处理器、处理器集群、专用集成电路(ASIC)、可编程电路等,所述可编程电路例如现场可编程门阵列(FPGA)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等。除了硬件实施方式之外,处理单元802中的一个或多个还可以用软件或固件来实现处理单元802的软件或固件实施方式可以包括以任何合适的编程语言书写的计算机或机器可执行指令,以执行所描述的各种功能。处理单元802的软件实施方式可以全部或部分存储在存储器804中。
存储器804表示任何数量的形式的存储器,包括持久性和非持久性存储器。在一种实施方式中,存储器804可以包括采用易失性存储器形式的计算机可读介质,例如随机存取存储器(RAM)806和/或非易失性存储器,例如只读存储器(ROM)808或闪存RAM。RAM 806包括但不限于集成电路、相变存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、和其他类型的RAM。ROM 808包括可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪速存储器和NAND闪存。计算设备800的存储器804还可以包括可移动的存储装置、不可移动的存储装置和/或本地存储装置810,以提供计算机可读指令、数据结构、程序模块和其他数据的长期或短期存储。
存储器804是计算机可读介质的示例。计算机可读介质包括至少两种类型的介质:计算机可读存储介质和通信介质。计算机可读存储介质包括以用于存储信息(例如,计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质、RAM 806、ROM 808、闪速存储器或其他存储器技术、压缩盘只读存储器(CD-ROM)、数字多功能磁盘(DVD)、或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储设备或可以用于存储信息以供计算设备访问的任何其他非传输介质。如本文所定义的,计算机可读存储介质不包括诸如调制的数据信号和载波之类的暂时性介质。
相反,通信介质可以在诸如载波之类的调制的数据信号或其他传输机制中体现计算机可读指令、数据结构、程序模块或其他数据。如本文所定义的,计算机可读存储介质和通信介质是互斥的。
在一种实施方式中,存储器804可以包括多个数据库,例如数据存储库102。然而,如上所述,在其他示例中,数据存储库102可以与存储器804和计算设备800二者分开。一个或多个数据存储库102可以包含专利文档的集合,例如已发布的专利或已公布的专利申请。专利或专利申请的集合可以由以下各项来定义:例如专利所有人的选集(portfolio)、分类系统的分类(例如,诸如专利局或政府机构的分类系统之类的公共分类系统、诸如用于私有公司的分类系统之类的私有分类系统、由标准主体或行业设定的分类系统)、搜索结果、或专利文档的任何其他集合等。
通过示例而非限制的方式,存储器804还可以包括多个词语和/或短语,例如停用词语108以及如图1所示的首字母缩略词和缩写词110、以及其他词语,例如规范词语812。集合词语和/或短语中的任一者或全部可以作为列表被存储在存储器804中,或者可以直接被包括在与下面描述的模块之一相对应的计算机代码中。
过滤模块814可以存在于存储器804中并且耦合到一个或多个处理单元802。过滤模块814可以修改从数据存储库102获得的数据,以生成减少的数据组,其是用于后续分析的文档语料库。过滤模块814可以执行图3所示的方法300中的任一者或全部。过滤模块814将过滤后保留的来自数据存储库102的文档放置到计算设备800的本地存储装置810中。与访问远程存储位置中的文档相比,本地存储装置810中的经过滤的文档的存在可以提供其他模块的更快分析。
预处理模块816可以存在于存储器804中并且耦合到一个或多个处理单元802。预处理模块816可以在确定宽度之前,处理诸如专利权利要求之类的文档部分。该预处理可以包括对个体权利要求进行定界、将词语词干提取为词根形式、移除重复的词根形式以及移除停用词语108。预处理模块816可以执行图4所示的方法400中的任一者或全部。在实施方式中,停用词语108可以来自停用词语调整文件,所述停用词语调整文件被读入并用于文档部分的处理。停用词语调整文件可以特定于文档的给定的选集或文档语料库。
预处理模块816可以包括词干提取逻辑818。词干提取逻辑818使用词干提取算法来生成词语的词根形式。词干提取算法是语言规范化的过程,其中,词语的变型形式被简化为普通形式或词根形式。存在可以被使用的许多可能的词干提取算法,包括使用查找表、后缀剥离、词形还原、随机算法、n元分析、匹配算法、Porter、Porter2、Paice-Husk、Lovins和波特词干提取器。波特词干提取器遵循M.波特提出的算法“用于后缀剥离的算法(Analgorithm for suffix stripping)”(Program 14.3(1980):130-137)。词干提取逻辑818可以部分地通过将值传递给外部词干提取操作并接收结果返回来工作。用于实现其的一种技术是使用API来调用提供词干提取功能的外部模块或计算系统。应用程序接口(API)是用于构建软件应用的一组例程、协议和工具。API指定软件组件应如何交互。提供词干提取的API包括EnClout词干提取器、EnClout术语分析和文本处理。
异常检测模块820可以存在于存储器804中并且耦合到一个或多个处理单元802。异常检测模块820可以检测两种类型的异常:引起专利权利要求从进一步分析中被移除的异常和引起将专利权利要求标记以供手动审查的异常。异常检测模块820可以包括权利要求移除逻辑822,其被配置为检测从属权利要求和删除的权利要求并将其从待考虑以进行宽度分析的权利要求中移除。移除从属权利要求和/或删除的权利要求可以包括删除与那些权利要求相对应的记录,或者指示将在后续分析期间忽略与权利要求相对应的记录。可能也存在于异常检测模块820中的权利要求标记逻辑824被配置为生成标记或其他记号,其与那些具有需要进一步评估而非移除的异常类型的标志相关联。异常检测模块820可以执行图5中所示的方法500中的任一者或全部。异常检测模块820可以附加地或替代地包含在图7的框704中描述的第一组规则。
异常检测模块820可以引用停用词语108和/或规范词语812的一个或多个列表。可以在处理期间通过在列表中读取来完成引用,或者可以将该列表集成到执行异常检测的代码中。在任一实施方式中,该部分的一部分可以包括文档的一部分中的词语与“异常”词语之间的比较。该比较可以部分地通过使用一个或多个查找表来实现。查找表可以是预先计算的并被存储在静态程序存储装置中、作为程序初始化阶段(存储(memorization))的一部分进行计算(或“预取”),或者甚至被存储在应用特定平台的硬件中。在一些程序实施方式中,查找表可以包括指针功能(或到标签的偏移量)以处理匹配输入。为了提高处理速度,一个或多个现场可编程门阵列(FPGA)可以使用可重新配置的、硬件实现的查找表来提供可编程的硬件功能。例如,并且为了潜在地提高处理速度,可以将默认停用词语的列表和/或规范词语的列表812配置为硬件实现的查找表。
宽度计算模块826可以存在于存储器804中并且耦合到一个或多个处理单元802。宽度计算模块826可以被配置为针对个体文档部分计算宽度分数。如果个体文档部分是专利权利要求,则宽度计算模块826可以针对每个个体权利要求计算权利要求宽度分数。可以仅针对未由预处理模块816或异常检测模块820移除的权利要求或其他文档部分执行该计算。如上所述,宽度基于词语计数分数和常见性分数。因此,宽度计算模块826可以包括词语计数分数计算模块828和常见性分数计算模块830中的一个或二者。宽度计算模块826可以执行图6所示的方法600的操作608、610、612、614、616、618、620、622中的任一者或全部。
词语计数分数计算模块828可以被配置为基于权利要求的词语计数和具有最高词语计数的另一权利要求的最大词语计数来确定权利要求的词语计数分数。待分析的权利要求和其他具有最高词语计数的权利要求二者均来自专利文档的同一语料库。因此,词语计数分数计算模块828可以针对待分析的每个权利要求确定词语计数,并且识别那些权利要求中哪个权利要求具有最多的词语。在实施方式中,词语计数分数计算模块828可以包含在图7的框714中描述的第二组规则。
常见性分数计算模块830可以被配置为基于权利要求中的个体词语贯穿专利文档语料库中的所有权利要求出现的频率来针对该权利要求确定常见性分数。常见性分数计算模块830可以针对待分析的每个权利要求确定常见性分数,并且识别那些权利要求中的哪个权利要求由于具有最高常见性分数而最“常见”。出于计算宽度的目的,可以使用权利要求的个体常见性分数与最高常见性分数的比来表示该权利要求的常见性分数。在实施方式中,常见性分数计算模块830可以包含在图7的框716中描述的第三组规则。宽度计算模块826可以将由词语计数分数计算模块828和常见性分数计算模块830生成的结果进行组合,以针对每个权利要求或其他文档部分生成宽度分数。每个权利要求或文档部分的宽度分数可以以类似于图6中的框622或图7中的方框718所描述的方式生成。
排序模块832可以存在于存储器804中并且耦合到一个或多个处理单元802。排序模块832可以被配置为按照宽度顺序对所分析的文档或文档部分进行排序。例如,排序模块832可以按照被包含在多个公布的专利申请中的权利要求的宽度对那些申请进行排序。排序模块832还可以对特定专利或专利申请的个体权利要求进行排序,以识别哪个是最宽的权利要求。一些类型的文档可能具有可以被指派宽度分数的多个部分。例如,专利文档可以具有多个权利要求,并且更具体地,具有多个独立权利要求。排序模块832可以基于文档的一个或多个部分的宽度分数来为文档指派单个宽度分数。例如,专利文档的宽度分数可以是该专利文档中排序最高的独立权利要求的权利要求宽度分数。然后,可以基于从文档最宽的文档部分得出的这些宽度分数来对文档进行排序。替代地,被指派给文档的宽度分数可以基于最低排序的文档部分的宽度、多个文档部分的排序的平均值、多个文档部分的排序的中位数或从文档的多个部分的个体宽度分数得出的另一度量。
在实施方式中,排序模块832可以附加地将排序结果分组成一组多个值中的一个。一种分组实施方式是按百分位数进行的。因此,就宽度而言,即使个体文档的宽度分数略有不同,前1%的所分析的文档也都将被给予100的排序。分组可以将排序的文档划分成任何数量的不同分组,例如三个不同的分组(例如,高、中和低)、10个不同的分组、100个不同的分组或更多。因此,代替就宽度而言从1到100,000排序的100,000个文档(其中,每个排序是唯一的),每个文档可以具有从1到100的排序,并且若干文档共享每个数值级别。
以上描述的一些操作包括求和、减法、乘法和/或除法。处理单元802可以通过使用浮点计算来实现这些操作。浮点数是一种逼近实数的公式表示,以便支持范围和精度之间的折衷。通常,数字被近似地表示为固定数量的有效数字的定数(有效数位(significand),并使用某个固定基数中的指数进行缩放;用于缩放的基数通常为2、10或16。可以被精确表示的数字具有以下形式:有效数位*基数指数,其中,有效数位是整数,基数是大于或等于2的整数,并且指数也是整数。术语浮点是指这样的事实:数字的小数点(十进制小数点,或更常见于计算机中的二进制小数点)可以是“浮点”的;也就是说,它可以相对于数字有效数字放置在任何位置。该位置被指示为指数分量,并且因此浮点表示是科学计数法的形式。
浮点系统可以用于用固定数量的数字来表示不同数量级的数字。这个动态范围的结果是,可以表示的数字不是均匀间隔的。两个连续的可表示数字之间的差异随所选择的比例而增大。IEEE 754标准描述了一种用于浮点计算的示例技术。当前版本是于2008年8月公布的IEEE 754-2008。国际标准ISO/IEC/IEEE 60559:2011(其内容与IEEE 754-2008相同)被公布为ISO/IEC/IEEE 60559:2011“信息技术~微处理器系统-浮点运算(Information technology~Microprocessor Systems—Floating-Point arithmetic)。”
浮点数由两个定点分量组成,其范围仅取决于其表示形式中的比特或数字的数量。分量线性地取决于它们的范围,浮点范围线性地取决于有效范围,并且指数地取决于指数分量的范围,所述指数分量将非常大的范围附于该数字。在示例计算机系统上,“双精度”(64比特)二进制浮点数的系数为53比特(其中的一个是暗含的)、指数为11比特和一个符号比特。采用这种格式的正浮点数的范围大约为-10308到10308,这是因为指数的范围是[-1022,1023],而308大约是log10(21023)。格式的完整范围是从大约-10308到10308(参见IEEE754)。
系统(B,P,L,U)中规范化的浮点数的数量(其中,B是系统的基数,P是系统对P数的精度,L是系统中可表示的最小指数,并且U是系统中使用的最大指数)是2(B-1)(BP-1)(U-L+1)+1。
存在最小的正归一化的浮点数,下溢水平=UFL=BL,其前导数字为1,并且有效数的剩余数字为0,并且指数为最小可能值。存在最大的浮点数,溢出水平=OFL=(1-B-P)(BU+1),其有效数的每个数字的值为B-1,并且指数是最大可能值。
UI生成模块834可以存在于存储器804中并且由处理单元802实现。UI生成模块834可以生成或提供指令,以生成一个或多个用户界面,例如命令行用户界面和/或图形用户界面。命令行界面(也称为命令语言解释器(CLI)、命令行用户界面、控制台用户界面、或字符用户界面(CUI))是用于与计算机程序进行交互的界面,其中,用户(或客户端)以连续的文本行(命令行)的形式向程序发出命令。界面通常使用命令行外壳来实现,所述命令行外壳是接受命令作为文本输入并将命令转换为适当的操作系统功能的程序。
GUI是程序界面,其利用计算机的图形功能来使程序易于使用。精心设计的GUI可以将用户从学习复杂的命令语言中解放出来。在一种实施方式中,UI生成模块834可以生成GUI,例如图1和图2所示的UI 118。
计算设备800可以包括一个或多个用于接收和发送信息的通信接口836。通信接口836可以使用任何常规联网协议或技术来将计算设备800通信地耦合到通信网络。计算设备800还可以包括输入输出(I/O)组件838,以用于从人类操作员接收输入(例如,键盘),并且向人类操作员提供输出(例如,监视器)。
示例
通过三种不同的自动宽度评分技术,评估了包含8821种与计算机安全相关的不同的发布的美国实用专利的数据存储库。自动技术之一是本公开中描述的技术(称为“ClaimBreadth”)。其他技术是Innography Patent和Relecura Star Rating。Innography Patent是一种私有算法,其通过导出专利将最终被诉讼的可能性来预测专利价值和相关性。Innography Patent指派的分数范围是0-100,其中,100是“最佳”。RelecuraStar Rating是一种不同的私有算法,其预测专利质量并且范围是以0.5为增量的0-5(即,10个不同的分组)。具有评估专利权利要求范围的经验的人手动审阅了从8821中选择的10个专利。
使用本公开中描述的技术的自动文档分析能够在2714秒或每专利30.8秒内对8821个专利进行评分和排序。手动分析仅10个专利花费每个专利需要10到30分钟。因此,用这种技术,自动文档分析提供相对于手动分析的显著的速度优势。
本公开中描述的自动文档分析技术还提供了比其他自动技术更接近于手动分析的结果。因此,此处描述的技术可以被描述为比Innography Patent或RelecuraStar Rating更有效地模拟由人类生成的结果。下表1示出了通过人类分析排序的专利排序,以及通过本公开的技术(“Claim Breadth”)、Innography Patent和RelecuraStar Rating生成的排序。
表1.比较专利排序
所有自动排序技术所生成的结果彼此不同,并且与人类专家的手动评估结果不同。为了评价自动排序技术与人工手动排序的粗略相关性,通过人类分析确定的宽度,将10个专利分成三组。最宽的三个专利被包括在宽组中。中间四个专利被包括在中间组中。并且最窄的三个专利被包括在窄组内。
将专利正确地排序在与手动排序相同的组中的每种自动分析技术因为将专利置于正确的组(宽、中间或窄)中而被给予一分。这在表1中通过采用斜体的排序进行指示。因此,如果手动分析的专利排序号1被自动技术排序为1、2或3,则该自动技术因为将该专利正确地排序在宽组中而接收一分。如果自动分析技术通过将来自窄组中的一个专利放在宽组中(反之亦然)造成严重错误,则自动分析技术还会失去一分。表1中通过在排序后跟随星号指示了严重错误。
表1的检查示出,Claim Breadth比其他两种自动分析技术执行得更好。ClaimBreadth没有任何重大错误,并且将10个专利中的六个正确地置于与手动排序相同的宽组中。因此,本公开的Claim Breadth技术获得了六分。Innography Patent具有两个重大错误,并且仅仅将四个专利置于与手动排序相同的宽组中,因此获得了两分。Relecura Star Rating也具有两个重大错误,并将将两个专利置于与手动排序相同的宽组中。因此,Relecura Star Rating获得了零分。与Innography Patent或RelecuraStar Rating相比,由Claim Breadth生成的排序还与人工排序的相关性更高。相关性是两个变量之间彼此相关强弱程度的度量。+100%的相关性指示完美正相关,-100%指示完美负相关,并且0%指示无相关。Claim Breadth具有与人工排序72.12%的相关性。这是高度正相关并且指示由Claim Breadth生成的排序可能与由手动分析生成的排序相似。Innography Patent具有-23.78%的轻微负相关,表明由InnographyPatent生成的排序可能仅与手动分析生成的排序有些相似,但以相反方向排序。Relecura Star Rating基本上不具有相关性,其值为-9.30%。因此,与由专利分析行业使用的其他分析技术相比,本文公开的技术被定量地示出提供较多的人工模拟的专利权利要求排序。
条款示例
1、一种计算机实现的方法,包括:接收包含以自然语言类型书写的文本的多个文档,每个文档与唯一的文档识别号相关联;使用所述文本中每个词语的唯一计算机表示来表示被包括在所述多个文档中的文本,所述计算机表示包括ASCII、Unicode或等同技术;预处理通过以下方式对所述多个文档的处理:从所述多个文档中的每个文档生成一个或多个经处理的文档部分,经处理的文档部分中的每个经处理的文档部分与所述唯一文档识别号中的一个唯一文档识别号相关联;以及至少部分地基于每个词语的相关联的计算机表示,将被包括在所述多个文档中的所述文本解析成单独的词语;至少部分地基于停用词语、重复词语和标点符号的相关联的计算机表示,识别所述文本中的所述停用词语、所述重复词语和所述标点符号;以及从所述文本中移除所述停用词语、所述重复词语和所述标点符号;通过对所述经处理的文档部分中每个经处理的文档部分中的单独词语的计算机表示的数量进行计数,针对所述经处理的文档部分中的每个经处理的文档部分生成词语计数;识别参考词语计数;通过将所述参考词语计数除以所述经处理的文档部分中的每个个体的文档部分的词语计数,针对所述经处理的文档部分中的每个经处理的文档部分计算词语计数比;至少部分地基于所述计算机表示来针对被包括在所述文档部分中的任何文档部分中的每个词语确定词语频率,所述词语频率是在移除重复词语之前在所述文档部分中找到词语的实例总数量;通过对所述经处理的文档部分中的所述个体的经处理的文档部分中的所述单独词语中的每个单独词语取所述词语频率的倒数的平方的和的平方根,针对所述经处理的文档部分中的每个经处理的文档部分生成常见性分数;识别所述经处理的文档部分中的任何经处理的文档部分的最高常见性分数;通过将所述最高常见性分数除以所述经处理的文档部分中的所述个体的经处理的文档部分的所述常见性分数,针对所述经处理的文档部分中的每个经处理的文档部分计算常见性分数比;基于对所述词语计数比的平方与所述经处理的文档部分中的所述个体的经处理的文档部分的所述常见性分数比的平方之和的平方根的归一化,针对所述经处理的文档部分中的每个经处理的文档部分计算总分数;以及生成用户界面,所述用户界面在与所述经处理的文档部分中的一个经处理的文档部分相关联的所述唯一文档识别号临近处包括所述经处理的文档部分中的所述一个经处理的文档部分的至少一个总分数,以及指示来自对所述经处理的文档部分中的所述一个经处理的文档部分的检测的异常的结果的记号。
2、根据条款1所述的计算机实现的方法,其中,所述预处理还包括:至少部分地基于所述自然语言类型,识别特定于与所述自然语言类型相关联的管辖区的专利法的所述停用词语和所述重复词语的列表;以及针对所述自然语言类型,确定与所述停用词语和所述重复词语中的每一个相关联的计算机表示。
3、根据条款2所述的计算机实现的方法,其中,所述列表包括第一停用词语和第一重复词语的第一列表,并且其中,识别所述第一列表包括:查询数据库,包括:所述第一停用词语和所述第一重复词语的计算机表示的第一列表,所述第一停用词语和所述第一重复词语与以所述自然语言类型书写的词语相对应,其中,所述自然语言类型为英语以外的自然语言;以及第二停用词语和第二重复词语的计算机表示的第二列表,所述第二停用词语和所述第二重复词语与以英语书写的词语相对应;以及至少部分地基于所述自然语言类型,选择所述第一停用词语和所述第一重复词语的所述计算机表示的所述第一列表。
4、根据条款1所述的计算机实现的方法,其中,对所述多个文档的所述预处理是独立于所述文本从所述自然语言类型到另一自然语言类型的翻译执行的。
5、根据条款4所述的计算机实现的方法,其中,所述自然语言类型包括英语以外的自然语言,并且所述另一自然语言类型包括英语。
6、根据条款1所述的计算机实现的方法,其中,包含文本的所述多个文档包括专利,所述唯一文档识别号包括专利号,并且所述经处理的文档部分包括专利权利要求。
一种用于自动将权利要求宽度分数指派给专利权利要求的方法,所述方法包括:获得包括专利权利要求语料库的数据文件;获得定义异常专利权要求的第一组规则,所述第一组规则包括第一规则,所述第一规则用于识别从属专利权利要求、删除的专利权利要求、单元加功能专利权利要求或包含规范语言的专利权利要求中的至少一个的;以及以下各项中的至少一项:通过应用所述第一组规则,针对被包括在所述专利权利要求语料库中的专利权利要求生成忽略列表;或者通过应用所述第一组规则,生成标记所述专利权利要求的记号;确定递交所述专利权利要求的管辖区;确定与所述管辖区相关联的实体法;获得第二组规则,所述第二组规则针对专利权利要求根据所述专利权利要求中的词语计数定义词语计数分数;获得第三组规则,所述第三组规则针对所述专利权利要求根据所述专利权利要求中的词语出现在所述专利权利要求语料库中的频率定义常见性分数;通过对照所述第二组规则和所述第三组规则评估所述专利权利要求,针对所述专利权利要求生成所述词语计数分数和所述常见性分数;至少部分地基于所述词语计数分数、所述常见性分数以及与所述管辖区相关联的所述实体法,针对所述专利权利要求生成权利要求宽度分数;以及将所述权利要求宽度分数应用于所述专利权利要求,以关于来自所述专利权利要求语料库的多个其他专利权利要求产生排序。
8、根据条款7所述的方法,其中,所述专利权利要求所在的所述管辖区包括中国,并且确定所述实体法包括:确定将所述专利权利要求的前序的词语包括在所述专利权利要求中的所述词语计数中。
9、根据条款7所述的方法,其中,所述专利权利要求所在的所述管辖区包括美国,并且确定所述实体法包括:确定在所述专利权利要求的所述词语计数中排除所述专利权利要求的前序的词语。
10、根据条款7所述的方法,其中,当所述第一组规则包括用于识别所述从属专利权利要求和所述删除的专利权利要求的所述第一规则,并且通过应用所述第一组规则来针对被包括在所述专利权利要求语料库中的专利权利要求生成忽略列表,其中,不针对被包括在所述忽略列表中的专利权利要求生成所述词语计数分数和所述常见性分数。
11、根据条款7所述的方法,其中,所述第二组规则包括第二规则,所述第二规则将所述词语计数分数定义为基于预处理之后的所述专利权利要求中的词语数量,其中,预处理包括词干提取、移除重复词语以及移除停用词语。
12、根据条款7所述的方法,其中,所述第三组规则包括第三规则,所述第三规则将常见性分数定义为基于每个权利要求的常见性得分,所述每个权利要求的常见性得分是针对预处理后的所述专利权利要求中每个词语通过每个词语的全局词语计数的倒数的平方之和的平方根来计算的。
13、一个或多个计算设备,其用于自动分析专利文档语料库的,所述一个或多个计算设备包括:一个或多个处理单元;一或多个存储器,其耦合到所述一或多个处理单元;预处理模块,其耦合到所述一个或多个处理单元,并且被配置为:对于所述专利文档语料库的第一部分的第一审查点:处理所述专利文档语料库的所述第一部分的权利要求部分,界定个体权利要求,将所述个体权利要求中的词语词干提取为词根形式,从所述个体权利要求中移除重复的词根形式,并且从所述个体权利要求中移除停用词语;以及对于所述专利文档语料库的所述第一部分的第二审查点:处理所述专利文档语料库的所述第一部分的所述权利要求部分,界定个体权利要求,将所述个体权利要求中的词语词干提取为词根形式,从所述个体权利要求中移除重复的词根形式,并且从所述个体权利要求中移除停用词语;异常检测模块,其耦合到所述一个或多个处理单元,并且被配置为:对于所述专利文档语料库的所述第一部分的所述第一审查点:检测从属权利要求和删除的权利要求并且将其从所述权利要求专利文档语料库的所述第一部分的所述个体权利要求中移除;以及对于所述专利文档语料库的所述第一部分的所述第二审查点:检测从属权利要求和删除的权利要求并且将其从所述权利要求专利文档语料库的所述第一部分的所述个体权利要求中移除;以及权利要求宽度计算模块,其耦合到所述一个或多个处理单元,并且被配置为:对于所述第一审查点,针对所述专利文档语料库的所述第一部分的个体权利要求中的未被移除的每个个体权利要求,计算第一权利要求宽度分数,所述第一权利要求宽度分数基于权利要求的词语计数分数和所述权利要求的常见性分数;以及对于所述第二审查点,针对所述专利文档语料库的所述第一部分的个体权利要求中的未被移除的每个个体权利要求,计算第二权利要求宽度分数,所述第二权利要求宽度分数基于权利要求的词语计数分数和所述权利要求的常见性分数。
14、根据条款13所述的一个或多个计算设备,其中:所述第一审查点包括在对所述专利文档语料库的所述第一部分的所述个体权利要求进行修改之前的第一时间;以及所述第二审查点包括与所述专利文档语料库的所述第一部分的所述个体权利要求的许可通知相关联的第二时间
15、根据条款14所述的一个或多个计算设备,其中,所述权利要求宽度计算模块还被配置为针对所述专利文档语料库的所述第一部分的所述个体权利要求确定所述第一权利要求宽度分数和所述第二权利要求宽度分数之间的权利要求宽度分数的平均变化。16、根据条款15所述的一个或多个计算设备,其中:所述专利文档语料库的所述第一部分与发明专利相对应;所述专利文档语料库的所述第二部分与实用新型专利相对应;以及所述权利要求宽度模块还被配置为:至少部分地基于所述专利文档语料库的所述第一部分的所述个体权利要求的所述第一权利要求宽度分数和所述第二权利要求宽度分数之间的权利要求宽度分数的所述平均变化,针对所述专利文档语料库的所述第二部分中的个体权利要求确定第三权利要求宽度分数。
17、根据条款16所述的一个或多个计算设备,其中,所述专利文档语料库中的每个专利与常见分类相关联,所述常见分类包括以下各项至少中的一项:管辖区;技术分类;受让人;申请人;或者发明人。
18、根据条款13所述的一个或多个计算设备,其中,所述权利要求宽度计算模块包括词语计数分数计算模块,所述词语计数分数计算模块被配置为基于所述个体权利要求中的每个个体权利要求的词语计数和来自所述专利文档语料库的具有最高词语计数的权利要求的最大词语计数,针对所述个体权利要求中的每个个体权利要求计算词语计数分数。
19、根据条款13所述的一个或多个计算设备,其中,所述权利要求宽度计算模块包括词语计数分数计算模块,所述词语计数分数计算模块被配置为基于所述个体权利要求中的每个个体权利要求的词语计数和来自所述专利文档语料库的具有最高词语计数的权利要求的最大词语计数,针对所述个体权利要求中的每个个体权利要求计算词语计数分数。
20、根据条款1310所述的一个或多个计算设备,其中,所述权利要求宽度计算模块包括常见性分数计算模块,所述常见性分数计算模块被配置为基于每个个体权利要求中的个体词语贯穿所述专利文档语料库中的所有权利要求出现的频率,针对每个个体权利要求确定常见性分数。
结论
尽管已经用特定于结构特征的语言描述了主题,但是应该理解,所附权利要求书中定义的主题不必限于所描述的具体特征。相反,具体特征被公开为实现权利要求的说明性形式。
在描述本发明的上下文中(特别是在所附权利要求的上下文中)使用的术语“一个(a)”、“一种(an)”、“该(the)”和相似指示物应被解释为涵盖单数和复数,除非本文另有指示或与上下文明显矛盾。如本文在本文所使用的,“或”是指和/或。例如,“A或B”是指A而没有B、B而没有A、或A和B。术语“基于”应被解释为涵盖排他和非排他关系二者。例如,“A基于B”是指A至少部分基于B,并且可以完全基于B。
本文描述了某些实施例,包括发明人已知的用于执行本发明的最佳模式。当然,在阅读了前面的描述时,这些描述的实施例的变型对于本领域普通技术人员而言将变得显而易见。本领域技术人员将知道如何酌情采用这样的变型,并且可以以不同于具体描述的方式实践本文公开的实施例。因此,在所附权利要求书中记载的主题的所有修改和等同物都被包括在本公开的范围内。而且,除非本文另有指示或与上下文明显明显矛盾,否则本发明涵盖上述元素在其所有可能的变型中的任何组合。
此外,贯穿本说明书已经对出版物、专利或专利申请(统称为“参考文献”)进行了参考。针对被引用的参考文献的特定的记载的教导以及它们所公开的全部内容,被引用的参考文献中的每个参考文献都通过引用方式个体地并入本文。
Claims (15)
1.一种计算机实现的方法,包括:
接收包含以自然语言类型书写的文本的多个文档,每个文档与唯一的文档识别号相关联;
使用所述文本中每个词语的唯一计算机表示来表示被包括在所述多个文档中的文本,所述计算机表示包括ASCII、Unicode或等同技术;
预处理通过以下方式对所述多个文档的处理:
从所述多个文档中的每个文档生成一个或多个经处理的文档部分,经处理的文档部分中的每个经处理的文档部分与所述唯一文档识别号中的一个唯一文档识别号相关联;以及
至少部分地基于每个词语的相关联的计算机表示,将被包括在所述多个文档中的所述文本解析成单独的词语;
至少部分地基于停用词语、重复词语和标点符号的相关联的计算机表示,识别所述文本中的所述停用词语、所述重复词语和所述标点符号;以及
从所述文本中移除所述停用词语、所述重复词语和所述标点符号;
通过对所述经处理的文档部分中每个经处理的文档部分中的单独词语的计算机表示的数量进行计数,针对经处理的文档部分中的每个经处理的文档部分生成词语计数;
识别参考词语计数;
通过将所述参考词语计数除以所述经处理的文档部分中的每个个体的文档部分的词语计数,针对所述经处理的文档部分中的每个经处理的文档部分计算词语计数比;
至少部分地基于所述计算机表示来确定被包括在所述文档部分中的任何文档部分中的每个词语的词语频率,所述词语频率是在移除重复词语之前在所述文档部分中找到词语的实例总数量;
通过对所述经处理的文档部分中的所述个体的经处理的文档部分中的所述单独词语中的每个单独词语取所述词语频率的倒数的平方的和的平方根,针对所述经处理的文档部分中的每个经处理的文档部分生成常见性分数;
识别所述经处理的文档部分中的任何经处理的文档部分的最高常见性分数;
通过将所述最高常见性分数除以所述经处理的文档部分中的所述个体的经处理的文档部分的所述常见性分数,针对所述经处理的文档部分中的每个经处理的文档部分计算常见性分数比;
基于对所述词语计数比的平方与所述经处理的文档部分中的所述个体的经处理的文档部分的所述常见性分数比的平方之和的平方根的归一化,针对所述经处理的文档部分中的每个经处理的文档部分计算总分数;以及
生成用户界面,所述用户界面在与所述经处理的文档部分中的一个经处理的文档部分相关联的所述唯一文档识别号临近处包括所述经处理的文档部分中的所述一个经处理的文档部分的至少一个总分数,以及指示来自对所述经处理的文档部分中的所述一个经处理的文档部分的检测的异常的结果的记号。
2.根据权利要求1所述的计算机实现的方法,其中,所述预处理还包括:至少部分地基于所述自然语言类型,识别特定于与所述自然语言类型相关联的管辖区的专利法的所述停用词语和所述重复词语的列表;以及
针对所述自然语言类型,确定与所述停用词语和所述重复词语中的每一个相关联的计算机表示。
3.根据权利要求2所述的计算机实现的方法,其中,所述列表包括第一停用词语和第一重复词语的第一列表,并且其中,识别所述第一列表包括:
查询数据库,包括:
所述第一停用词语和所述第一重复词语的计算机表示的第一列表,所述第一停用词语和所述第一重复词语与以所述自然语言类型书写的词语相对应,其中,所述自然语言类型为英语以外的自然语言;以及
第二停用词语和第二重复词语的计算机表示的第二列表,所述第二停用词语和所述第二重复词语与以英语书写的词语相对应;以及至少部分地基于所述自然语言类型,选择所述第一停用词语和所述第一重复词语的所述计算机表示的所述第一列表。
4.根据权利要求1所述的计算机实现的方法,其中,对所述多个文档的所述预处理是独立于所述文本从所述自然语言类型到另一自然语言类型的翻译执行的。
5.根据权利要求4所述的计算机实现的方法,其中,所述自然语言类型包括英语以外的自然语言,并且所述另一自然语言类型包括英语。
6.一种用于自动将权利要求宽度分数指派给专利权利要求的方法,所述方法包括:
获得包括专利权利要求语料库的数据文件;
获得定义异常专利权要求的第一组规则,所述第一组规则包括第一规则,所述第一规则用于识别从属专利权利要求、删除的专利权利要求、单元加功能专利权利要求或包含规范语言的专利权利要求中的至少一个;以及以下各项中的至少一项:
通过应用所述第一组规则,针对被包括在所述专利权利要求语料库中的专利权利要求生成忽略列表;或者
通过应用所述第一组规则,生成标记所述专利权利要求的记号;
确定递交所述专利权利要求的管辖区;
确定与所述管辖区相关联的实体法;
获得第二组规则,所述第二组规则针对专利权利要求根据所述专利权利要求中的词语计数定义词语计数分数;
获得第三组规则,所述第三组规则针对所述专利权利要求根据所述专利权利要求中的词语出现在所述专利权利要求语料库中的频率定义常见性分数;
通过对照所述第二组规则和所述第三组规则评估所述专利权利要求,针对所述专利权利要求生成所述词语计数分数和所述常见性分数;
至少部分地基于所述词语计数分数、所述常见性分数以及与所述管辖区相关联的所述实体法,针对所述专利权利要求生成权利要求宽度分数;以及
将所述权利要求宽度分数应用于所述专利权利要求,以关于来自所述专利权利要求语料库的多个其他专利权利要求产生排序。
7.根据权利要求6所述的方法,其中,所述专利权利要求所在的所述管辖区包括中国,并且确定所述实体法包括:确定将所述专利权利要求的前序的词语包括在所述专利权利要求中的所述词语计数中。
8.根据权利要求6所述的方法,其中,所述专利权利要求所在的所述管辖区包括美国,并且确定所述实体法包括:确定在所述专利权利要求的所述词语计数中排除所述专利权利要求的前序的词语。
9.根据权利要求6所述的方法,其中,所述第二组规则包括第二规则,所述第二规则将所述词语计数分数定义为基于预处理之后的所述专利权利要求中的词语数量,其中,预处理包括词干提取、移除重复词语以及移除停用词语。
10.一个或多个计算设备,其用于自动分析专利文档语料库的,所述一个或多个计算设备包括:
一个或多个处理单元;
一或多个存储器,其耦合到所述一或多个处理单元;
预处理模块,其耦合到所述一个或多个处理单元,并且被配置为:
对于所述专利文档语料库的第一部分的第一审查点:
处理所述专利文档语料库的所述第一部分的权利要求部分,界定个体权利要求,将所述个体权利要求中的词语词干提取为词根形式,从所述个体权利要求中移除重复的词根形式,并且从所述个体权利要求中移除停用词语;以及
对于所述专利文档语料库的所述第一部分的第二审查点:
处理所述专利文档语料库的所述第一部分的所述权利要求部分,界定个体权利要求,将所述个体权利要求中的词语词干提取为词根形式,从所述个体权利要求中移除重复的词根形式,并且
从所述个体权利要求中移除停用词语;异常检测模块,其耦合到所述一个或多个处理单元,并且被配置为:
对于所述专利文档语料库的所述第一部分的所述第一审查点:
检测从属权利要求和删除的权利要求并且将其从所述权利要求专利文档语料库的所述第一部分的所述个体权利要求中移除;以及
对于所述专利文档语料库的所述第一部分的所述第二审查点:
检测从属权利要求和删除的权利要求并且将其从所述权利要求专利文档语料库的所述第一部分的所述个体权利要求中移除;以及
权利要求宽度计算模块,其耦合到所述一个或多个处理单元,并且被配置为:
对于所述第一审查点,针对所述专利文档语料库的所述第一部分的个体权利要求中的未被移除的每个个体权利要求,计算第一权利要求宽度分数,所述第一权利要求宽度分数基于权利要求的词语计数分数和所述权利要求的常见性分数;以及
对于所述第二审查点,针对所述专利文档语料库的所述第一部分的个体权利要求中的未被移除的每个个体权利要求,计算第二权利要求宽度分数,所述第二权利要求宽度分数基于权利要求的词语计数分数和所述权利要求的常见性分数。
11.根据权利要求10所述的一个或多个计算设备,其中:
所述第一审查点包括在对所述专利文档语料库的所述第一部分的所述个体权利要求进行修改之前的第一时间;以及
所述第二审查点包括与所述专利文档语料库的所述第一部分的所述个体权利要求的许可通知相关联的第二时间。
12.根据权利要求11所述的一个或多个计算设备,其中,所述权利要求宽度计算模块还被配置为针对所述专利文档语料库的所述第一部分的所述个体权利要求确定所述第一权利要求宽度分数和所述第二权利要求宽度分数之间的权利要求宽度分数的平均变化。
13.根据权利要求12所述的一个或多个计算设备,其中:
所述专利文档语料库的所述第一部分与发明专利相对应;
所述专利文档语料库的第二部分与实用新型专利相对应;以及
所述权利要求宽度模块还被配置为:至少部分地基于所述专利文档语料库的所述第一部分的所述个体权利要求的所述第一权利要求宽度分数和所述第二权利要求宽度分数之间的权利要求宽度分数的所述平均变化,针对所述专利文档语料库的所述第二部分中的个体权利要求确定第三权利要求宽度分数。
14.根据权利要求13所述的一个或多个计算设备,其中,所述专利文档语料库中的每个专利与常见分类相关联,所述常见分类包括以下各项至少中的一项:
管辖区;
技术分类;
受让人;
申请人;或者
发明人。
15.根据权利要求10所述的一个或多个计算设备,其中,所述权利要求宽度计算模块包括词语计数分数计算模块,所述词语计数分数计算模块被配置为基于所述个体权利要求中的每个个体权利要求的词语计数和来自所述专利文档语料库的具有最高词语计数的权利要求的最大词语计数,针对所述个体权利要求中的每个个体权利要求计算词语计数分数。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/451,138 | 2017-03-06 | ||
US15/451,138 US10366461B2 (en) | 2017-03-06 | 2017-03-06 | Automated document analysis for varying natural languages |
PCT/US2018/020382 WO2018164926A1 (en) | 2017-03-06 | 2018-03-01 | Automated document analysis for varying natural languages |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110741376A true CN110741376A (zh) | 2020-01-31 |
CN110741376B CN110741376B (zh) | 2024-03-15 |
Family
ID=63357374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880028545.XA Active CN110741376B (zh) | 2017-03-06 | 2018-03-01 | 用于不同自然语言的自动文档分析 |
Country Status (5)
Country | Link |
---|---|
US (3) | US10366461B2 (zh) |
CN (1) | CN110741376B (zh) |
DE (1) | DE112018001165T5 (zh) |
GB (1) | GB2574542A (zh) |
WO (1) | WO2018164926A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6865183B2 (ja) * | 2018-02-26 | 2021-04-28 | 日本電信電話株式会社 | 要約評価装置、方法、プログラム、及び記憶媒体 |
US11194956B2 (en) * | 2018-04-30 | 2021-12-07 | Patent Bots LLC | Offline interactive natural language processing results |
US11149649B2 (en) | 2018-08-17 | 2021-10-19 | Raytheon Technologies Corporation | Hybrid gas turbine engine system powered warm-up |
JP7211139B2 (ja) * | 2019-02-14 | 2023-01-24 | 日本電信電話株式会社 | 校閲方法、情報処理装置および校閲プログラム |
US11854706B2 (en) * | 2019-10-20 | 2023-12-26 | Cognitivecare Inc. | Maternal and infant health insights and cognitive intelligence (MIHIC) system and score to predict the risk of maternal, fetal and infant morbidity and mortality |
US11132698B1 (en) | 2020-04-10 | 2021-09-28 | Grant Thornton Llp | System and methods for general ledger flagging |
US20230086930A1 (en) * | 2021-09-17 | 2023-03-23 | Aon Risk Services, Inc. Of Maryland | Intellectual-property analysis platform |
US20230087206A1 (en) * | 2021-09-17 | 2023-03-23 | Aon Risk Services, Inc. Of Maryland | Intellectual-property analysis platform |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7503000B1 (en) * | 2000-07-31 | 2009-03-10 | International Business Machines Corporation | Method for generation of an N-word phrase dictionary from a text corpus |
US20090228777A1 (en) * | 2007-08-17 | 2009-09-10 | Accupatent, Inc. | System and Method for Search |
CN101681348A (zh) * | 2007-02-15 | 2010-03-24 | 塞科普公司 | 用于文档分析的基于语义的方法和装置 |
US20150150023A1 (en) * | 2013-11-22 | 2015-05-28 | Decooda International, Inc. | Emotion processing systems and methods |
US20170109449A1 (en) * | 2012-04-06 | 2017-04-20 | Enlyton, Inc. | Discovery engine |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8095581B2 (en) * | 1999-02-05 | 2012-01-10 | Gregory A Stobbs | Computer-implemented patent portfolio analysis method and apparatus |
US6944612B2 (en) * | 2002-11-13 | 2005-09-13 | Xerox Corporation | Structured contextual clustering method and system in a federated search engine |
US7370034B2 (en) * | 2003-10-15 | 2008-05-06 | Xerox Corporation | System and method for performing electronic information retrieval using keywords |
US20050120011A1 (en) | 2003-11-26 | 2005-06-02 | Word Data Corp. | Code, method, and system for manipulating texts |
WO2006126409A1 (ja) * | 2005-05-26 | 2006-11-30 | Sharp Kabushiki Kaisha | 特許情報分析装置、特許情報分析方法、特許情報分析プログラム、およびコンピュータ読み取り可能な記録媒体 |
US7716226B2 (en) * | 2005-09-27 | 2010-05-11 | Patentratings, Llc | Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects |
US8082248B2 (en) * | 2008-05-29 | 2011-12-20 | Rania Abouyounes | Method and system for document classification based on document structure and written style |
US8060513B2 (en) * | 2008-07-01 | 2011-11-15 | Dossierview Inc. | Information processing with integrated semantic contexts |
US8392175B2 (en) * | 2010-02-01 | 2013-03-05 | Stratify, Inc. | Phrase-based document clustering with automatic phrase extraction |
WO2012060532A1 (ko) * | 2010-11-02 | 2012-05-10 | (주)광개토연구소 | 특허 평가 모델 생성 방법, 특허 평가 방법, 특허 분쟁 예측 모델 생성 방법, 특허 분쟁 예측 정보 생성 방법, 특허 라이센싱 예측 정보 생성 방법, 특허 리스크 헤징 정보 생성 방법 및 시스템 |
US8316030B2 (en) | 2010-11-05 | 2012-11-20 | Nextgen Datacom, Inc. | Method and system for document classification or search using discrete words |
JP5389130B2 (ja) * | 2011-09-15 | 2014-01-15 | 株式会社東芝 | 文書分類装置、方法およびプログラム |
US20130110839A1 (en) | 2011-10-31 | 2013-05-02 | Evan R. Kirshenbaum | Constructing an analysis of a document |
US9087044B2 (en) * | 2012-08-30 | 2015-07-21 | Wal-Mart Stores, Inc. | Establishing “is a” relationships for a taxonomy |
EP3007080A1 (en) * | 2014-10-06 | 2016-04-13 | Fujitsu Limited | A document ranking apparatus, method and computer program |
US9979748B2 (en) * | 2015-05-27 | 2018-05-22 | Cisco Technology, Inc. | Domain classification and routing using lexical and semantic processing |
US20180032608A1 (en) * | 2016-07-27 | 2018-02-01 | Linkedin Corporation | Flexible summarization of textual content |
US10755045B2 (en) * | 2017-03-03 | 2020-08-25 | Aon Risk Services, Inc. Of Maryland | Automatic human-emulative document analysis enhancements |
-
2017
- 2017-03-06 US US15/451,138 patent/US10366461B2/en active Active
-
2018
- 2018-03-01 GB GB1913243.0A patent/GB2574542A/en not_active Withdrawn
- 2018-03-01 WO PCT/US2018/020382 patent/WO2018164926A1/en active Application Filing
- 2018-03-01 DE DE112018001165.8T patent/DE112018001165T5/de active Pending
- 2018-03-01 CN CN201880028545.XA patent/CN110741376B/zh active Active
-
2019
- 2019-07-26 US US16/523,562 patent/US11263714B1/en active Active
-
2022
- 2022-02-23 US US17/678,703 patent/US11734782B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7503000B1 (en) * | 2000-07-31 | 2009-03-10 | International Business Machines Corporation | Method for generation of an N-word phrase dictionary from a text corpus |
CN101681348A (zh) * | 2007-02-15 | 2010-03-24 | 塞科普公司 | 用于文档分析的基于语义的方法和装置 |
US20090228777A1 (en) * | 2007-08-17 | 2009-09-10 | Accupatent, Inc. | System and Method for Search |
US20170109449A1 (en) * | 2012-04-06 | 2017-04-20 | Enlyton, Inc. | Discovery engine |
US20150150023A1 (en) * | 2013-11-22 | 2015-05-28 | Decooda International, Inc. | Emotion processing systems and methods |
Also Published As
Publication number | Publication date |
---|---|
CN110741376B (zh) | 2024-03-15 |
US20180253810A1 (en) | 2018-09-06 |
WO2018164926A1 (en) | 2018-09-13 |
GB2574542A (en) | 2019-12-11 |
US11263714B1 (en) | 2022-03-01 |
GB201913243D0 (en) | 2019-10-30 |
DE112018001165T5 (de) | 2019-11-14 |
US11734782B2 (en) | 2023-08-22 |
US10366461B2 (en) | 2019-07-30 |
US20220343445A1 (en) | 2022-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475209B2 (en) | Device, system, and method for extracting named entities from sectioned documents | |
CN110741376A (zh) | 用于不同自然语言的自动文档分析 | |
US10755045B2 (en) | Automatic human-emulative document analysis enhancements | |
US11393237B1 (en) | Automatic human-emulative document analysis | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
EP3591539A1 (en) | Parsing unstructured information for conversion into structured data | |
US10528609B2 (en) | Aggregating procedures for automatic document analysis | |
US20180300323A1 (en) | Multi-Factor Document Analysis | |
CN112632989B (zh) | 一种合同文本中风险信息的提示方法、装置及设备 | |
CN111694946A (zh) | 文本关键词可视化显示方法、装置及计算机设备 | |
CN112015721A (zh) | 一种基于大数据的电商平台存储数据库的优化方法 | |
CN106445906A (zh) | 领域词典中中长词词组的生成方法及装置 | |
CN113033198B (zh) | 相似文本推送方法、装置、电子设备及计算机存储介质 | |
US11663408B1 (en) | OCR error correction | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN111125295A (zh) | 一种基于lstm的获取食品安全问题答案的方法及系统 | |
US11676231B1 (en) | Aggregating procedures for automatic document analysis | |
CN112395881B (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN108021595B (zh) | 检验知识库三元组的方法及装置 | |
CN109670183B (zh) | 一种文本重要性的计算方法、装置、设备和存储介质 | |
US20210182549A1 (en) | Natural Language Processing (NLP) Pipeline for Automated Attribute Extraction | |
Tran et al. | Context-aware detection of sneaky vandalism on wikipedia across multiple languages | |
CN114416977A (zh) | 文本难度分级评估方法及装置、设备和存储介质 | |
CN114020904A (zh) | 试题文件筛选方法、模型训练方法、装置、设备及介质 | |
CN111782601A (zh) | 电子文件的处理方法、装置、电子设备及机器可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |