CN111061834B - 基于神经网络的文档检索引用的方法、装置和存储介质 - Google Patents
基于神经网络的文档检索引用的方法、装置和存储介质 Download PDFInfo
- Publication number
- CN111061834B CN111061834B CN201911269913.2A CN201911269913A CN111061834B CN 111061834 B CN111061834 B CN 111061834B CN 201911269913 A CN201911269913 A CN 201911269913A CN 111061834 B CN111061834 B CN 111061834B
- Authority
- CN
- China
- Prior art keywords
- target
- document
- database
- predetermined
- target sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种基于神经网络的文档检索引用的方法、装置、存储介质和处理器。该方法包括:检测目标文档中的目标语句是否引用数据库中的预定文档;在确定目标语句引用数据库中的预定文档的情况下,确定目标语句所引用的预定文档。当确定目标文档中的目标语句引用了数据库中的预定文档,可以确定目标文档中的目标语句引用的文档是哪一个文档。并且,该方式通过自动确定文档中的目标语句引用的预定文档,相比现在的人工确定方式,其效率更高,能够确定文档之间的引用关系。
Description
技术领域
本申请涉及自然语言处理领域,具体而言,涉及一种基于神经网络的文档检索引用的方法、装置、存储介质和处理器。
背景技术
企业标准化人员在制定本企业生产标准时最大的工作量是庞大的文件之间相互复杂的引用关系,每个国家标准需要引用几十到几百个其他标准。标准化人员将这些标准具体化明确化到生产中,需要巨大的人工工作量,例如,“导体直流电阻试验应按GB/T3048.4—2007第三章的要求进行”,需要判断这句话是否引用其他国家标准,具体是引用哪条标准,并定位具体的引用位置,最终判断出本句话引用《GBT 3048.4-2007电线电缆电性能试验方法第4部分:导体直流电阻试验》中的第三章。所以,实际应用中,急需一种确定文档之间复杂的引用关系的方法。
在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解,因此,背景技术中可能包含某些信息,这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。
发明内容
本申请的主要目的在于提供一种基于神经网络的文档检索引用的方法、装置、存储介质和处理器,以解决现有技术中难以确定文档之间的引用关系的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种基于神经网络的文档检索引用的方法,该方法包括:检测目标文档中的目标语句是否引用数据库中的预定文档;在确定所述目标语句引用所述数据库中的所述预定文档的情况下,确定所述目标语句所引用的所述预定文档。
进一步地,定目标文档中的目标语句是否引用数据库中的预定文档之前,所述确定方法还包括:将多个所述预定文档格式化;利用格式化后的多个所述预定文档对应的数据建立所述数据库。
进一步地,检测目标文档中的目标语句是否引用数据库中的预定文档,包括:对所述目标文档格式化;通过规则解析确定格式化后的所述目标文档中的目标语句是否引用数据库中的所述预定文档,和/或通过统计解析确定格式化后的所述目标文档中的目标语句是否引用数据库中的所述预定文档。
进一步地,通过规则解析确定格式化后的所述目标文档中的目标语句是否引用数据库中的所述预定文档,包括:根据人工经验得到规则,根据所述规则匹配的结果确定格式化后的所述目标文档中的目标语句是否引用数据库中的所述预定文档;通过统计解析确定格式化后的所述目标文档中的目标语句是否引用数据库中的所述预定文档;通过机器学习的方法确定统计解析模型;采用所述统计解析模型确定格式化后的所述目标文档中的目标语句是否引用数据库中的所述预定文档。
进一步地,在确定所述目标语句引用所述数据库中的所述预定文档的情况下,确定所述目标语句所引用的所述预定文档,还包括:在确定所述目标语句引用所述数据库中的所述预定文档的情况下,通过模糊匹配确定所述目标语句所引用的所述预定文档的名称。
进一步地,在确定所述目标语句引用所述数据库中的所述预定文档的情况下,确定所述目标语句所引用的所述预定文档之后,所述确定方法包括:对所述目标语句进行语义分析;根据所述语义分析的结果确定所述目标语句所引用的部分在所述预定文档的具体位置,所述具体位置包括章的序号、节的序号和/或段的序号。
进一步地,所述目标文档和所述预定文档的格式为至少以下之一:pdf、doc、txt。
根据本申请的另一方面,提供了一种文档之间引用关系的确定装置,包括:检测单元,检测目标文档中的目标语句是否引用数据库中的预定文档;第一确定单元,在确定所述目标语句引用所述数据库中的所述预定文档的情况下,确定所述目标语句所引用的所述预定文档。
根据本申请的另一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行任意一种所述的方法。
根据本申请的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任意一种所述的方法。
应用本申请的技术方案,首先,检测目标文档中的目标语句是否引用数据库中的预定文档,其次,在确定目标语句引用数据库中的预定文档的情况下,确定目标语句所引用的预定文档,即当确定目标文档中的目标语句引用了数据库中的预定文档,再确定目标文档中的目标语句引用的文档是哪一个文档。该方法可以确定文档之间的引用关系,解决了现有技术中难以确定文档之间的引用关系的问题,并且,该方法通过自动确定文档中的目标语句引用的预定文档,相比现在的人工确定方式,其效率更高。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了根据本申请的实施例的一种基于神经网络的文档检索引用的方法的流程示意图;以及
图2示出了一种基于神经网络的文档检索引用的装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应该理解的是,当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时,该元件可直接在该另一元件上,或者也可存在中间元件。而且,在说明书以及权利要求书中,当描述有元件“连接”至另一元件时,该元件可“直接连接”至该另一元件,或者通过第三元件“连接”至该另一元件。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
键值,是windows中注册表中的概念,键值位于注册表结构链末端,和文件系统的文件类似,包含当前计算机和应用程序执行时使用的实际配置信息和数据,键值包含几种数据类型,以适应不同环境的使用需求。
根据本申请的实施例,提供了一种基于神经网络的文档检索引用的方法。图1是根据本申请实施例的基于神经网络的文档检索引用的方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,检测目标文档中的目标语句是否引用数据库中的预定文档
步骤S102,在确定上述目标语句引用上述数据库中的上述预定文档的情况下,确定上述目标语句所引用的上述预定文档。
上述的方案中,首先,检测目标文档中的目标语句是否引用数据库中的预定文档,其次,在确定目标语句引用数据库中的预定文档的情况下,确定目标语句所引用的预定文档,即当确定目标文档中的目标语句引用了数据库中的预定文档,再确定目标文档中的目标语句引用的文档是哪一个文档。该方法中的两个步骤均是基于神经网络实现的,该方法可以确定文档之间的引用关系,解决了现有技术中难以确定文档之间的引用关系的问题,并且,该方法通过自动确定文档中的目标语句引用的预定文档,相比现在的人工确定方式,其效率更高。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请的一种实施例中,检测目标文档中的目标语句是否引用数据库中的预定文档之前,上述确定方法还包括:将多个上述预定文档格式化;利用格式化后的多个上述预定文档对应的数据建立上述数据库,即在检测目标文档中的目标语句是否引用数据库中的预定文档之前,将格式化上述预定文档,得到数据库,这样后续可以利用该数据库确定文档间的引用关系,该方法能够更高效地确定文档之间引用关系,确定目标语句所引用的文档。
本申请的一种实施例中,检测目标文档中的目标语句是否引用数据库中的预定文档,包括:对上述目标文档格式化,通过规则解析确定格式化后的上述目标文档中的目标语句是否引用数据库中的上述预定文档,和/或通过统计解析确定格式化后的上述目标文档中的目标语句是否引用数据库中的上述预定文档,该方法中,先格式化上述目标文档,将整篇文档数据格式化,再通过仅有规则解析的方法、仅有统计解析的方法或者由规则解析和统计解析形成的方法,确定格式化后的上述目标文档中的目标语句是否引用了数据库中的上述预定文档,且该方案中,采用规则解析法和/或统计解析法能够更加高效准确地确认上述目标文档中的目标语句所引用的上述预定文档。
具体地,上述的规则解析为预先设定规则,然后用规则匹配的方法,匹配特定的引用说法的句式。比如,预先写一条规则“{*GB/T[$1]第[$2]章的要求*}=>{专利号=$1,章号=$2}”,用这条规则,可以匹配到句子“导体直流电阻试验应按GB/T 3048.4—2007第三章的要求进行”,并且解析出“专利号=3048.4—2007,章号=三”。
具体地,统计解析主要用神经网络句子分类和序列标注的算法对句子进行解析。句子分类算法主要识别本句是否引用了其他文档。如果判断有引用关系,那么再使用序列标注算法对本句每个词进行序列标注。
本申请的又一种实施例中,通过规则解析确定格式化后的上述目标文档中的目标语句是否引用数据库中的上述预定文档,包括:根据人工经验得到规则,根据上述规则匹配的结果确定格式化后的上述目标文档中的目标语句是否引用数据库中的上述预定文档;例如,如果预定文档中包含目标语句中的完整标准编号就认为是有引用,标准编号可以为国标;通过统计解析确定格式化后的上述目标文档中的目标语句是否引用数据库中的上述预定文档,包括:通过机器学习的方法确定统计解析模型;采用上述统计解析模型确定格式化后的上述目标文档中的目标语句是否引用数据库中的上述预定文档,例如采用logistic回归模型或者SVM模型或者神经网络等机器学习的方法,当然,本领域技术人员可以选用其他合适的方法。
本申请的再一种实施例中,通过规则解析和统计解析确定格式化后的上述目标文档中的目标语句是否引用数据库中的上述预定文档,以确定较准确的文档之间的引用关系。
本申请的又一种实施例中,在确定上述目标语句引用上述数据库中的上述预定文档的情况下,确定上述目标语句所引用的上述预定文档,还包括:在确定上述目标语句引用上述数据库中的上述预定文档的情况下,通过模糊匹配确定上述目标语句所引用的上述预定文档的名称,比如,输入句子“导体直流电阻试验应按GB/T 3048.4—2007第三章的要求进行”,期望匹配得到《GBT 3048.4-2007电线电缆电性能试验方法第4部分:导体直流电阻试验》这篇文章,通过模糊匹配确定上述目标语句所引用的上述预定文档的名称,以便后续引用句子的具体定位。
本申请的又一种实施例中,在确定上述目标语句引用上述数据库中的上述预定文档的情况下,确定上述目标语句所引用的上述预定文档之后,上述确定方法包括:对上述目标语句进行语义分析;根据上述语义分析的结果确定上述目标语句所引用的部分在上述预定文档的具体位置,上述具体位置包括章的序号、节的序号和/或段的序号,例如,输入句子为“部署符合GB/T BBBBB—20XX中6.2和6.3要求的系统”,分析结果为{“标题”:“GB/TBBBBB—20XX”,“章节号”:“第六章第二节&第六章第三节”},即实现了引用关系的具体定位。
本申请的一种实施例中,上述目标文档和上述预定文档的格式为至少以下之一:pdf、doc、txt。当然,本申请的目标文档并不限于上述的几种,其还可以为其他的目标文档,比如,xls、ppt和bmp等。
本申请实施例还提供了一种确定装置,需要说明的是,本申请实施例的确定装置可以用于执行本申请实施例所提供的用于基于神经网络的文档检索引用的方法。以下对本申请实施例提供的确定装置进行介绍。
图2是根据本申请实施例的确定装置的示意图。如图2所示,该装置包括:
检测单元10,用于检测目标文档中的目标语句是否引用数据库中的预定文档
第一确定单元20,用于在确定上述目标语句引用上述数据库中的上述预定文档的情况下,确定上述目标语句所引用的上述预定文档。
方案中,检测单元检测目标文档中的目标语句是否引用数据库中的预定文档,第一确定单元在确定目标语句引用数据库中的预定文档的情况下,确定目标语句所引用的预定文档,即当确定目标文档中的目标语句引用了数据库中的预定文档,再确定目标文档中的目标语句引用的文档是哪一个文档。该方法可以确定文档之间的引用关系,解决了现有技术中难以确定文档之间的引用关系的问题,并且,该方法通过自动确定文档中的目标语句引用的预定文档,相比现在的人工确定方式,其效率更高。
本申请的一种实施例中,上述装置还包括:第一格式化单元和建立单元,其中,第一格式化单元用于检测目标文档中的目标语句是否引用数据库中的预定文档之前,将多个上述预定文档格式化;建立单元用于利用格式化后的多个上述预定文档对应的数据建立上述数据库,即在检测目标文档中的目标语句是否引用数据库中的预定文档之前,将格式化上述预定文档,得到数据库,这样后续可以利用该数据库确定文档间的引用关系,该方法能够更高效地确定文档之间引用关系,确定目标语句所引用的文档。
本申请的一种实施例中,检测单元包括第一格式化模块和第一确定模块,其中,第一格式化模块用于对上述目标文档格式化,第一确定模块用于通过规则解析确定格式化后的上述目标文档中的目标语句是否引用数据库中的上述预定文档,和/或通过统计解析确定格式化后的上述目标文档中的目标语句是否引用数据库中的上述预定文档,格式化上述目标文档,将整篇文档数据格式化,通过仅有规则解析的方法、仅有统计解析的方法或者由规则解析和统计解析形成的方法,确定格式化后的上述目标文档中的目标语句是否引用了数据库中的上述预定文档,且该方案中,采用规则解析法和/或统计解析法能够更加高效准确地确认上述目标文档中的目标语句所引用的上述预定文档。
具体地,上述的规则解析为预先设定规则,然后用规则匹配的方法,匹配特定的引用说法的句式。比如,预先写一条规则“{*GB/T[$1]第[$2]章的要求*}=>{专利号=$1,章号=$2}”,用这条规则,可以匹配到句子“导体直流电阻试验应按GB/T 3048.4—2007第三章的要求进行”,并且解析出“专利号=3048.4—2007,章号=三”。
具体地,统计解析主要用神经网络句子分类和序列标注的算法对句子进行解析。句子分类算法主要识别本句是否引用了其他文档。如果判断有引用关系,那么再使用序列标注算法对本句每个词进行序列标注。
本申请的又一种实施例中,第一确定模块包括第一确定子模块和第二确定子模块,第一确定子模块用于根据人工经验得到规则,根据上述规则匹配的结果确定格式化后的上述目标文档中的目标语句是否引用数据库中的上述预定文档;例如,如果预定文档中包含目标语句中的完整标准编号就认为是有引用,标准编号可以为国标;,第二确定子模块模块用于通过机器学习的方法确定统计解析模型;采用上述统计解析模型确定格式化后的上述目标文档中的目标语句是否引用数据库中的上述预定文档,例如采用logistic回归模型或者SVM模型或者神经网络等机器学习的方法,当然,本领域技术人员可以选用其他合适的方法。
本申请的又一种实施例中,上述装置还包括第三确定子模块,用于通过规则解析和统计解析确定格式化后的上述目标文档中的目标语句是否引用数据库中的上述预定文档,以确定较准确的文档之间的引用关系。
本申请的又一种实施例中,第一确定单元还包括第二确定模块,用于在确定上述目标语句引用上述数据库中的上述预定文档的情况下,通过模糊匹配确定上述目标语句所引用的上述预定文档的名称,比如,输入句子“导体直流电阻试验应按GB/T 3048.4—2007第三章的要求进行”,期望匹配得到《GBT 3048.4-2007电线电缆电性能试验方法第4部分:导体直流电阻试验》这篇文章,通过模糊匹配确定上述目标语句所引用的上述预定文档的名称,以便后续引用句子的具体定位。
本申请的又一种实施例中,上述装置还包括,分析单元和第二确定单元,分析单元用于在确定上述目标语句引用上述数据库中的上述预定文档的情况下,确定上述目标语句所引用的上述预定文档之后,对上述目标语句进行语义分析;第二确定单元用于根据上述语义分析的结果确定上述目标语句所引用的部分在上述预定文档的具体位置,上述具体位置包括章的序号、节的序号和/或段的序号,例如,输入句子为“部署符合GB/T BBBBB—20XX中6.2和6.3要求的系统”,分析结果为{“标题”:“GB/T BBBBB—20XX”,“章节号”:“第六章第二节&第六章第三节”},即实现了引用关系的具体定位。
本申请的一种实施例中,上述目标文档和上述预定文档的格式为至少以下之一:pdf、doc、txt。当然,本申请的目标文档并不限于上述的几种,其还可以为其他的目标文档,比如,xls、ppt、bmp。
上述确定装置包括处理器和存储器,上述检测单元和第一确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来确定文档之间的引用关系。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述基于神经网络的文档检索引用的方法。
本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述基于神经网络的文档检索引用的方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现至少以下步骤:
步骤S101,检测目标文档中的目标语句是否引用数据库中的预定文档
步骤S102,在确定上述目标语句引用上述数据库中的上述预定文档的情况下,确定上述目标语句所引用的上述预定文档。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有至少如下方法步骤的程序:
步骤S101,检测目标文档中的目标语句是否引用数据库中的预定文档
步骤S102,在确定上述目标语句引用上述数据库中的上述预定文档的情况下,确定上述目标语句所引用的上述预定文档。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:
1)、本申请的基于神经网络的文档检索引用的方法,首先,检测目标文档中的目标语句是否引用数据库中的预定文档,其次,在确定目标语句引用数据库中的预定文档的情况下,确定目标语句所引用的预定文档,即当确定目标文档中的目标语句引用了数据库中的预定文档,再确定目标文档中的目标语句引用的文档是哪一个文档。该方法可以确定文档之间的引用关系,解决了现有技术中难以确定文档之间的引用关系的问题,并且,该方法通过自动确定文档中的目标语句引用的预定文档,相比现在的人工确定方式,其效率更高。
2)、本申请的基于神经网络的文档检索引用的装置,检测单元检测目标文档中的目标语句是否引用数据库中的预定文档,第一确定单元在确定目标语句引用数据库中的预定文档的情况下,确定目标语句所引用的预定文档,即当确定目标文档中的目标语句引用了数据库中的预定文档,可以确定目标文档中的目标语句引用的文档是哪一个文档。并且,该方式通过自动确定文档中的目标语句引用的预定文档,相比现在的人工确定方式,其效率更高,能够确定文档之间的引用关系。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种基于神经网络的文档检索引用的方法,其特征在于,包括:
检测目标文档中的目标语句是否引用数据库中的预定文档;
检测目标文档中的目标语句是否引用数据库中的预定文档,包括:
对所述目标文档格式化;
通过规则解析确定格式化后的所述目标文档中的目标语句是否引用数据库中的所述预定文档,和/或通过统计解析确定格式化后的所述目标文档中的目标语句是否引用数据库中的所述预定文档;
通过规则解析确定格式化后的所述目标文档中的目标语句是否引用数据库中的所述预定文档,包括:
根据人工经验得到规则,根据所述规则匹配的结果确定格式化后的所述目标文档中的目标语句是否引用数据库中的所述预定文档;
通过机器学习的方法确定统计解析模型;
采用所述统计解析模型确定格式化后的所述目标文档中的目标语句是否引用数据库中的所述预定文档;
在确定所述目标语句引用所述数据库中的所述预定文档的情况下,确定所述目标语句所引用的所述预定文档。
2.根据权利要求1所述的方法,其特征在于,检测目标文档中的目标语句是否引用数据库中的预定文档之前,所述确定方法还包括:
将多个所述预定文档格式化;
利用格式化后的多个所述预定文档对应的数据建立所述数据库。
3.根据权利要求1所述的方法,其特征在于,在确定所述目标语句引用所述数据库中的所述预定文档的情况下,确定所述目标语句所引用的所述预定文档,还包括:
在确定所述目标语句引用所述数据库中的所述预定文档的情况下,通过模糊匹配确定所述目标语句所引用的所述预定文档的名称。
4.根据权利要求1所述的方法,其特征在于,在确定所述目标语句引用所述数据库中的所述预定文档的情况下,确定所述目标语句所引用的所述预定文档之后,所述确定方法包括:
对所述目标语句进行语义分析;
根据所述语义分析的结果确定所述目标语句所引用的部分在所述预定文档的具体位置,所述具体位置包括章的序号、节的序号和/或段的序号。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述目标文档和所述预定文档的格式为至少以下之一:
pdf、doc、txt。
6.一种基于神经网络的文档检索引用的装置,其特征在于,包括:
检测单元,检测目标文档中的目标语句是否引用数据库中的预定文档;
所述检测单元包括:
第一格式化模块,用于对所述目标文档格式化;
第一确定模块,用于通过规则解析确定格式化后的所述目标文档中的目标语句是否引用数据库中的所述预定文档,和/或通过统计解析确定格式化后的所述目标文档中的目标语句是否引用数据库中的所述预定文档;
所述第一确定模块包括:
第一确定子模块,用于根据人工经验得到规则,根据所述规则匹配的结果确定格式化后的所述目标文档中的目标语句是否引用数据库中的所述预定文档;
第二确定子模块,用于通过机器学习的方法确定统计解析模型;
第三确定子模块,用于采用所述统计解析模型确定格式化后的所述目标文档中的目标语句是否引用数据库中的所述预定文档;
第一确定单元,在确定所述目标语句引用所述数据库中的所述预定文档的情况下,确定所述目标语句所引用的所述预定文档。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至5中任意一项所述的方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911269913.2A CN111061834B (zh) | 2019-12-11 | 2019-12-11 | 基于神经网络的文档检索引用的方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911269913.2A CN111061834B (zh) | 2019-12-11 | 2019-12-11 | 基于神经网络的文档检索引用的方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111061834A CN111061834A (zh) | 2020-04-24 |
CN111061834B true CN111061834B (zh) | 2023-09-05 |
Family
ID=70298880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911269913.2A Active CN111061834B (zh) | 2019-12-11 | 2019-12-11 | 基于神经网络的文档检索引用的方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061834B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920565A (zh) * | 2018-06-21 | 2018-11-30 | 苏州大学 | 一种图片标题生成方法、装置和计算机可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8744135B2 (en) * | 2008-09-16 | 2014-06-03 | Kendyl A. Román | Methods and data structures for multiple combined improved searchable formatted documents including citation and corpus generation |
US9405749B2 (en) * | 2008-09-16 | 2016-08-02 | Kendyl A Roman | Methods and data structures for improved searchable formatted documents including citation and corpus generation |
-
2019
- 2019-12-11 CN CN201911269913.2A patent/CN111061834B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920565A (zh) * | 2018-06-21 | 2018-11-30 | 苏州大学 | 一种图片标题生成方法、装置和计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
虞哲英 ; 关贝 ; 昝道广 ; 吕荫润 ; 毕丽阳 ; 王永吉 ; .一种不依赖用户行为数据的科研文献推送系统.文献与数据学报.2019,(02),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111061834A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210248420A1 (en) | Automated generation of structured training data from unstructured documents | |
US9923860B2 (en) | Annotating content with contextually relevant comments | |
US20160306852A1 (en) | Answering natural language table queries through semantic table representation | |
CN111061881A (zh) | 文本分类方法、设备及存储介质 | |
US20190294695A1 (en) | Implicit relation induction via purposeful overfitting of a word embedding model on a subset of a document corpus | |
CN110851511A (zh) | 数据同步的方法及装置 | |
CN114428862A (zh) | 基于油气管道的知识图谱构建方法及处理器 | |
CN117289904A (zh) | 人工智能模型构建方法、系统、设备及存储介质 | |
Pearson et al. | Defining file format obsolescence: A risky journey | |
US20210150270A1 (en) | Mathematical function defined natural language annotation | |
CN111198934A (zh) | 一种信息处理方法及相关设备 | |
CN111061834B (zh) | 基于神经网络的文档检索引用的方法、装置和存储介质 | |
CN115952854B (zh) | 文本脱敏模型的训练方法、文本脱敏方法及应用 | |
CN116032725B (zh) | 故障根因定位模型的生成方法及装置 | |
US11645110B2 (en) | Intelligent generation and organization of user manuals | |
US10120661B2 (en) | Multi-flavored software execution from a singular code base | |
CN116739080A (zh) | 一种电力标准差异信息自动比对发现的方法和系统 | |
US20230161948A1 (en) | Iteratively updating a document structure to resolve disconnected text in element blocks | |
US20230169041A1 (en) | Analyzing deduplicated data blocks associated with unstructured documents | |
CN114385779B (zh) | 一种应急调度指令执行方法、装置及电子设备 | |
CN112579747B (zh) | 一种身份信息提取方法及装置 | |
CN113111181A (zh) | 文本数据处理方法、装置、电子设备及存储介质 | |
CN106599002B (zh) | 话题演化分析的方法及装置 | |
EP3316148A1 (en) | Method and system for determining action items from knowledge base for execution of operations | |
CN112445784B (zh) | 一种文本结构化的方法、设备及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200811 Address after: 1608, 14 / F, No. 65, Beisihuan West Road, Haidian District, Beijing 100080 Applicant after: BEIJING INTERNETWARE Ltd. Address before: No. 603, floor 6, No. 9, Shangdi 9th Street, Haidian District, Beijing 100085 Applicant before: Smart Shenzhou (Beijing) Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |