CN114065765A - 结合ai和rpa的武器装备文本处理方法、装置及电子设备 - Google Patents
结合ai和rpa的武器装备文本处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114065765A CN114065765A CN202111268793.1A CN202111268793A CN114065765A CN 114065765 A CN114065765 A CN 114065765A CN 202111268793 A CN202111268793 A CN 202111268793A CN 114065765 A CN114065765 A CN 114065765A
- Authority
- CN
- China
- Prior art keywords
- text
- weaponry
- weapon equipment
- natural language
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000013473 artificial intelligence Methods 0.000 claims description 75
- 238000004590 computer program Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 20
- 238000004801 process automation Methods 0.000 claims description 18
- 238000012015 optical character recognition Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 13
- 238000003709 image segmentation Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 47
- 239000003795 chemical substances by application Substances 0.000 description 21
- 238000010276 construction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004519 manufacturing process Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 235000014510 cooky Nutrition 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 241000272814 Anser sp. Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提出了一种结合AI和RPA的武器装备文本处理方法、装置及电子设备,涉及AI和RPA领域,其中,方法包括:基于RPA机器人或IP代理,获取武器装备文本的集合;对集合中的武器装备文本进行类型识别;在类型为键值对文本的情况下,将预设的自然语言问题和键值对文本输入阅读理解模型,以从键值对文本中确定自然语言问题对应的答案文本,以及自然语言问题和键值对文本之间的语义相关性;在自然语言问题和键值对文本语义相关的情况下,根据答案文本和自然语言问题中的属性词,确定武器装备的结构化数据。由此,提高了武器装备文本获取的自动化程度,实现了从统一格式的武器装备文本中准确地生成结构化数据,提高了知识图谱构建的准确性和效率。
Description
技术领域
本公开涉及人工智能(Artificial Intelligence,简称AI)和机器人流程自动化(Robotic Process Automation,简称RPA)技术领域,尤其涉及一种结合AI和RPA的武器装备文本处理方法、装置及电子设备。
背景技术
机器人流程自动化(Robotic Process Automation,RPA)是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
目前,为了构建武器装备的知识图谱,需从开源的武器装备文本中获取武器装备的结构化数据,根据结构化数据进行知识图谱构建。
相关技术中,需人工参与获取武器装备的结构化数据,并且,由于数据源的多样性,获取的武器装备数据质量参差不齐,人工对海量数据进行筛选处理,以保留对构建知识图谱可用性较高的武器装备数据,但是,人工参与获取武器装备数据,降低了武器装备数据获取效率,并且,人工筛选的数据,数据格式不统一,降低了构建知识图谱的准确度和效率。
发明内容
本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本公开的第一个目的在于提出一种结合AI和RPA的武器装备文本处理方法,以实现自动获取武器装备文本,提高了武器装备文本获取的自动化程度,对武器装备文本进行类型识别,可从数据格式统一的武器装备文本中确定自然语言问题对应的答案文本,实现了对自然语言问题对应的答案问句的数据格式统一,同时,在自然语言处理问题和键值对文本语义相关的情况下,根据答案文本和自然语言问题中的属性词,可准确地生成结构化数据,从而提高了知识图谱构建的准确性和效率。
本公开的第二个目的在于提出一种结合人工智能AI和机器人流程自动化RPA的武器装备文本处理装置。
本公开的第三个目的在于提出一种电子设备。
本公开的第四个目的在于提出一种非临时性计算机可读存储介质。
本公开的第五个目的在于提出一种计算机程序产品。
为达上述目的,本公开第一方面实施例提出了一种方法,包括:基于RPA机器人或网际互联协议IP代理,获取武器装备文本的集合;对所述集合中的武器装备文本进行类型识别,以确定所述武器装备文本的类型;在所述类型为键值对文本的情况下,将预设的自然语言问题和所述键值对文本输入阅读理解模型,以从所述键值对文本中确定所述自然语言问题对应的答案文本,以及所述自然语言问题和所述键值对文本之间的语义相关性;在所述自然语言问题和所述键值对文本语义相关的情况下,根据所述答案文本和所述自然语言问题中的属性词,确定武器装备的结构化数据。
本公开实施例提供的技术方案,通过RPA机器人和IP代理池,获取武器装备文本,提高了武器装备文本获取的自动化程度,对武器装备文本进行类型识别,可从数据格式统一的武器装备文本中确定自然语言问题对应的答案文本,实现了对自然语言问题对应的答案问句的数据格式统一,同时,在自然语言处理问题和键值对文本语义相关的情况下,根据答案文本和自然语言问题中的属性词,可准确地生成结构化数据,从而提高了知识图谱构建的准确性和效率。
为达上述目的,本公开第二方面实施例提出了一种结合人工智能AI和机器人流程自动化RPA的武器装备文本处理装置,包括:获取模块,用于基于RPA机器人或网际互联协议IP代理,获取武器装备文本的集合;类型识别模块,用于对所述集合中的武器装备文本进行类型识别,以确定所述武器装备文本的类型;第一确定模块,用于在所述类型为键值对文本的情况下,将预设的自然语言问题和所述键值对文本输入阅读理解模型,以从所述键值对文本中确定所述自然语言问题对应的答案文本,以及所述自然语言问题和所述键值对文本之间的语义相关性;第二确定模块,用于在所述自然语言问题和所述键值对文本语义相关的情况下,根据所述答案文本和所述自然语言问题中的属性词,确定武器装备的结构化数据。
为达上述目的,本公开第三方面实施例提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本公开第一方面实施例所述的方法。
为了实现上述目的,本公开第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本公开第一方面实施例所述的方法。
为了实现上述目的,本公开第五方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开第一方面实施例所述的方法。
本公开附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本公开实施例所提供的一种结合AI和RPA的武器装备文本处理方法的流程示意图;
图2为本公开实施例的阅读理解模型示意图;
图3为本公开实施例所提供的另一种结合AI和RPA的武器装备文本处理方法的流程示意图;
图4为本公开实施例所提供的另一种结合AI和RPA的武器装备文本处理方法的流程示意图;
图5为本公开实施例的从表格文本中确定武器装备的结构化数据的流程示意图;
图6为本公开实施例所提供的另一种结合AI和RPA的武器装备文本处理方法的流程示意图;
图7为本公开实施例的基于IP代理获取武器装备文本的集合的流程示意图;
图8为本公开实施例的基于RPA机器人获取武器装备文本的结合的流程示意图;
图9为本公开实施例所提供的另一种结合AI和RPA的武器装备文本处理方法的流程示意图;
图10是根据本公开一个实施例的结合人工智能AI和机器人流程自动化RPA的武器装备文本处理装置的结构示意图;
图11是根据本公开实施例的结合人工智能AI和机器人流程自动化RPA的武器装备文本处理方法的电子设备的框图。
具体实施方式
下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。
为了快速获取开源武器装备文本数据,需要通过数据采集技术,从网页、期刊、文档等多来源获取时效性高、可用性高的数据。但是这个过程存在以下两方面难点:
1、面对数据来源的多样性,数据格式的多元化,需要在准确获取相应数据的基础上,尽可能加快获取速度,提升获取效率,在最大限度保证数据获取效率的同时,需要保证数据获取的稳定性,由于部分网站会对访问频率进行限制,进而中断了数据获取的进度;
2、武器装备领域中的武器装备数据有较高时效性的要求,对于高质量数据源,需要实时获取最新数据。这就要求在保证时效性的同时又不会过于频繁的发送数据更新请求,或在数据源内全量检索最新数据。
对于已获取的数据,由于数据源、数据格式的多样性,需要将多元数据进行整合,将非结构化的数据转化为结构化的数据。从处理后的数据中获取可用于构建知识图谱的实体、属性及关系信息,主要难度集中在以下几个方面:
1、由于数据源的多样性,获取的数据质量可能会参差不齐。需要判定出高质量数据,并保留对构建知识图谱可用性较高的数据,过滤掉低质量或与相关主题无关的数据,并剔除对于构建知识图谱无帮助的数据。在海量数据的处理过程中,需要尽可能通过自动化的形式完成,以减少人的主观倾向性对生成结果的影响,并可显著提高数据生产效率;
2、需要通过高效、准确的实体抽取、关系抽取等方式,从生产出的结构化数据中提取出实体、属性和关系信息,以供后续构建知识图谱使用;
3、对于图片、表格、纸质版期刊、报纸等媒介中的非结构化数据,需要应用不同于结构化数据的信息获取方法,保证获取数据高效性的同时,尽量减少人工参与,做到高可扩展性与高鲁棒性。同时需要充分利用非纯文字数据的结构化信息以提升获取信息的准确性;
4、数据中自动抽取出的同一实体、属性等信息可能存在着多种表现形式,需要对抽取出来的实体的表述做归一化,避免出现同一实体有不同说法、表述混乱而对后续构建知识图谱造成困难的问题。
针对上述问题,本公开提出一种结合人工智能(Artificial Intelligence,简称AI)和机器人流程自动化(Robotic Process Automation,简称RPA)的武器装备文本处理方法、装置及电子设备。
下面参考附图描述本公开实施例的结合AI和RPA的武器装备文本处理方法、装置及电子设备。
在具体描述本公开实施例之前,为了便于理解,首先对本公开常用技术词进行介绍。
IP代理:每次发起浏览器请求时从代理池随机挑选一个网际互联协议(InternetProtocol,简称IP)地址作为代理;
自然语言问题:自然语言是指一种自然地随文化演化的语言,例如为,汉语、英语、日语等,基于自然语言提出的问题为自然语言问题,比如,“这个武器的名称是?”与“此武器的生产时间为?”等;
键值对文本:键值对可以根据一个键值获得对应的一个值;键值对文本为键值与对应的值(key-value)的结构化文本;
三元组:表示实体及实体之间的关系,即(实体1关系实体2);
结构化数据:构建知识图谱中所需要的实体与属性内容;
实体关系抽取模型:用于抽取文章文本中的主体、属性和客体,得到主体、属性和客体的三元组信息,同时,可对三元组中的主体和客体进行标签标注的模型;
武器装备实体:具体的武器装备名称;
武器装备文本:包含武器装备实体以及武器装备实体之间关系的文本。
图1为本公开实施例所提供的一种结合AI和RPA的武器装备文本处理方法的流程示意图。
如图1所示,该结合AI和RPA的武器装备文本处理方法包括以下步骤:
步骤101,基于RPA机器人或IP代理,获取武器装备文本的集合。
为了提高获取武器装备文本的自动化程度,在本公开实施例中,可基于RPA机器人或IP代理,获取武器装备文本的集合。
作为一种示例,可通过RPA机器人模拟人工操作,通过浏览器获取武器装备文本,将多个武器装备文本作为武器装备文本的集合。
作为另一种示例,可从IP地址池中随机选取目标IP,作为IP代理,并结合网络地址向目标网站发起访问请求,以得到武器装备文本,将多个武器装备文本作为武器装备文本的集合。
步骤102,对集合中的武器装备文本进行类型识别,以确定武器装备文本的类型。
在本公开实施例中,可对武器装备文本的集合中的武器装备文本进行类型识别,以确定武器装备文本的类型,比如,可通过设定的正则表达式对武器装备文本进行类型识别,以确定武器装备文本的类型。其中,武器装备文本的类型可包括但不限于:键值对文本、表格文本和文章文本。
步骤103,在类型为键值对文本的情况下,将预设的自然语言问题和键值对文本输入阅读理解模型,以从键值对文本中确定自然语言问题对应的答案文本,以及自然语言问题和键值对文本之间的语义相关性。
其中,阅读理解模型为识别自然语言问题对应的答案文本,以及自然语言问题和键值对文本之间的语义相关性的模型,该阅读理解模型为预先训练的模型,已学习得到自然语言问题和键值对文本,与答案文本和自然语言问题和键值对文本之间的语义相关性之间的对应关系。
进一步地,在武器装备文本为键值对文本的情况下,可将预设的自然语言问题和键值对文本输入阅读理解模型,阅读理解模型可从键值对文本中确定自然语言问题对应的答案文本,以及自然语言问题和键值对文本之间的语义相关性。其中,需要说明的是,自然语言问题和键值对文本之间的语义相关性,可表征键值对文本是否存在自然语言问题对应的答案文本,比如,自然语言问题和键值对文本之间的语义不相关,该键值对文本不存在自然语言问题对应的答案文本。自然语言问题和键值对文本语义相关时,该键值对文本中存在自然语言问题对应的答案文本。另外,可将键值对文本中的实体名称、以及实体对应的属性进行拼接作为自然语言问题,比如,自然语言问题可为“这个武器的名称是?”、“这个武器的生产时间为?”或“这个武器的生产单位为?”等。
举例而言,如图2所示,以阅读理解模型为语言表征模型(Bidirectional EncoderRepresentation from Transformers,简称BERT)为例,将自然语言问题和键值对文本输入BERT模型中,BERT模型对自然语言问题以及键值对文本进行语义相关性分析,输出标签Label,该标签Label可表征自然语言问题与键值对文本之间是否语义相关。
进一步地,在自然语言问题与键值对文本之间语义不相关时,键值对文本不存在自然语言问题对应的答案文本,该BERT模型输出为空;在自然语言问题与键值对文本之间语义相关时,键值对文本中存在自然语言问题对应的答案文本,该BERT模型输出自然语言问题对应的答案文本。如,标签Label的值为0时,自然语言问题与键值对文本之间语义不相关,键值对文本不存在自然语言问题对应的答案文本,BERT模型输出为空;标签Label的值为1时,自然语言问题与键值对文本之间语义相关,键值对文本中存在自然语言问题对应的答案文本,BERT模型从键值对文本中确定自然语言问题对应的答案文本的起始和结束位置,并输出对应的答案文本。
步骤104,在自然语言问题和键值对文本语义相关的情况下,根据答案文本和自然语言问题中的属性词,确定武器装备的结构化数据。
在本公开实施例中,在自然语言问题和键值对文本语义相关的情况下,可根据答案文本和自然语言问题中的属性词,确定构建知识图谱中所需要的实体与属性内容,将构建知识图谱中所需要的实体与属性内容,作为武器装备的结构化数据。
综上,通过RPA机器人和IP代理池,获取武器装备文本,提高了获取武器装备文本的自动化程度,对武器装备文本进行类型识别,可从数据格式统一的武器装备文本中确定自然语言问题对应的答案文本,实现了对自然语言问题对应的答案问句的数据格式统一,同时,在自然语言处理问题和键值对文本语义相关的情况下,根据答案文本和自然语言问题中的属性词,可准确地生成结构化数据,从而提高了知识图谱构建的准确性和效率。
为了针对不同类型的武器装备文本,确定武器装备的结构化数据,如图3所示,图3为本公开实施例所提供的另一种结合AI和RPA的武器装备文本处理方法的流程示意图。在本公开实施例中,在武器装备文本的类型为文章文本的情况下,可抽取文章文本中的三元组信息,根据三元组信息生成武器装备的结构化数据,图3所示实施例可包括如下步骤:
步骤301,基于RPA机器人或IP代理,获取武器装备文本的集合。
步骤302,对集合中的武器装备文本进行类型识别,以确定武器装备文本的类型。
步骤303,在类型为文章文本的情况下,将文章文本输入实体关系抽取模型,以从文章文本中抽取得到主体、属性和客体的三元组信息,以及对主体和客体标注的标签。
在本公开实施例中,可将文章文本输入实体关系抽取模型中,实体关系抽取模型可抽取文章文本中的主体、属性和客体,得到主体、属性和客体的三元组信息,并对三元组中的主体和客体进行标签标注,该标签可表征主体或客体是否为武器装备实体。
步骤304,在主体和客体中至少一个标注的标签指示为武器装备实体的情况下,根据三元组信息生成武器装备的结构化数据。
可选地,在主体和客体中至少一个标注的标签指示为武器装备实体的情况下,将三元组信息中的属性与设定的标准属性进行语义匹配;在语义匹配的情况下,将标准属性,与主体和/或客体组合得到武器装备的结构化数据。
也就是说,在主体和客体中至少一个标注的标签指示为武器装备实体的情况下,可将该主题或客体所属的三元组中的属性与设定的标准属性进行语义匹配,在语义匹配的情况下,将标准属性,与主体和/或客体组合得到武器装备的结构化数据。其中,标准属性可包括但不限于:“编号”、“别称”、“X约代号”、“X号”、“使用国家”、“所属国家”、“前型”、“改型”、“长度”、“重量”、“生产时间”、“研制时间”等。
在本申请实施例中,步骤301-302可以分别采用本申请的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,通过在类型为文章文本的情况下,将文章文本输入实体关系抽取模型,以从文章文本中抽取得到主体、属性和客体的三元组信息,以及对主体和客体标注的标签;在主体和客体中至少一个标注的标签指示为武器装备实体的情况下,根据三元组信息生成武器装备的结构化数据,由此,在武器装备文本为文章文本的情况下,根据文章文本中的三元组信息,可准确地生成武器装备的结构化数据,提高了知识图谱构建的准确性和效率。
为了针对不同类型的武器装备文本,确定武器装备的结构化数据,如图4所示,图4为本公开实施例所提供的另一种结合AI和RPA的武器装备文本处理方法的流程示意图。在本公开实施例中,在武器装备文本为表格文本的情况下,可对表格文本所在的原始页面进行图像分割得到表格区域,将表格区域划分为多个单元格,根据单元格的位置关系,确定存在键值关系的单元格组合,根据对单元格组合中的各单元格进行光学字符识别(OpticalCharacter Recognition,简称OCR),以确定存在键值关系的文本,根据存在键值关系的文本,确定武器装备的结构化数据。图4所示实施例可包括如下步骤:
步骤401,基于RPA机器人或IP代理,获取武器装备文本的集合。
步骤402,对集合中的武器装备文本进行类型识别,以确定武器装备文本的类型。
步骤403,在类型为表格文本的情况下,对表格文本所在的原始页面进行图像分割得到表格区域。
在本公开实施例中,在类型为表格文本的情况下,可对表格文本所在的原始页面进行图像分割,得到表格区域。作为一种示例,可采用卷积神经网络(如,Unet卷积神经网络)对表格文本所在的原始页面进行图像分割,得到表格区域。其中,需要说明的是,表格文本中可包括:文本信息、图片信息和位置信息等。
步骤404,对表格区域进行表格框线识别和校正,以确定表格区域中的表格框线。
进一步地,可对表格区域进行表格框线识别和校正,确定表格区域中的表格框线,比如,可采用并查集(Disjoint Set)对表格区域的框线进行识别,根据表格框线的坐标,确定表格框线是否倾斜,在表格框线倾斜时,可对倾斜的表格框线进行校正,以确定表格区域中的表格框线。
步骤405,根据表格框线,将表格区域划分为多个单元格。
进一步地,可根据表格框线对单元格区域的划分,确定表格区域的多个单元格。
步骤406,根据多个单元格之间的位置关系,确定存在键值关系的单元格组合。
进一步地,可根据表格框线的坐标,确定表格区域的多个单元格之间的位置关系,根据多个单元格之间的位置关系,确定存在键值关系的单元格组合。比如,对于横表格而言,多个单元格属于同一行;又比如,对于纵表格而言,多个单元格属于同一列。
步骤407,对同一单元格组合中的各单元格进行光学字符识别OCR识别,以确定存在键值关系的文本。
进一步地,将存在键值关系的单元格组合作为同一单元格组合,并对同一单元格组合中的各个单元格进行OCR识别,获取单元格中的文本信息,根据各个单元格中的文本信息,确定各个单元格中的文本信息是否为存在键值关系的文本。
步骤408,根据存在键值关系的文本,确定武器装备的结构化数据。
进一步地,根据存在键值关系的文本,可确定构建知识图谱中所需要的实体与属性内容,将构建知识图谱中所需要的实体与属性内容,作为武器装备的结构化数据。
举例而言,如图5所示,可对表格文本所在原始页面进行图像分割,得到表格区域,对表格区域进行几何分析,以实现对表格区域进行表格框线识别和校正,确定表格区域的框线,并根据表格区域的框线实现表格区域的划分,根据表格区域的划分的多个单元格的位置关系,确定存在键值关系的单元格组合,接着,对存在键值关系的单元格组合进行OCR识别,确定存在键值关系(key-value)的文本,进而,根据存在键值关系的文本,确定武器装备的结构化数据。
在本申请实施例中,步骤401-402可以分别采用本申请的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,通过在类型为表格文本的情况下,对表格文本所在的原始页面进行图像分割得到表格区域;对表格区域进行表格框线识别和校正,以确定表格区域中的表格框线;根据表格框线,将表格区域划分为多个单元格;对同一单元格组合中的各单元格进行光学字符识别OCR识别,以确定存在键值关系的文本;根据存在键值关系的文本,确定武器装备的结构化数据。由此,在武器装备文本为表格文本的情况下,根据在表格区域中确定存在键值关系的文本,可准确地确定武器装备的结构化数据。
为了提高获取武器装备文本的自动化程度,如图6所示,图6为本公开实施例所提供的另一种结合AI和RPA的武器装备文本处理方法的流程示意图,在本公开实施例中,可基于RPA机器人或IP代理获取武器装备文本的集合,图6所示实施例可包括如下步骤:
步骤601,根据设定的网络地址,访问网络地址对应的内容页面,以从内容页面中获取武器装备文本。
作为一种示例,在设定的网络地址对应的网站(种子网站)上分别分析数据的目录页面(及数据入口页面)及内容页面,以从内容页面中获取武器装备文本。比如,通过超文本传输协议(Hyper Text Transfer Protocol,简称HTTP)请求及页面解析工具(如,BeautifulSoup),在目录页面上获取内容页面的统一资源定位系统(uniform resourcelocator,简称URL),通过访问URL访问内容页面,并在内容页面上获取武器装备文本。
需要了解的是,为了稳定高效地获取网络上的武器装备文本,需要对网络请求进行处理,比如,可加入特定的储存在用户本地终端上的数据(如,cookie)进行虚拟处理,或者,对浏览器的请求头部进行虚拟处理,同时,由于部分网站会对访问频率进行限制,同一IP地址在短时间快速发起请求会被暂停访问,甚至长时间封禁,因此,为了解决上述问题,在本公开实施例中,可基于IP代理获取武器装备文本的集合。
作为一种示例,从IP地址池中随机选取目标IP;根据设定的网络地址,生成访问请求;将目标IP作为代理,向网络地址对应的目标网站发送访问请求,以访问目标网站中的内容页面得到所述武器装备文本。
也就是说,如图7所示,通过服务器每次向目标网站发起访问请求时,可从IP地址池中随机选取目标IP,同时,根据设定的网络地址,生成访问请求,以目标IP为代理(如,采用虚拟请求头部和虚拟cookie),向网络地址对应的目标网站发送访问请求,以访问目标网站中的内容页面得到武器装备文本(如,接收并存储武器装备文本),由此,根据IP代理,可以避免相同IP短时高频访问的问题的出现,提高了武器装备文本的获取效率。
在本公开实施例中,由于部分页面的数据不会在请求页面的同时实时加载,而是采用动态加载、懒加载等方式,需要用户滚动条拖动到页面底部、点击特定按钮的才会以数据流的方式加载对应数据。需要计算机做出滚动、点击等操作,通过直接发起请求以实现上述操作,因此,可通过RPA来模拟人工操作,使计算机通过浏览器发送真实的请求,省却了优化爬虫策略、解析动态网页的繁琐工作。
作为一种示例,采用机器人流程自动化技术RPA模拟人工操作,通过浏览器访问设定的网络地址,以得到网络地址对应的内容页面;复制内容页面的页面内容;将复制的页面内容存储至目标文件,以得到武器装备文本。
也就是说,如图8所示,首先通过RPA机器人启动浏览器,然后将浏览器作为流程的操控对象,打开相应的网站,并进入网站中可以获取到武器装备领域数据的相应的页面子模块。对于页面子模块中的每一个链接,在浏览器新标签中打开该链接,然后等待一段时间(如1秒),或通过向下拖动滚动页面等方式加载全部数据,后复制内容页面,将复制的内容页面通过追加的方式存储至目标文件,并关闭当前页面,判断是否是结尾,若不是结尾,则继续打开新的页面,否则结束武器装备文本的获取流程。
步骤602,根据获取的武器装备文本,生成集合。
进一步地,将获取的多个武器装备文本,作为武器装备文本集合。
步骤603,对集合中的武器装备文本进行类型识别,以确定武器装备文本的类型。
步骤604,在类型为键值对文本的情况下,将预设的自然语言问题和键值对文本输入阅读理解模型,以从键值对文本中确定自然语言问题对应的答案文本,以及自然语言问题和键值对文本之间的语义相关性。
步骤605,在自然语言问题和键值对文本语义相关的情况下,根据答案文本和自然语言问题中的属性词,确定武器装备的结构化数据。
在本申请实施例中,步骤603-605可以分别采用本申请的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,根据设定的网络地址,访问网络地址对应的内容页面,以从内容页面中获取武器装备文本;根据获取的武器装备文本,生成集合,由此,基于RPA机器人或IP代理提高了获取武器装备文本的自动化程度。
为了避免基于RPA机器人或IP代理,获取武器装备文本的集合不足以作为大规模知识图谱的原始数据的情况出现,如图9所示,图9为本公开实施例所提供的另一种结合AI和RPA的武器装备文本处理方法的流程示意图,在本公开实施例中,可对武器装备文本进行武器装备的命名实体识别,以确定武器装备文本中的武器装备实体,并根据武器装备实体生成搜索词,并根据搜索词进行搜索,得到多个相关页面,将相关页面中的文本作为武器装备文本,添加至集合中。图9所示实施例可包括如下步骤:
步骤901,根据设定的网络地址,访问网络地址对应的内容页面,以从内容页面中获取武器装备文本。
步骤902,根据获取的武器装备文本,生成集合。
步骤903,对武器装备文本进行武器装备的命名实体识别,以确定武器装备文本中的武器装备实体。
在本公开实施例中,在对武器装备文本进行武器装备的命名实体识别之前,可对获取的武器装备文本进行数据清洗,以减少干扰,比如,可去掉武器装备文本中文本长度过短(比如,20字以内)以及武器装备文本中的特定样式,如,“(.?报道)”或“(图片来源:.*?)”。进一步地,可对数据清洗后的武器装备文本进行命名实体识别。
可选地,将武器装备文本输入实体关系抽取模型,以从文章文本中抽取得到主体、属性和客体的三元组信息,以及对主体和客体标注的标签;根据标签的指示,将主体和/或客体作为武器装备实体。
也就是说,可将武器装备文本输入实体关系抽取模型,实体关系抽取模型可从文章中抽取到主体、属性和客体的三元组信息,以及对主体和客体标注的标签,接着,根据主体和客体标注的标签的指示,可将主体和/或客体作为武器装备实体。其中,实体关系抽取模型为识别文章中主体、属性和客体的三元组信息,以及对主体和客体标注的标签的模型,该实体关系抽取模型为预先训练过的模型,已学习得到文章与主体、属性和客体的三元组信息,以及对主体和客体标注的标签的对应关系。
比如,三元组可为包含属性为“编号”、“别称”、“X约代号”、“X号”、“使用国家”、“所属国家”、“前型”、“改型”、“长度”、“重量”、“生产时间”、“研制单位”、“研制者”、“生产单位”以及“所属单位”等的三元组,保留将该三元组中的武器装备名称,为了避免武器装备名称过长或过短,以及频率过低,可对武器装备名称进行数据清洗,将数据清洗后的武器装备名称作为武器装备实体。比如,可去掉武器装备名称中长度小于2或大于20字的武器装备名称,以及频率小于2的武器装备名称,将剩余的武器装备名称作为武器装备实体。
步骤904,根据武器装备实体,生成搜索词。
步骤905,通过搜索引擎搜索搜索词,以得到多个相关页面。
进一步地,可将武器装备实体作为搜素词,通过搜索引擎搜索搜索词,以得到多个相关页面。比如,将武器装备实体,通过HTTP请求进行搜索,将搜索结果的前10个页面的URL保存,通过HTTP请求访问每个保存下来的URL,以得到相关页面。
步骤906,将相关页面中的文本作为武器装备文本,添加至集合中。
为了解决页面结构不一致的问题,可通过自动化工具(如,goose)返回相关页面中的文本,将获取的页面中的文本作为武器装备文本,并添加至武器装备文本的集合中。
步骤907,对集合中的武器装备文本进行类型识别,以确定武器装备文本的类型。
步骤908,在类型为键值对文本的情况下,将预设的自然语言问题和键值对文本输入阅读理解模型,以从键值对文本中确定自然语言问题对应的答案文本,以及自然语言问题和键值对文本之间的语义相关性。
步骤909,在自然语言问题和键值对文本语义相关的情况下,根据答案文本和自然语言问题中的属性词,确定武器装备的结构化数据。
在本申请实施例中,步骤901-902,907-909可以分别采用本申请的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,通过对武器装备文本进行武器装备的命名实体识别,以确定武器装备文本中的武器装备实体;根据武器装备实体,生成搜索词;将相关页面中的文本作为武器装备文本,添加至集合中,由此,可对武器装备文本的集合进行扩充,可避免基于RPA机器人或IP代理,获取武器装备文本的集合不足以作为大规模知识图谱的原始数据的情况出现。
本公开实施例的结合人工智能AI和机器人流程自动化RPA的武器装备文本处理方法,通过RPA机器人和IP代理池,获取武器装备文本,提高了武器装备文本获取和筛选的自动化程度,对武器装备文本进行类型识别,可从数据格式统一的武器装备文本中确定自然语言问题对应的答案文本,实现了对自然语言问题对应的答案问句的数据格式统一,同时,在自然语言处理问题和键值对文本语义相关的情况下,根据答案文本和自然语言问题中的属性词,可准确地生成结构化数据,从而提高了知识图谱构建的准确性和效率。
与上述图1至图9实施例提出的结合人工智能AI和机器人流程自动化RPA的武器装备文本处理方法相对应,本公开的一个实施例还提出一种结合人工智能AI和机器人流程自动化RPA的武器装备文本处理装置,由于本公开实施例提出的结合人工智能AI和机器人流程自动化RPA的武器装备文本处理装置与上述图1至图9实施例提出的结合人工智能AI和机器人流程自动化RPA的武器装备文本处理方法相对应,因此上述结合人工智能AI和机器人流程自动化RPA的武器装备文本处理方法的实施方式也适用于本公开实施例提出的结合人工智能AI和机器人流程自动化RPA的武器装备文本处理装置,在下述实施例中不再详细描述。
图10是根据本公开一个实施例的结合人工智能AI和机器人流程自动化RPA的武器装备文本处理装置的结构示意图,如图10所示,该结合人工智能AI和机器人流程自动化RPA的武器装备文本处理装置1000包括:获取模块1010、类型识别模块1020、第一确定模块1030和第二确定模块1040。
其中,获取模块1010,用于基于RPA机器人或网际互联协议IP代理,获取武器装备文本的集合;类型识别模块1020,用于对集合中的武器装备文本进行类型识别,以确定武器装备文本的类型;第一确定模块1030,用于在类型为键值对文本的情况下,将预设的自然语言问题和键值对文本输入阅读理解模型,以从键值对文本中确定自然语言问题对应的答案文本,以及自然语言问题和键值对文本之间的语义相关性;第二确定模块1040,用于在自然语言问题和键值对文本语义相关的情况下,根据答案文本和自然语言问题中的属性词,确定武器装备的结构化数据。
作为本公开实施例的一种可能实现方式,结合人工智能AI和机器人流程自动化RPA的武器装备文本处理装置1000,还包括:抽取模块和第一生成模块。
其中,抽取模块,用于在类型为文章文本的情况下,将文章文本输入实体关系抽取模型,以从文章文本中抽取得到主体、属性和客体的三元组信息,以及对主体和客体标注的标签;第一生成模块,用于在主体和客体中至少一个标注的标签指示为武器装备实体的情况下,根据三元组信息生成武器装备的结构化数据。
作为本公开实施例的一种可能实现方式,第一生成模块1030,用于:在主体和客体中至少一个标注的标签指示为武器装备实体的情况下,将三元组信息中的属性与设定的标准属性进行语义匹配;在语义匹配的情况下,将标准属性,与主体和/或客体组合得到武器装备的结构化数据。
作为本公开实施例的一种可能实现方式,结合人工智能AI和机器人流程自动化RPA的武器装备文本处理装置1000,还包括:分割模块、处理模块、划分模块、第三确定模块、第四确定模块和第五确定模块。
其中,分割模块,用于在所述类型为表格文本的情况下,对所述表格文本所在的原始页面进行图像分割得到表格区域;处理模块,用于对表格区域进行表格框线识别和校正,以确定表格区域中的表格框线;划分模块,用于根据表格框线,将表格区域划分为多个单元格;第三确定模块,用于根据多个单元格之间的位置关系,确定存在键值关系的单元格组合;第四确定模块,用于对同一单元格组合中的各单元格进行光学字符识别OCR识别,以确定存在键值关系的文本;第五确定模块,用于根据存在键值关系的文本,确定武器装备的结构化数据。
作为本公开实施例的一种可能实现方式,获取模块1010,用于:根据设定的网络地址,访问网络地址对应的内容页面,以从内容页面中获取所述武器装备文本;根据获取的武器装备文本,生成集合。
作为本公开实施例的一种可能实现方式,结合人工智能AI和机器人流程自动化RPA的武器装备文本处理装置1000,还包括:实体识别模块、第二生成模块、搜索模块和添加模块。
其中,实体识别模块,用于对武器装备文本进行武器装备的命名实体识别,以确定武器装备文本中的武器装备实体;第二生成模块,用于根据所述武器装备实体,生成搜索词;搜索模块,用于通过搜索引擎搜索所述搜索词,以得到多个相关页面;添加模块,用于将相关页面中的文本作为武器装备文本,添加至集合中。
作为本公开实施例的一种可能实现方式,实体识别模块,用于:将武器装备文本输入实体关系抽取模型,以从文章文本中抽取得到主体、属性和客体的三元组信息,以及对主体和客体标注的标签;根据标签的指示,将主体和/或客体作为武器装备实体。
作为本公开实施例的一种可能实现方式,获取模块1010,还用于:从IP地址池中随机选取目标IP;根据设定的网络地址,生成访问请求;将目标IP作为代理,向网络地址对应的目标网站发送访问请求,以访问目标网站中的内容页面得到武器装备文本。
作为本公开实施例的一种可能实现方式,获取模块1010,还用于:采用机器人流程自动化技术RPA模拟人工操作,通过浏览器访问所述设定的网络地址,以得到网络地址对应的内容页面;复制内容页面的页面内容;将复制的页面内容存储至目标文件,以得到武器装备文本。
本公开实施例的结合人工智能AI和机器人流程自动化RPA的武器装备文本处理装置,通过基于RPA机器人和IP代理池,获取武器装备文本,提高了武器装备文本获取和筛选的自动化程度,对武器装备文本进行类型识别,可从数据格式统一的武器装备文本中确定自然语言问题对应的答案文本,实现了对自然语言问题对应的答案问句的数据格式统一,同时,在自然语言处理问题和键值对文本语义相关的情况下,根据答案文本和自然语言问题中的属性词,可准确地生成结构化数据,从而提高了知识图谱构建的准确性和效率。
为了实现上述实施例,本公开还提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现图1至图9所述的结合人工智能AI和机器人流程自动化RPA的武器装备文本处理方法。
为了实现上述实施例,本公开还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现图1至图9所述的结合人工智能AI和机器人流程自动化RPA的武器装备文本处理方法。
为了实现上述实施例,本公开还提出了一种计算机程序产品,该计算机程序产品包括计算机程序,计算机程序在被处理器执行时实现图1至图9所述的结合人工智能AI和机器人流程自动化RPA的武器装备文本处理方法。
如图11所示,图11是根据本公开实施例的结合人工智能AI和机器人流程自动化RPA的武器装备文本处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,该电子设备包括:一个或多个处理器1101、存储器1102,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图11中以一个处理器1101为例。
存储器1102即为本公开所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本公开所提供的上述实施例所述的结合人工智能AI和机器人流程自动化RPA的武器装备文本处理方法。本公开的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行上述实施例所述的结合人工智能AI和机器人流程自动化RPA的武器装备文本处理方法。
存储器1102作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本公开上述实施例中的结合人工智能AI和机器人流程自动化RPA的武器装备文本处理方法对应的程序指令/模块(例如,获取模块1010、类型识别模块1020、第一确定模块1030和第二确定模块1040)。处理器1101通过运行存储在存储器1102中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现本公开如上实施例所述的结合人工智能AI和机器人流程自动化RPA的武器装备文本处理方法。
存储器1102可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语义表示模型的生成的电子设备的使用所创建的数据等。此外,存储器1102可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1102可选包括相对于处理器1101远程设置的存储器,这些远程存储器可以通过网络连接至结合人工智能AI和机器人流程自动化RPA的武器装备文本处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
结合人工智能AI和机器人流程自动化RPA的武器装备文本处理方法的电子设备还可以包括:输入装置1103和输出装置1104。处理器1101、存储器1102、输入装置1103和输出装置1104可以通过总线或者其他方式连接,图11中以通过总线连接为例。
输入装置1103可接收输入的数字或字符信息,以及产生与结合人工智能AI和机器人流程自动化RPA的武器装备文本处理的生成的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1104可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
另外,本公开的技术方案中所涉及的信息的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提出的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (18)
1.一种结合人工智能AI和机器人流程自动化RPA的武器装备文本处理方法,其特征在于,包括以下步骤:
基于RPA机器人或网际互联协议IP代理,获取武器装备文本的集合;
对所述集合中的武器装备文本进行类型识别,以确定所述武器装备文本的类型;
在所述类型为键值对文本的情况下,将预设的自然语言问题和所述键值对文本输入阅读理解模型,以从所述键值对文本中确定所述自然语言问题对应的答案文本,以及所述自然语言问题和所述键值对文本之间的语义相关性;
在所述自然语言问题和所述键值对文本语义相关的情况下,根据所述答案文本和所述自然语言问题中的属性词,确定武器装备的结构化数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述集合中的武器装备文本进行类型识别,以确定所述武器装备文本的类型之后,还包括:
在所述类型为文章文本的情况下,将所述文章文本输入实体关系抽取模型,以从所述文章文本中抽取得到主体、属性和客体的三元组信息,以及对所述主体和客体标注的标签;
在所述主体和所述客体中至少一个标注的标签指示为武器装备实体的情况下,根据所述三元组信息生成武器装备的结构化数据。
3.根据权利要求2所述的方法,其特征在于,所述在所述主体和客体中至少一个标注的标签指示为武器装备实体的情况下,根据所述三元组信息生成武器装备的结构化数据,包括:
所述在所述主体和客体中至少一个标注的标签指示为武器装备实体的情况下,将所述三元组信息中的属性与设定的标准属性进行语义匹配;
在语义匹配的情况下,将所述标准属性,与所述主体和/或所述客体组合得到所述武器装备的结构化数据。
4.根据权利要求1所述的方法,其特征在于,所述对所述集合中的武器装备文本进行类型识别,以确定所述武器装备文本的类型之后,还包括:
在所述类型为表格文本的情况下,对所述表格文本所在的原始页面进行图像分割得到表格区域;
对所述表格区域进行表格框线识别和校正,以确定所述表格区域中的表格框线;
根据所述表格框线,将所述表格区域划分为多个单元格;
根据所述多个单元格之间的位置关系,确定存在键值关系的单元格组合;
对同一单元格组合中的各单元格进行光学字符识别OCR识别,以确定存在键值关系的文本;
根据存在键值关系的文本,确定武器装备的结构化数据。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述基于RPA机器人或网际互联协议IP代理获取武器装备文本的集合,包括:
根据设定的网络地址,访问所述网络地址对应的内容页面,以从所述内容页面中获取所述武器装备文本;
根据获取的武器装备文本,生成所述集合。
6.根据权利要求5所述的方法,其特征在于,所述根据获取的武器装备文本,生成所述集合之后,还包括:
对所述武器装备文本进行武器装备的命名实体识别,以确定所述武器装备文本中的武器装备实体;
根据所述武器装备实体,生成搜索词;
通过搜索引擎搜索所述搜索词,以得到多个相关页面;
将所述相关页面中的文本作为武器装备文本,添加至所述集合中。
7.根据权利要求6所述的方法,其特征在于,所述对所述武器装备文本进行武器装备的命名实体识别,以确定所述武器装备文本中的武器装备实体,包括:
将所述武器装备文本输入实体关系抽取模型,以从所述文章文本中抽取得到主体、属性和客体的三元组信息,以及对所述主体和客体标注的标签;
根据所述标签的指示,将所述主体和/或所述客体作为所述武器装备实体。
8.根据权利要求5所述的方法,其特征在于,所述根据设定的网络地址,访问所述网络地址对应的内容页面,以从所述内容页面中获取所述武器装备文本,包括:
从IP地址池中随机选取目标IP;
根据设定的网络地址,生成访问请求;
将所述目标IP作为代理,向所述网络地址对应的目标网站发送所述访问请求,以访问所述目标网站中的内容页面得到所述武器装备文本。
9.根据权利要求5所述的方法,其特征在于,所述根据设定的网络地址,访问所述网络地址对应的内容页面,以从所述内容页面中获取所述武器装备文本,包括:
采用机器人流程自动化技术RPA模拟人工操作,通过浏览器访问所述设定的网络地址,以得到所述网络地址对应的内容页面;
复制所述内容页面的页面内容;
将复制的所述页面内容存储至目标文件,以得到所述武器装备文本。
10.一种结合人工智能AI和机器人流程自动化RPA的武器装备文本处理装置,其特征在于,包括:
获取模块,用于基于RPA机器人或网际互联协议IP代理,获取武器装备文本的集合;
类型识别模块,用于对所述集合中的武器装备文本进行类型识别,以确定所述武器装备文本的类型;
第一确定模块,用于在所述类型为键值对文本的情况下,将预设的自然语言问题和所述键值对文本输入阅读理解模型,以从所述键值对文本中确定所述自然语言问题对应的答案文本,以及所述自然语言问题和所述键值对文本之间的语义相关性;
第二确定模块,用于在所述自然语言问题和所述键值对文本语义相关的情况下,根据所述答案文本和所述自然语言问题中的属性词,确定武器装备的结构化数据。
11.根据权利要求10所述的装置,其特征在于,所述装置,还包括:
抽取模块,用于在所述类型为文章文本的情况下,将所述文章文本输入实体关系抽取模型,以从所述文章文本中抽取得到主体、属性和客体的三元组信息,以及对所述主体和客体标注的标签;
第一生成模块,用于在所述主体和所述客体中至少一个标注的标签指示为武器装备实体的情况下,根据所述三元组信息生成武器装备的结构化数据。
12.根据权利要求11所述的装置,其特征在于,所述第一生成模块,用于:
所述在所述主体和客体中至少一个标注的标签指示为武器装备实体的情况下,将所述三元组信息中的属性与设定的标准属性进行语义匹配;
在语义匹配的情况下,将所述标准属性,与所述主体和/或所述客体组合得到所述武器装备的结构化数据。
13.根据权利要求10所述的装置,其特征在于,所述装置,还包括:
分割模块,用于在所述类型为表格文本的情况下,对所述表格文本所在的原始页面进行图像分割得到表格区域;
处理模块,用于对所述表格区域进行表格框线识别和校正,以确定所述表格区域中的表格框线;
划分模块,用于根据所述表格框线,将所述表格区域划分为多个单元格;
第三确定模块,用于根据所述多个单元格之间的位置关系,确定存在键值关系的单元格组合;
第四确定模块,用于对同一单元格组合中的各单元格进行光学字符识别OCR识别,以确定存在键值关系的文本;
第五确定模块,用于根据存在键值关系的文本,确定武器装备的结构化数据。
14.根据权利要求10-13任一项所述的装置,其特征在于,所述获取模块,用于:
根据设定的网络地址,访问所述网络地址对应的内容页面,以从所述内容页面中获取所述武器装备文本;
根据获取的武器装备文本,生成所述集合。
15.根据权利要求14所述的装置,其特征在于,所述装置,还包括:
实体识别模块,用于对所述武器装备文本进行武器装备的命名实体识别,以确定所述武器装备文本中的武器装备实体;
第二生成模块,用于根据所述武器装备实体,生成搜索词;
搜索模块,用于通过搜索引擎搜索所述搜索词,以得到多个相关页面;
添加模块,用于将所述相关页面中的文本作为武器装备文本,添加至所述集合中。
16.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-9中任一所述的方法。
17.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-9中任一所述的方法。
18.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111268793.1A CN114065765A (zh) | 2021-10-29 | 2021-10-29 | 结合ai和rpa的武器装备文本处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111268793.1A CN114065765A (zh) | 2021-10-29 | 2021-10-29 | 结合ai和rpa的武器装备文本处理方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114065765A true CN114065765A (zh) | 2022-02-18 |
Family
ID=80235920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111268793.1A Pending CN114065765A (zh) | 2021-10-29 | 2021-10-29 | 结合ai和rpa的武器装备文本处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114065765A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114996419A (zh) * | 2022-05-09 | 2022-09-02 | 成都数之联科技股份有限公司 | 武器装备的智能问答方法、装置、电子设备及存储介质 |
CN115048906A (zh) * | 2022-08-17 | 2022-09-13 | 北京汉仪创新科技股份有限公司 | 一种文档结构化方法、装置、电子设备和存储介质 |
WO2024142171A1 (ja) * | 2022-12-26 | 2024-07-04 | 日本電気株式会社 | 情報処理装置、属性情報抽出方法、および属性情報抽出プログラム |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190005029A1 (en) * | 2017-06-30 | 2019-01-03 | Jpmorgan Chase Bank, N.A. | Systems and methods for natural language processing of structured documents |
CN109325201A (zh) * | 2018-08-15 | 2019-02-12 | 北京百度网讯科技有限公司 | 实体关系数据的生成方法、装置、设备及存储介质 |
CN109726274A (zh) * | 2018-12-29 | 2019-05-07 | 北京百度网讯科技有限公司 | 问题生成方法、装置及存储介质 |
CN110275963A (zh) * | 2019-06-25 | 2019-09-24 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN110795543A (zh) * | 2019-09-03 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于深度学习的非结构化数据抽取方法、装置及存储介质 |
CN111400450A (zh) * | 2020-03-16 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 人机对话方法、装置、设备及计算机可读存储介质 |
CN112035101A (zh) * | 2020-06-30 | 2020-12-04 | 北京来也网络科技有限公司 | 结合rpa及ai的命令库创建方法、装置、介质及设备 |
CN112115774A (zh) * | 2020-08-07 | 2020-12-22 | 北京来也网络科技有限公司 | 结合rpa和ai的文字识别方法、装置、电子设备和存储介质 |
CN112418180A (zh) * | 2020-12-11 | 2021-02-26 | 深圳前海微众银行股份有限公司 | 表格数据提取方法、装置、设备及计算机存储介质 |
CN113065355A (zh) * | 2021-05-12 | 2021-07-02 | 清华大学 | 专业百科命名实体识别方法、系统及电子设备 |
US20210248268A1 (en) * | 2019-06-21 | 2021-08-12 | nference, inc. | Systems and methods for computing with private healthcare data |
-
2021
- 2021-10-29 CN CN202111268793.1A patent/CN114065765A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190005029A1 (en) * | 2017-06-30 | 2019-01-03 | Jpmorgan Chase Bank, N.A. | Systems and methods for natural language processing of structured documents |
CN109325201A (zh) * | 2018-08-15 | 2019-02-12 | 北京百度网讯科技有限公司 | 实体关系数据的生成方法、装置、设备及存储介质 |
CN109726274A (zh) * | 2018-12-29 | 2019-05-07 | 北京百度网讯科技有限公司 | 问题生成方法、装置及存储介质 |
US20210248268A1 (en) * | 2019-06-21 | 2021-08-12 | nference, inc. | Systems and methods for computing with private healthcare data |
CN110275963A (zh) * | 2019-06-25 | 2019-09-24 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN110795543A (zh) * | 2019-09-03 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于深度学习的非结构化数据抽取方法、装置及存储介质 |
CN111400450A (zh) * | 2020-03-16 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 人机对话方法、装置、设备及计算机可读存储介质 |
CN112035101A (zh) * | 2020-06-30 | 2020-12-04 | 北京来也网络科技有限公司 | 结合rpa及ai的命令库创建方法、装置、介质及设备 |
CN112115774A (zh) * | 2020-08-07 | 2020-12-22 | 北京来也网络科技有限公司 | 结合rpa和ai的文字识别方法、装置、电子设备和存储介质 |
CN112418180A (zh) * | 2020-12-11 | 2021-02-26 | 深圳前海微众银行股份有限公司 | 表格数据提取方法、装置、设备及计算机存储介质 |
CN113065355A (zh) * | 2021-05-12 | 2021-07-02 | 清华大学 | 专业百科命名实体识别方法、系统及电子设备 |
Non-Patent Citations (1)
Title |
---|
田佳来: "武器装备知识图谱构建研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》, no. 2, 15 February 2021 (2021-02-15), pages 032 - 21 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114996419A (zh) * | 2022-05-09 | 2022-09-02 | 成都数之联科技股份有限公司 | 武器装备的智能问答方法、装置、电子设备及存储介质 |
CN115048906A (zh) * | 2022-08-17 | 2022-09-13 | 北京汉仪创新科技股份有限公司 | 一种文档结构化方法、装置、电子设备和存储介质 |
WO2024142171A1 (ja) * | 2022-12-26 | 2024-07-04 | 日本電気株式会社 | 情報処理装置、属性情報抽出方法、および属性情報抽出プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11899681B2 (en) | Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium | |
JP7127106B2 (ja) | 質問応答処理、言語モデルの訓練方法、装置、機器および記憶媒体 | |
EP3923160A1 (en) | Method, apparatus, device and storage medium for training model | |
EP3819791A2 (en) | Information search method and apparatus, device and storage medium | |
US11847164B2 (en) | Method, electronic device and storage medium for generating information | |
US20210397947A1 (en) | Method and apparatus for generating model for representing heterogeneous graph node | |
EP3575984A1 (en) | Artificial intelligence based-document processing | |
US20210097410A1 (en) | Recommodation method, recommodation apparatus, electronic device and storage medium | |
CN114065765A (zh) | 结合ai和rpa的武器装备文本处理方法、装置及电子设备 | |
US11749255B2 (en) | Voice question and answer method and device, computer readable storage medium and electronic device | |
US20210049354A1 (en) | Human object recognition method, device, electronic apparatus and storage medium | |
US20200104353A1 (en) | Personalization of content suggestions for document creation | |
CN105550206B (zh) | 结构化查询语句的版本控制方法及装置 | |
EP3852007B1 (en) | Method, apparatus, electronic device, readable storage medium and program for classifying video | |
CN111460289B (zh) | 新闻资讯的推送方法和装置 | |
CN111666417B (zh) | 生成同义词的方法、装置、电子设备以及可读存储介质 | |
CN111523019B (zh) | 用于输出信息的方法、装置、设备以及存储介质 | |
CN111858880A (zh) | 获取查询结果的方法、装置、电子设备和可读存储介质 | |
CN112100530B (zh) | 网页分类方法、装置、电子设备及存储介质 | |
US20240070188A1 (en) | System and method for searching media or data based on contextual weighted keywords | |
CN111460257B (zh) | 专题生成方法、装置、电子设备和存储介质 | |
CN112417248A (zh) | 寻址关键词的推荐方法、装置、模型、设备和存储介质 | |
CN112231444A (zh) | 结合rpa和ai的语料数据的处理方法、装置和电子设备 | |
CN111026916A (zh) | 文本描述的转换方法、装置、电子设备及存储介质 | |
US20210336964A1 (en) | Method for identifying user, storage medium, and electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |