CN112183055A - 结合rpa和ai的信息获取方法、装置、计算机设备及介质 - Google Patents

结合rpa和ai的信息获取方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN112183055A
CN112183055A CN202010824195.7A CN202010824195A CN112183055A CN 112183055 A CN112183055 A CN 112183055A CN 202010824195 A CN202010824195 A CN 202010824195A CN 112183055 A CN112183055 A CN 112183055A
Authority
CN
China
Prior art keywords
context information
sample
text
rpa
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010824195.7A
Other languages
English (en)
Inventor
胡一川
汪冠春
褚瑞
李玮
白龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Benying Network Technology Co Ltd
Beijing Laiye Network Technology Co Ltd
Original Assignee
Beijing Benying Network Technology Co Ltd
Beijing Laiye Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Benying Network Technology Co Ltd, Beijing Laiye Network Technology Co Ltd filed Critical Beijing Benying Network Technology Co Ltd
Priority to CN202010824195.7A priority Critical patent/CN112183055A/zh
Publication of CN112183055A publication Critical patent/CN112183055A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种结合RPA和AI的信息获取方法、装置、计算机设备及介质,该方法包括采用机器人流程自动化RPA方法,获取待识别文本的上下文信息;采用RPA方法,根据上下文信息分析待识别文本对应的目标内容类别;根据目标内容类别和上下文信息,基于人工智能AI识别待识别文本中的信息。通过本申请能够有效避免信息获取的误召回,降低信息获取的人工操作成本,有效提升信息获取效率和获取的准确性,提升信息获取效果。

Description

结合RPA和AI的信息获取方法、装置、计算机设备及介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种结合RPA(Robotic ProcessAutomation,机器人流程自动化)和AI(Artificial Intelligence,人工智能)的信息获取方法、装置、计算机设备及介质。
背景技术
机器人流程自动化(Robotic Process Automation,简称:RPA)是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。人工智能(ArtificialIntelligence,简称:AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
随着信息获取方法的广泛应用,许多场合下都需要识别或者限定一些共同的内容,如人名、公司名称等,在RPA方法的应用场景中,针对可以枚举的信息(如省市区)通常是提前利用各种渠道、公开数据等收集各种资源,作为词典预设在执行信息获取方法的系统中,而对于不可枚举的内容(如时间、姓名)则是利用领域专家提前总结出大量带有上下文的语义模式进行识别。
这些方式下,在面对书写错误、口语化的待识别文本时,可能导致信息获取的误召回,影响信息获取效率,不具有良好的信息获取效果。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的目的在于提出一种结合RPA和AI的信息获取方法、装置、计算机设备及介质,能够有效避免信息获取的误召回,降低信息获取的人工操作成本,有效提升信息获取效率和获取的准确性,提升信息获取效果。
为达到上述目的,本申请第一方面实施例提出的结合RPA和AI的信息获取方法,包括:采用机器人流程自动化RPA方法,获取待识别文本的上下文信息;采用所述RPA方法,根据所述上下文信息分析所述待识别文本对应的目标内容类别;根据所述目标内容类别和所述上下文信息,基于人工智能AI识别所述待识别文本中的信息。
本申请第一方面实施例提出的结合RPA和AI的信息获取方法,实现获取待识别文本的上下文信息,并根据上下文信息分析待识别文本对应的目标内容类别,以及根据目标内容类别和上下文信息,基于人工智能AI识别待识别文本中的信息,由于是基于该全流程自动化的信息获取过程,并且将信息获取过程划分为内容类别识别过程,以及根据内容类别识别信息的过程,由此降低了识别过程中标注数据量,在方法执行的系统层面和处理逻辑层面均能够提升信息获取的效率,并且提升了信息获取的准确性。
为达到上述目的,本申请第二方面实施例提出的结合RPA和AI的信息获取装置,包括:获取模块,用于采用机器人流程自动化RPA方法,获取待识别文本的上下文信息;分析模块,用于采用所述RPA方法,根据所述上下文信息分析所述待识别文本对应的目标内容类别;识别模块,用于根据所述目标内容类别和所述上下文信息,基于人工智能AI识别所述待识别文本中的信息。
本申请第二方面实施例提出的结合RPA和AI的信息获取装置,实现获取待识别文本的上下文信息,并根据上下文信息分析待识别文本对应的目标内容类别,以及根据目标内容类别和上下文信息,基于人工智能AI识别待识别文本中的信息,由于是基于该全流程自动化的信息获取过程,并且将信息获取过程划分为内容类别识别过程,以及根据内容类别识别信息的过程,由此降低了识别过程中标注数据量,在方法执行的系统层面和处理逻辑层面均能够提升信息获取的效率,并且提升了信息获取的准确性。
为达到上述目的,本申请第三方面实施例提出的计算机设备,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行本申请第一方面实施例提出的结合RPA和AI的信息获取方法。
本申请第三方面实施例提出的计算机设备,实现获取待识别文本的上下文信息,并根据上下文信息分析待识别文本对应的目标内容类别,以及根据目标内容类别和上下文信息,基于人工智能AI识别待识别文本中的信息,由于是基于该全流程自动化的信息获取过程,并且将信息获取过程划分为内容类别识别过程,以及根据内容类别识别信息的过程,由此降低了识别过程中标注数据量,在方法执行的系统层面和处理逻辑层面均能够提升信息获取的效率,并且提升了信息获取的准确性。
为达到上述目的,本申请第四方面实施例提出的计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现本申请第一方面实施例提出的结合RPA和AI的信息获取方法。
本申请第四方面实施例提出的计算机可读存储介质,实现获取待识别文本的上下文信息,并根据上下文信息分析待识别文本对应的目标内容类别,以及根据目标内容类别和上下文信息,基于人工智能AI识别待识别文本中的信息,由于是基于该全流程自动化的信息获取过程,并且将信息获取过程划分为内容类别识别过程,以及根据内容类别识别信息的过程,由此降低了识别过程中标注数据量,在方法执行的系统层面和处理逻辑层面均能够提升信息获取的效率,并且提升了信息获取的准确性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一实施例提出的结合RPA和AI的信息获取方法的流程示意图;
图2是本申请另一实施例提出的结合RPA和AI的信息获取方法的流程示意图;
图3是本申请另一实施例提出的结合RPA和AI的信息获取方法的流程示意图;
图4是本申请一实施例提出的结合RPA和AI的信息获取装置的结构示意图;
图5是本申请另一实施例提出的结合RPA和AI的信息获取装置的结构示意图;
图6为本申请一实施例提供的计算机设备的硬件结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本申请一实施例提出的结合RPA和AI的信息获取方法的流程示意图。
本实施例以结合RPA和AI的信息获取方法被配置为结合RPA和AI的信息获取装置中来举例说明。
本实施例中结合RPA和AI的信息获取方法可以被配置在结合RPA和AI的信息获取装置中,结合RPA和AI的信息获取装置可以设置在服务器中,或者也可以设置在计算机设备中,本申请实施例对此不作限制。
本实施例以结合RPA和AI的信息获取方法被配置在计算机设备中为例。
需要说明的是,本申请实施例的执行主体,在硬件上可以例如为服务器或者计算机设备中的中央处理器(Central Processing Unit,CPU),在软件上可以例如为服务器或者计算机设备中的相关的后台服务,对此不作限制。
在一种应用场景中,当服务器作为本实施提供的结合RPA和AI的信息获取方法的执行主体。用户可以通过终端提供的文本上传接口上传待识别文本,或者,用户还可以通过终端提供的语音录入接口录入音频数据,终端将待识别文本或者音频数据发送至后台的服务器,由服务器接收用户通过文本上传接口上传的待识别文本;和/或,接收用户通过语音录入接口录入的音频数据,解析音频数据中的语义内容,并对语义内容进行文本转换,得到待识别文本,而后由服务器执行结合RPA和AI的信息获取方法,将识别到的信息反馈至终端,或者将识别到的信息补充至执行信息抽取方法的系统之中。
在另一应用场景中,当终端作为本实施例提供的结合RPA和AI的信息获取方法的执行主体。用户可以通过终端提供的文本上传接口上传待识别文本,或者,用户还可以通过终端提供的语音录入接口录入音频数据,直接由终端执行结合RPA和AI的信息获取方法,而后将识别到的信息补充至执行信息抽取方法的系统之中。
需要说明的是,本申请中的“获取”,是指结合机器人流程自动化RPA和人工智能AI的信息获取过程,也即是说,该信息获取过程是一个全流程自动化的信息获取过程,并且该信息获取过程还与人工智能AI相结合,实现对待识别文本的全流程自动化的解析处理。
举例而言,本申请中基于该全流程自动化的信息获取过程,实现获取待识别文本的上下文信息,并根据上下文信息分析待识别文本对应的目标内容类别,以及根据目标内容类别和上下文信息,基于人工智能AI识别待识别文本中的信息,由于是基于该全流程自动化的信息获取过程,并且将信息获取过程划分为内容类别识别过程,以及根据内容类别识别信息的过程,由此降低了识别过程中标注数据量,在方法执行的系统层面和处理逻辑层面均能够提升信息获取的效率,并且提升了信息获取的准确性。
参见图1,该方法包括:
S101:采用机器人流程自动化RPA方法,获取待识别文本的上下文信息。
其中,待获取其中的信息(专名、内容类别)的文本,可以被称为待识别文本,文本可以例如为合同文本,或者企业之间的协议文本等,文本,是指书面语言的表现形式,通常是具有完整、系统含义(Message)的一个句子或多个句子的组合。一个文本可以是一个句子(Sentence)、一个段落(Paragraph)或者一个篇章(Discourse),而本申请实施例中的文本,为可以被计算机设备识别的电子化的文本,该文本的具体格式例如为,PDF格式、Word格式等任意可能的文本格式,对此不做限制。
为了实现机器人流程自动化RPA,本申请实施例在获取待识别文本,可以具体是接收用户通过文本上传接口上传的待识别文本;和/或,接收用户通过语音录入接口录入的音频数据,解析音频数据中的语义内容,并对语义内容进行文本转换,得到待识别文本。
也即是说,可以在计算机设备上配置文本上传接口,检测用户是否调用该文本上传接口上传电子化的文本,若检测到,则将用户上传的文本作为待识别文本,另外为了使机器人流程自动化RPA的执行更为的灵活,本申请实施例还支持在计算机设备上配置语音录入接口,从而基于该语音录入接口接收用户录入的音频数据,而后,采用内置的音频解析算法(音频解析算法的过程可以参见相关技术中,在此不再赘述)解析音频数据中的语义内容,并对语义内容进行文本转换,得到待识别文本。
上述计算机设备在获得待识别文本之后,是采用机器人流程自动化RPA方法,获取待识别文本的上下文信息,也即是说,自动化地模拟人在计算机上的操作,按规则自动执行流程任务,以获取待识别文本的上下文信息。
其中,上下文信息用于描述待识别文本的上下文包含的语义内容,本申请实施例中,通过获取待识别文本的上下文信息,能够辅助分析出待识别文本的内容类别(内容类别例如,合同正文类别、简历基础信息类别等等),而上下文信息,例如能够描述合同正文类别的文本的上下文语义内容,或者例如能够描述简历基础信息类别的文本的上下文语义内容,当然,内容类别也可以为其他任意可能的类别,例如企业之间的协议正文类别、股权变更类别等,对此不做限制。
S102:采用RPA方法,根据上下文信息分析待识别文本对应的目标内容类别。
上述由计算机设备采用RPA方法,获取待识别文本的上下文信息之后,进一步地,采用RPA方法,根据上下文信息分析待识别文本对应的目标内容类别。
其中,与待识别文本对应的内容类别,可以被称为目标内容类别,举例而言,内容类别例如,合同正文类别、简历基础信息类别等等,而目标内容类别则可以为合同正文类别、简历基础信息类别等等之中的任一种内容类别。
其中,多种的内容类别,可以是预先标注的,也即是说,可以预先采用RPA方法,获取海量样本文本对应的样本上下文信息,从而根据该样本上下文信息对海量样本文本进行内容划分,并针对每种划分的分组标注相应的样本内容类别,从而确定待识别文本对应的样本内容类别作为目标内容类别,具体参见下述实施例。
一些实施例中,可以根据上下文信息结合人工智能AI之中的神经网络模型去分析待识别文本对应的目标内容类别,对此不做限制。
可选地,可以采用RPA方法,将上下文信息输入预先训练的内容识别模型之中(该内容识别模型可以是预先训练一个神经网络模型得到的),而后将内容识别模型输出的样本内容类别作为目标内容类别,其中,内容识别模型已学习得到多种样本上下文信息,以及与每种样本上下文信息匹配的样本内容类别之间的对应关系。
也即是说,预先训练的内容识别模型已学习得到多种样本上下文信息,以及与每种样本上下文信息匹配的样本内容类别之间的对应关系,其中,可以预先采集海量的样本文本,样本文本为用于训练得到内容识别模型的样本的文本,样本文本对应的上下文信息,可以被称为样本上下文信息,样本文本对应的内容类别,可以被称为样本内容类别,由此,基于神经网络模型的算法规则,当将上下文信息输入预先训练的内容识别模型之中,可以根据内容识别模型去匹配与待识别文本的上下文信息最相匹配的样本内容类别,从而将该最相匹配的样本内容类别作为目标内容类别。
本申请实施例中,是根据上下文信息结合人工智能AI之中的神经网络模型去分析待识别文本对应的目标内容类别的,从而有效地提升深度学习模型在识别信息方面的泛化性能,保障识别的精准性。
当然,神经网络模型仅仅是实现根据上下文信息分析待识别文本对应的目标内容类别的一种可能的实现方式,在实际执行过程中,可以通过其他任意可能的方式来实现根据上下文信息分析待识别文本对应的目标内容类别,比如,还可以采用传统的编程技术(比如模拟法和工程学方法)实现,又比如,还可以遗传学算法和人工神经网络的方法来实现。
S103:根据目标内容类别和上下文信息,基于人工智能AI识别待识别文本中的信息。
上述在由计算机设备采用RPA方法,获取待识别文本的上下文信息,并根据上下文信息分析待识别文本对应的目标内容类别之后,可以根据目标内容类别和上下文信息,基于人工智能AI识别待识别文本中的信息。
其中的信息可以包括:目标类容类别、专名、上下文信息等等,对此不做限制。
其中的专名,例如为待识别文本中包含的人名、地名、企业名等,对此不做限制。
本申请实施例中,是根据目标内容类别和上下文信息,基于人工智能AI识别待识别文本中的信息的,从而有效地提升深度学习模型在识别信息方面的泛化性能,保障识别的精准性。
可选地,一些实施例中,参见图2,图2是本申请另一实施例提出的结合RPA和AI的信息获取方法的流程示意图,根据目标内容类别和上下文信息,基于人工智能AI识别待识别文本中的信息的步骤,还可以包括:
S201:确定与目标内容类别匹配的专名识别模型,专名识别模型是人工智能AI中的模型。
当确定与目标内容类别匹配的专名识别模型,可以具体是确定与目标内容类别对应的内容类别标签,将携带内容类别标签的专名识别模型作为匹配的专名识别模型,对此不做限制。
举例而言,预先训练了合同正文类别的专名识别模型、简历基础信息类别的专名识别模型,而待识别文本对应的目标内容类别为合同正文类别,则可以将合同正文类别的专名识别模型作为与目标内容类别匹配的专名识别模型,对此不做限制。
S202:根据目标内容类别和上下文信息,结合匹配的专名识别模型识别待识别文本中的信息。
也即是说,本申请图2所示实施例中,获取的是与目标内容类别匹配的专名识别模型(预先训练了多个专名识别模型,针对每个专名识别模型配置内容类别标签,专名识别模型能够被用于识别对应内容类别的待识别文本之中的专名)。
举例而言,待识别文本对应的目标内容类别为合同正文类别,则可以将合同正文类别的专名识别模型作为与目标内容类别匹配的专名识别模型,而后,将目标内容类别和上下文信息输入匹配的专名识别模型,从而获取匹配的专名识别模型输出的样本专名并作为待识别文本之中的专名,而后,将目标内容类别、上下文信息、待识别文本之中的专名共同作为识别到的信息,对此不做限制。
一些实施例中,采用RPA方法,将目标内容类别和上下文信息输入专名识别模型之中;获取专名识别模型输出的样本专名并作为目标专名,并将目标内容类别、上下文信息,以及目标专名共同作为识别到的信息;其中,专名识别模型已学习得到样本目标内容类别、样本上下文信息,以及与样本目标内容类别和样本上下文信息匹配的样本专名之间的对应关系。
一些实施例中,专名识别模型为基于转换器的双向编码表征模型。
当然,基于转换器的双向编码表征模型仅仅是实现识别文本的专名的一种可能的实现方式,在实际执行过程中,可以通过其他任意可能的方式来实现识别文本的专名,比如,还可以采用传统的编程技术(比如模拟法和工程学方法)实现,又比如,还可以遗传学算法和人工神经网络的方法来实现。
由于是确定了与目标内容类别匹配的专名识别模型,专名识别模型是人工智能AI中的模型,根据目标内容类别和上下文信息,结合匹配的专名识别模型识别待识别文本中的信息,从而能够有效降低专名识别模型的算法复杂度,使得专名识别模型识别的效果更具有针对性,有效提升专名识别的命中率,提升专名识别的准确性,并且,由于将目标内容类别、上下文信息,以及目标专名共同作为识别到的信息,从而提升信息获取的充分性和全面性,拓展了结合RPA和AI的信息获取方法的应用范围,提升了结合RPA和AI的信息获取方法的适用性。
本实施例中,实现获取待识别文本的上下文信息,并根据上下文信息分析待识别文本对应的目标内容类别,以及根据目标内容类别和上下文信息,基于人工智能AI识别待识别文本中的信息,由于是基于该全流程自动化的信息获取过程,并且将信息获取过程划分为内容类别识别过程,以及根据内容类别识别信息的过程,由此降低了识别过程中标注数据量,在方法执行的系统层面和处理逻辑层面均能够提升信息获取的效率,并且提升了信息获取的准确性。
图3是本申请另一实施例提出的结合RPA和AI的信息获取方法的流程示意图。
参见图3,在采用机器人流程自动化RPA方法,获取待识别文本的上下文信息之前,该方法还包括:
S301:获取海量的样本上下文信息。
其中,用于训练内容识别模型的海量的文本,可以被称为样本文本,样本文本的上下文信息,可以被称为样本上下文信息,而样本文本的内容类别,可以被称为样本内容类别。
S302:采用RPA方法,针对各种样本上下文信息标注对应的样本内容类别。
举例而言,可以采用RPA方法,对海量的样本上下文信息进行划分,将属于相似内容类别的样本上下文信息划分至同一个分组之中,而后,针对各个分组,确定与其包含的样本上下文信息最契合的内容类别作为样本内容类别,并采用分组对应的样本内容类别去标注该分组之中各个样本文本信息的内容类别。
S303:采用RPA方法,根据样本上下文信息训练初始的内容识别模型,直至内容识别模型输出的中间内容类别与所标注的样本内容类别的损失值小于设定阈值时,内容识别模型训练完成。
上述在采用RPA方法,针对各种样本上下文信息标注对应的样本内容类别之后,采用RPA方法,根据样本上下文信息训练初始的内容识别模型,直至内容识别模型输出的中间内容类别与所标注的样本内容类别的损失值小于设定阈值时,内容识别模型训练完成。
其中,初始的内容识别模型,可以为人工智能AI之中的神经网络模型。
其中,在训练的过程中,初始的内容识别模型输出的内容类别,可以被称为中间内容类别,而获取中间内容类别的目的,是为了与所标注的样本内容类别相匹配,以确定终止训练的时机。
本申请实施例中,在内容识别模型输出的中间内容类别与所标注的样本内容类别的损失值小于设定阈值时,内容识别模型训练完成,其中的设定阈值可以自适应调整,当内容识别模型输出的中间内容类别与所标注的样本内容类别的损失值小于设定阈值时,表明神经网络模型趋于收敛,能够获取较为准确的识别效果,此时可以终止训练,将得到的神经网络模型作为内容识别模型。
也即是说,本申请图3所示实施例中训练内容识别模型的过程也为一个机器人流程自动化RPA的过程,以此降低人工标注的数据量,从而降低人工操作成本,并且内容识别模型是基于海量样本文本的样本上下文信息训练得到的,从而有效提升内容识别模型的识别准确性。
本实施例中,通过获取海量的样本上下文信息,并采用RPA方法,针对各种样本上下文信息标注对应的样本内容类别,以及采用RPA方法,根据样本上下文信息训练初始的内容识别模型,直至内容识别模型输出的中间内容类别与所标注的样本内容类别的损失值小于设定阈值时,内容识别模型训练完成,能够有效降低人工标注的数据量,从而降低人工操作成本,并且内容识别模型是基于海量样本文本的样本上下文信息训练得到的,从而有效提升内容识别模型的识别准确性。
图4是本申请一实施例提出的结合RPA和AI的信息获取装置的结构示意图。
参见图4,该装置400包括:
获取模块401,用于采用机器人流程自动化RPA方法,获取待识别文本的上下文信息。
分析模块402,用于采用RPA方法,根据上下文信息分析待识别文本对应的目标内容类别。
识别模块403,用于根据目标内容类别和上下文信息,基于人工智能AI识别待识别文本中的信息。
可选地,一些实施例中,参见图5,还包括:
接收模块404,用于接收用户通过文本上传接口上传的待识别文本;和/或,接收用户通过语音录入接口录入的音频数据,解析音频数据中的语义内容,并对语义内容进行文本转换,得到待识别文本。
可选地,一些实施例中,分析模块402,具体用于:
采用RPA方法,将上下文信息输入预先训练的内容识别模型之中;
将内容识别模型输出的样本内容类别作为目标内容类别,其中,内容识别模型已学习得到多种样本上下文信息,以及与每种样本上下文信息匹配的样本内容类别之间的对应关系。
可选地,一些实施例中,识别模块403,具体用于:
确定与目标内容类别匹配的专名识别模型,专名识别模型是人工智能AI中的模型;
采用RPA方法,根据目标内容类别和上下文信息,结合匹配的专名识别模型识别待识别文本中的信息。
可选地,一些实施例中,参见图5,还包括:
训练模块405,用于获取海量的样本上下文信息,并采用RPA方法,针对各种样本上下文信息标注对应的样本内容类别,以及采用RPA方法,根据样本上下文信息训练初始的内容识别模型,直至内容识别模型输出的中间内容类别与所标注的样本内容类别的损失值小于设定阈值时,内容识别模型训练完成。
可选地,一些实施例中,识别模块403,还用于:
采用RPA方法,将目标内容类别和上下文信息输入专名识别模型之中;
获取专名识别模型输出的样本专名并作为目标专名,并将目标内容类别、上下文信息,以及目标专名共同作为识别到的信息;其中,专名识别模型已学习得到样本目标内容类别、样本上下文信息,以及与样本目标内容类别和样本上下文信息匹配的样本专名之间的对应关系。
可选地,一些实施例中,其中,专名识别模型为基于转换器的双向编码表征模型。
本申请实施例提供的结合RPA和AI的信息获取装置,可用于执行上述的方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
本实施例中,实现获取待识别文本的上下文信息,并根据上下文信息分析待识别文本对应的目标内容类别,以及根据目标内容类别和上下文信息,基于人工智能AI识别待识别文本中的信息,由于是基于该全流程自动化的信息获取过程,并且将信息获取过程划分为内容类别识别过程,以及根据内容类别识别信息的过程,由此降低了识别过程中标注数据量,在方法执行的系统层面和处理逻辑层面均能够提升信息获取的效率,并且提升了信息获取的准确性。
图6为本申请一实施例提供的计算机设备的硬件结构示意图。如图6所示,本实施例提供的计算机设备60包括:至少一个处理器601和存储器602。该计算机设备60还包括通信部件603。其中,处理器601、存储器602以及通信部件603通过总线604连接。
在具体实现过程中,至少一个处理器601执行存储器602存储的计算机执行指令,使得至少一个处理器601执行如上的结合RPA和AI的信息获取方法。
处理器601的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图6所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当处理器执行该计算机执行指令时,实现如上的结合RPA和AI的信息获取方法。
上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种结合RPA和AI的信息获取方法,其特征在于,所述方法包括:
采用机器人流程自动化RPA方法,获取待识别文本的上下文信息;
采用所述RPA方法,根据所述上下文信息分析所述待识别文本对应的目标内容类别;
根据所述目标内容类别和所述上下文信息,基于人工智能AI识别所述待识别文本中的信息。
2.如权利要求1所述的方法,其特征在于,在所述采用机器人流程自动化RPA方法,获取待识别文本的上下文信息之前,还包括:
接收用户通过文本上传接口上传的待识别文本;和/或,
接收用户通过语音录入接口录入的音频数据,解析所述音频数据中的语义内容,并对所述语义内容进行文本转换,得到所述待识别文本。
3.如权利要求1所述的方法,其特征在于,所述采用所述RPA方法,根据所述上下文信息分析所述待识别文本对应的目标内容类别,包括:
采用所述RPA方法,将所述上下文信息输入预先训练的内容识别模型之中;
将所述内容识别模型输出的样本内容类别作为所述目标内容类别,其中,所述内容识别模型已学习得到多种样本上下文信息,以及与每种所述样本上下文信息匹配的样本内容类别之间的对应关系。
4.如权利要求1所述的方法,其特征在于,所述根据所述目标内容类别和所述上下文信息,基于人工智能AI识别所述待识别文本中的信息,包括:
确定与所述目标内容类别匹配的专名识别模型,所述专名识别模型是所述人工智能AI中的模型;
采用所述RPA方法,根据所述目标内容类别和所述上下文信息,结合所述匹配的专名识别模型识别所述待识别文本中的信息。
5.如权利要求3所述的方法,其特征在于,在所述采用机器人流程自动化RPA方法,获取待识别文本的上下文信息之前,还包括:
获取海量的样本上下文信息;
采用所述RPA方法,针对各种所述样本上下文信息标注对应的样本内容类别;
采用所述RPA方法,根据所述样本上下文信息训练初始的内容识别模型,直至所述内容识别模型输出的中间内容类别与所标注的样本内容类别的损失值小于设定阈值时,所述内容识别模型训练完成。
6.如权利要求4所述的方法,其特征在于,所述采用所述RPA方法,根据所述目标内容类别和所述上下文信息,结合所述匹配的专名识别模型识别所述待识别文本中的信息,包括:
采用所述RPA方法,将所述目标内容类别和所述上下文信息输入所述专名识别模型之中;
获取所述专名识别模型输出的样本专名并作为目标专名,并将所述目标内容类别、所述上下文信息,以及所述目标专名共同作为识别到的所述信息;其中,所述专名识别模型已学习得到样本目标内容类别、样本上下文信息,以及与所述样本目标内容类别和所述样本上下文信息匹配的样本专名之间的对应关系。
7.如权利要求4或6所述的方法,其特征在于,其中,
所述专名识别模型为基于转换器的双向编码表征模型。
8.一种结合RPA和AI的信息获取装置,其特征在于,所述装置包括:
获取模块,用于采用机器人流程自动化RPA方法,获取待识别文本的上下文信息;
分析模块,用于采用所述RPA方法,根据所述上下文信息分析所述待识别文本对应的目标内容类别;
识别模块,用于根据所述目标内容类别和所述上下文信息,基于人工智能AI识别所述待识别文本中的信息。
9.如权利要求8所述的装置,其特征在于,还包括:
接收模块,用于接收用户通过文本上传接口上传的待识别文本;和/或,接收用户通过语音录入接口录入的音频数据,解析所述音频数据中的语义内容,并对所述语义内容进行文本转换,得到所述待识别文本。
10.如权利要求8所述的装置,其特征在于,所述分析模块,具体用于:
采用所述RPA方法,将所述上下文信息输入预先训练的内容识别模型之中;
将所述内容识别模型输出的样本内容类别作为所述目标内容类别,其中,所述内容识别模型已学习得到多种样本上下文信息,以及与每种所述样本上下文信息匹配的样本内容类别之间的对应关系。
11.如权利要求8所述的装置,其特征在于,所述识别模块,具体用于:
确定与所述目标内容类别匹配的专名识别模型,所述专名识别模型是所述人工智能AI中的模型;
采用所述RPA方法,根据所述目标内容类别和所述上下文信息,结合所述匹配的专名识别模型识别所述待识别文本中的信息。
12.如权利要求10所述的装置,其特征在于,还包括:
训练模块,用于获取海量的样本上下文信息,并采用所述RPA方法,针对各种所述样本上下文信息标注对应的样本内容类别,以及采用所述RPA方法,根据所述样本上下文信息训练初始的内容识别模型,直至所述内容识别模型输出的中间内容类别与所标注的样本内容类别的损失值小于设定阈值时,所述内容识别模型训练完成。
13.如权利要求11所述的装置,其特征在于,所述识别模块,还用于:
采用所述RPA方法,将所述目标内容类别和所述上下文信息输入所述专名识别模型之中;
获取所述专名识别模型输出的样本专名并作为目标专名,并将所述目标内容类别、所述上下文信息,以及所述目标专名共同作为识别到的所述信息;其中,所述专名识别模型已学习得到样本目标内容类别、样本上下文信息,以及与所述样本目标内容类别和所述样本上下文信息匹配的样本专名之间的对应关系。
14.如权利要求11或13所述的装置,其特征在于,其中,
所述专名识别模型为基于转换器的双向编码表征模型。
15.一种计算机设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-7任一项所述的结合RPA和AI的信息获取方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-7任一项所述的结合RPA和AI的信息获取方法。
CN202010824195.7A 2020-08-17 2020-08-17 结合rpa和ai的信息获取方法、装置、计算机设备及介质 Pending CN112183055A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010824195.7A CN112183055A (zh) 2020-08-17 2020-08-17 结合rpa和ai的信息获取方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010824195.7A CN112183055A (zh) 2020-08-17 2020-08-17 结合rpa和ai的信息获取方法、装置、计算机设备及介质

Publications (1)

Publication Number Publication Date
CN112183055A true CN112183055A (zh) 2021-01-05

Family

ID=73919963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010824195.7A Pending CN112183055A (zh) 2020-08-17 2020-08-17 结合rpa和ai的信息获取方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN112183055A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571057A (zh) * 2021-06-15 2021-10-29 北京来也网络科技有限公司 结合rpa和ai的语音控制方法及装置
CN113836091A (zh) * 2021-09-01 2021-12-24 北京来也网络科技有限公司 结合rpa和ai的数据识别方法、装置、电子设备和存储介质
CN115408136A (zh) * 2022-11-01 2022-11-29 安徽思高智能科技有限公司 一种基于遗传算法的rpa流程调度方法
CN116663509A (zh) * 2023-08-02 2023-08-29 四川享宇科技有限公司 一种银行业复杂系统的信息自动获取填入机器人

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109766438A (zh) * 2018-12-12 2019-05-17 平安科技(深圳)有限公司 简历信息提取方法、装置、计算机设备和存储介质
CN110276075A (zh) * 2019-06-21 2019-09-24 腾讯科技(深圳)有限公司 模型训练方法、命名实体识别方法、装置、设备及介质
CN111223481A (zh) * 2020-01-09 2020-06-02 腾讯科技(深圳)有限公司 信息提取方法、装置、计算机可读存储介质及电子设备
CN111428480A (zh) * 2020-03-06 2020-07-17 广州视源电子科技股份有限公司 简历识别方法、装置、设备及存储介质
US20200234183A1 (en) * 2019-01-22 2020-07-23 Accenture Global Solutions Limited Data transformations for robotic process automation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109766438A (zh) * 2018-12-12 2019-05-17 平安科技(深圳)有限公司 简历信息提取方法、装置、计算机设备和存储介质
US20200234183A1 (en) * 2019-01-22 2020-07-23 Accenture Global Solutions Limited Data transformations for robotic process automation
CN110276075A (zh) * 2019-06-21 2019-09-24 腾讯科技(深圳)有限公司 模型训练方法、命名实体识别方法、装置、设备及介质
CN111223481A (zh) * 2020-01-09 2020-06-02 腾讯科技(深圳)有限公司 信息提取方法、装置、计算机可读存储介质及电子设备
CN111428480A (zh) * 2020-03-06 2020-07-17 广州视源电子科技股份有限公司 简历识别方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571057A (zh) * 2021-06-15 2021-10-29 北京来也网络科技有限公司 结合rpa和ai的语音控制方法及装置
CN113836091A (zh) * 2021-09-01 2021-12-24 北京来也网络科技有限公司 结合rpa和ai的数据识别方法、装置、电子设备和存储介质
CN115408136A (zh) * 2022-11-01 2022-11-29 安徽思高智能科技有限公司 一种基于遗传算法的rpa流程调度方法
CN116663509A (zh) * 2023-08-02 2023-08-29 四川享宇科技有限公司 一种银行业复杂系统的信息自动获取填入机器人
CN116663509B (zh) * 2023-08-02 2023-09-29 四川享宇科技有限公司 一种银行业复杂系统的信息自动获取填入机器人

Similar Documents

Publication Publication Date Title
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
CN112183055A (zh) 结合rpa和ai的信息获取方法、装置、计算机设备及介质
JP6909832B2 (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN110717039A (zh) 文本分类方法和装置、电子设备、计算机可读存储介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN111191000B (zh) 一种智能语音机器人的对话管理方法、装置和系统
CN111145733B (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
CN111177186B (zh) 基于问题检索的单句意图识别方法、装置和系统
CN111177351A (zh) 基于规则的自然语言表达意图获取方法、装置和系统
CN111539207B (zh) 文本识别方法、文本识别装置、存储介质和电子设备
CN114626380A (zh) 实体识别的方法和装置、电子设备和存储介质
CN111753553B (zh) 语句类型识别方法、装置、电子设备和存储介质
CN115359799A (zh) 语音识别方法、训练方法、装置、电子设备及存储介质
CN111144102A (zh) 用于识别语句中实体的方法、装置和电子设备
CN112700763A (zh) 语音标注质量评价方法、装置、设备及存储介质
CN110263345B (zh) 关键词提取方法、装置及存储介质
CN111354354B (zh) 一种基于语义识别的训练方法、训练装置及终端设备
CN109408175B (zh) 通用高性能深度学习计算引擎中的实时交互方法及系统
KR101295642B1 (ko) 음성인식결과 문장에 대한 문형분류장치 및 방법
WO2020091619A1 (ru) Автоматизированная оценка качества диалоговой системы в реальном времени
CN111680148B (zh) 针对用户问句进行智能应答的方法和装置
CN111198943B (zh) 一种简历筛选方法、装置及终端设备
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
CN113887241A (zh) 基于机器阅读理解的语义角色标注方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination