CN112115212B - 参数识别方法、装置和电子设备 - Google Patents

参数识别方法、装置和电子设备 Download PDF

Info

Publication number
CN112115212B
CN112115212B CN202011046637.6A CN202011046637A CN112115212B CN 112115212 B CN112115212 B CN 112115212B CN 202011046637 A CN202011046637 A CN 202011046637A CN 112115212 B CN112115212 B CN 112115212B
Authority
CN
China
Prior art keywords
attribute
information
word
entity
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011046637.6A
Other languages
English (en)
Other versions
CN112115212A (zh
Inventor
马健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202011046637.6A priority Critical patent/CN112115212B/zh
Publication of CN112115212A publication Critical patent/CN112115212A/zh
Application granted granted Critical
Publication of CN112115212B publication Critical patent/CN112115212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Abstract

本公开提供了一种参数识别方法、装置和电子设备,可用于人工智能领域或其他领域,该方法包括:获取实体信息,实体信息包括至少一个属性信息;基于语料库和规则库处理至少一个属性信息,得到针对至少一个属性信息各自的识别结果,识别结果表征至少一个属性信息各自属于可参数化属性信息或不可参数化属性信息;以及如果基于识别结果确定大于或等于预设个数阈值的属性信息属于不可参数化属性信息,则确定实体信息是不可参数化实体信息。

Description

参数识别方法、装置和电子设备
技术领域
本公开涉及人工智能领域,更具体地,涉及一种参数识别方法、装置和电子设备。
背景技术
目前,随着企业级业务架构不断发展,基于实体、流程、产品构建企业级业务架构的业务模型,能从多角度为企业决策提供指导意义。同时,业务架构和互联网技术(IT)架构资产之间需要形成系统性的对应关系,使得IT架构能及时反映业务的需求和变化。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题。IT架构中参数贯穿于所有业务发生过程的始终,具有跨境、跨系统、跨部门协同复杂性的特点。相关技术中,采取人工识别方法确定业务架构中实体是否可以参数化,识别效率较低,容易受识别人员的主观因素和对参数的认知水平影响,造成不同识别主体的参数识别结果差异较大,极易形成管理风险。
发明内容
有鉴于此,本公开提供了一种用于提升实体信息的参数化识别效率和识别结果一致性的参数识别方法、装置和电子设备。
本公开的一个方面提供了一种参数识别方法,该方法包括:获取实体信息,实体信息包括至少一个属性信息;基于语料库和规则库处理至少一个属性信息,得到针对至少一个属性信息各自的识别结果,识别结果表征至少一个属性信息各自属于可参数化属性信息或不可参数化属性信息;以及如果基于识别结果确定大于或等于预设个数阈值的属性信息属于不可参数化属性信息,则确定实体信息是不可参数化实体信息。
本公开的一个方面提供了一种参数识别装置,包括实体信息获取模块、属性处理模块和参数化确定模块。其中,实体信息获取模块用于获取实体信息,实体信息包括至少一个属性信息;属性处理模块用于基于语料库和规则库处理至少一个属性信息,得到针对至少一个属性信息各自的识别结果,识别结果表征至少一个属性信息各自属于可参数化属性信息或不可参数化属性信息;以及参数化确定模块用于如果基于识别结果确定大于或等于预设个数阈值的属性信息属于不可参数化属性信息,则确定实体信息是不可参数化实体信息。
本公开的另一方面提供了一种电子设备,包括一个或多个处理器以及存储装置,其中,存储装置用于存储可执行指令,可执行指令在被处理器执行时,实现如上所述的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,计算机程序包括计算机可执行指令,指令在被执行时用于实现如上所述的方法。
本公开实施例提供的参数识别方法、装置和电子设备,根据IT架构中参数的定义和特性,确定与实体信息的属性信息相对应的语料库和规则库,使得可以基于语料库和规则库处理实体信息的属性信息,得到针对属性信息各自的识别结果,由于识别结果表征属性信息各自属于可参数化属性信息或不可参数化属性信息,当确定实体信息中大于或等于预设个数阈值的属性信息属于不可参数化属性信息,则确定实体信息是不可参数化实体信息。这样便于提升实体信息的参数化识别效率和识别结果一致性。
本公开实施例提供的参数识别方法、装置和电子设备,借助企业级业务架构中的实体信息,根据IT架构中参数的定义和特性,制定出了系统化的用于参数识别的方法,通过参数识别有效划定参数管理范围和基线,打造参数管理整体视图,指导IT架构下参数向规则化、模型化、定制化方向发展,解决现有参数管理分散,风险控制覆盖不完全的痛点。
本公开实施例提供的参数识别方法、装置和电子设备,根据实体信息,实体和属性的目的、定义和范围,以及参数特征,建立起一套通过系统方式识别出可参数化实体和可参数化属性的方法。参数管理者可以通过识别结果,确定参数管理的范围和基线,为后续的参数设计和参数风险管控提供依据。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的参数识别方法、装置和电子设备的应用场景;
图2示意性示出了根据本公开实施例的可以应用参数识别方法、装置和电子设备的示例性系统架构;
图3示意性示出了根据本公开实施例的参数识别方法的流程图;
图4示意性示出了根据本公开实施例的语料库的示意图;
图5示意性示出了根据本公开实施例的参数识别方法的逻辑图;
图6示意性示出了根据本公开实施例的确定属性信息的识别结果的流程图;
图7示意性示出了根据本公开实施例的属性权重的示意图;
图8示意性示出了根据本公开另一实施例的参数识别方法的流程图;
图9示意性示出了根据本公开实施例的参数识别装置的框图;以及
图10示意性示出了根据本公开实施例的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。
为了便于更好地理解本公开的技术方案,以下首先对业务架构和IT架构进行示意性说明。
图1示意性示出了根据本公开实施例的参数识别方法、装置和电子设备的应用场景。需要说明的是,本公开实施例提供的参数识别方法、装置和电子设备可用于人工智能在参数识别相关方面,也可用于除人工智能领域之外的多种领域,如金融领域,本公开实施例提供的参数识别方法、装置和电子设备的应用领域不做限定。
业务架构涉及企业(如商业银行)价值创造、业务运营、内部管理的方方面面,资产结构复杂。以往企业对价值创造过程缺少系统化分析,较少将业务架构和互联网技术(IT)架构资产形成系统性的对应关系。通过将业务架构和IT架构关联起来,可以使得IT架构能及时反映业务的需求和变化。
如图1所示,左边是业务架构,包括产品模型(如应用的显示界面中为用户提供的产品,如各种金融产品、金融服务等)、流程模型和实体模型。右边是IT架构,包括交互组件(简称UC)、交易服务(简称ATS)、组件服务(简称ACS)和对象服务(简称BOS)。图1中n为大于0的正整数,其中,图1中多个n的数值可相同或不同,仅用于表示一对一或一对多的关系。例如,业务用例中的n的数值可以与流程模型中的n的数值相同或不同。
本公开实施例提供的参数识别方法是在上述将业务架构和IT架构对接,采用结构和标准化的语言为企业提供统一的实体模型的背景下,对实体模型进行参数识别,以确定哪些实体模型(存储在业务架构下的实体信息)在IT架构下可进行参数化设置,如可设置成具有参数变量的C’模型。便于开发部门以全局的视角确定是否需要在IT架构为与业务相关的实体设置变量参数,提升程序开发效率和降低后续程序维护成本。
为了便于对本公开的技术方案的理解,首先对业务架构进行示例性说明。
首先,基于价值流按照多个维度对业务领域进行划分,分别得到针对多个维度的多个价值链。针对多个维度的多个价值链包括:活动价值链(也可以称为活动模型)、任务流程(也可以称为任务组或任务模型)和任务组件(也可以称为组件模型),活动价值链包括至少一个任务流程,任务流程包括至少一个任务组件。活动价值链与多个实体模型相关联。任务流程对应一个业务流程,业务流程对应至少一个产品,且服务于一个实体。任务组件对应一个实体模型和一个产品模型。
其中,实体可以通过实体模型进行表征,实体模型的数据可以存储在数据库中,在实际使用中,可以对实体模型进行细化和数据化,得到C’模型,该C’模型可以被对象服务(BOS)操作,如读取、选择等。
业务架构中实体模型可能涉及多个流程模型和业务用例,对于业务架构中可进行参数化的实体信息,如果在程序开发时就在IT架构中设置与之对应的变量参数,则可以使得该程序在面对多种场景时,可以通过调整参数的取值的方式来应对,有助于降低新产品开发成本和后期对程序进行更新、升级的维护成本。此外,有助于提升C’模型的复用率。
现有技术中,采取人工识别方法来确定实体信息是否可以参数化,识别效率较低,容易受识别人员的主观因素和对参数的认知水平影像,造成不同识别主体的参数识别结果差异较大,极易形成管理风险。
本公开的实施例提供了一种参数识别方法、装置和电子设备。该参数识别方法包括属性识别过程和参数化确定过程。其中,在属性识别过程中,首先,获取实体信息,实体信息包括至少一个属性信息,然后,基于语料库和规则库处理至少一个属性信息,得到针对至少一个属性信息各自的识别结果,识别结果表征至少一个属性信息各自属于可参数化属性信息或不可参数化属性信息。在完成属性识别过程之后,进入参数化确定过程,如果基于识别结果确定大于或等于预设个数阈值的属性信息属于不可参数化属性信息,则确定实体信息是不可参数化实体信息。
本公开实施例提供的参数识别方法、装置和电子设备,借助企业级业务架构中的实体模型,根据IT架构对参数的定义和特性,通过参数识别有效划定业务架构中参数管理范围和基线,打造参数管理整体视图,指导参数向规则化、模型化、定制化方向发展,解决现有参数管理分散,风险控制覆盖不完全的痛点。
图2示意性示出了根据本公开实施例的可以应用参数识别方法、装置和电子设备的示例性系统架构。需要注意的是,图2所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图2所示,根据该实施例的系统架构200可以包括终端设备201、202、203,网络204和服务器205。网络204可以包括多个网关、路由器、集线器、网线等,用以在终端设备201、202、203和服务器205之间提供通信链路的介质。网络204可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备201、202、203通过网络204与其他终端设备和服务器205进行交互,以接收或发送信息等,如发送实体信息请求、参数化识别请求、信息修改指令和接收处理结果等。终端设备201、202、203可以安装有各种通讯用户端应用,例如银行类应用、监控类应用、运维类应用、网页浏览器应用、搜索类应用、办公类应用、即时通信工具、邮箱用户端、社交平台软件等应用(仅为示例)。
终端设备201、202、203包括但不限于智能手机、虚拟现实设备、增强现实设备、平板电脑、膝上型便携计算机等等。
服务器205可以接收请求,并对请求进行处理。例如,服务器205可以为后台管理服务器、服务器集群等。后台管理服务器可以对接收到的实体信息请求、参数化识别请求等进行分析处理,并将处理结果(如实体信息、是否可参数化的识别结果等)反馈给终端设备。
需要说明的是,本公开实施例所提供的参数识别方法一般可以由服务器205执行。相应地,本公开实施例所提供的参数识别装置一般可以设置于服务器205中。本公开实施例所提供的参数识别方法也可以由不同于服务器205且能够与终端设备201、202、203和/或服务器205通信的服务器或服务器集群执行。
应该理解,终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图3示意性示出了根据本公开实施例的参数识别方法的流程图。
如图3所示,该方法可以包括操作S301~操作S305。
在操作S301,获取实体信息,实体信息包括至少一个属性信息。
其中,实体信息可以是以结构化文本的形式存储在服务器中,也可以是以表格的形式存储在服务器中,也可以是以键值对的形式存储在数据库中,在此不做限定。
以结构化文本形式存储的实体信息为例进行说明:实体收单用户,为了管理和识别收单体系下各渠道各平台用户,确定收单领域用户服务的主体合法身份。描述收单各参与方在组织(如银行)收单服务各渠道,根据服务协议享受服务协议时,自行注册或银行给予用户身份;范围包括平台用户。实体属性包括收单用户创建时间、收单用户名称、用户权限……。其中收单用户创建时间与用户名称为标识符。属性收单用户创建时间为了登记创建收单用户的日期和时点,描述收单机构用户创建的时间,范围是日期从1900-01-01到9999-12-31,时间为从00:00:00到23:59:59。
其中,实体名称为收单用户,实体包括多个属性,各属性的属性名称分别为:收单用户创建时间、收单用户名称、用户权限等。属性收单用户创建时间的属性释义为:为了登记创建收单用户的日期和时点,描述收单机构用户创建的时间,范围是日期从1900-01-01到9999-12-31,时间为从00:00:00到23:59:59。
例如,可以连接实体资产数据库,按迭代读取增量实体信息,作为等待进行可参数化识别的目标实体信息。
在操作S303,基于语料库和规则库处理至少一个属性信息,得到针对至少一个属性信息各自的识别结果,识别结果表征至少一个属性信息各自属于可参数化属性信息或不可参数化属性信息。
其中,语料库中可以存储有正样本的属性相关信息和/或负样本的属性相关信息。正样本的属性相关信息倾向于表征:具有该正样本的属性相关信息的实体信息是可参数化的。负样本的属性相关信息倾向于表征:具有该负样本的属性相关信息的实体信息是不可参数化的。规则库中可存储有用于确定实体信息是否可以参数化的规则,如基于该规则调用相应的语料库中样本以进行是否可参数化判断。例如,规则库中可以包括正规则和负规则,其中,正规则可以是针对正样本的,负规则可以是针对负样本的。语料库和规则库可以是基于语义分析技术和机器学习算法构建的,也可以是基于专家经验等构建的。
在一个实施例中,语料库包括第一词库、第二词库和语句库中至少一种,其中,第一词库包括表征不可进行参数化的词,如负样本。第二词库包括表征可进行参数化的词,如正样本。语句库包括表征不可进行参数化的语块,语块用于表征语句的结构信息,并且具有语义信息,第一词库的词具有处于第一指定区间的词向量,第二词库的词具有处于第二指定区间的词向量,第一指定区间和第二指定区间相同或不同。
图4示意性示出了根据本公开实施例的语料库的示意图。
如图4所示,语料库中包括第一词库、第二词库和语句库。其中,第一词库中存储有趋向于表征具有该第一词库中的词的实体信息是不可参数化的。第二词库中存储有趋向于表征具有该第二词库中的词的实体信息是可参数化的。语句库中存储的语块的语义信息趋向于表征:具有语句库中的语块的实体信息是不可参数化的。
图4中第一词库可以包括生命周期、执行证据等数据,当实体信息中包括第一词库中的词时,则表征该实体信息具有一个不可参数化的属性信息。第二词库可以包括费率、额度、开关、上限或下限等中等词,当实体信息中包括第二词库中的词时,则表征该实体信息具有一个可参数化的属性信息。语句库可以包括类似如下的语块:描述账户所对应的相关业务约定的终止日期等,该语块存在时间周期描述,表征具有该语块的实体信息具有一个不可参数化的属性信息。
为了确定各属性信息是否为可参数化属性信息,并且提升识别速率,例如,可以先在语句库中进行匹配,如果没有匹配结果,则可以对属性信息进行分词,然后利用分词结果在第一词库和/或第二词库中进行匹配。
此外,为了应对针对同一语义的语言表达方式多种多样,如一个词可以具有同义词等。可以通过向量化技术来应对该问题。例如,第一词库中包括的各词可以被向量化为指定区间(如0到1)的词向量(如0.05、0.51等小数)。可以对分词结果中的词进行向量化得到词向量。如果词向量落在0到1区间,则可以认为存在匹配结果。相应地,语义可以通过语义分析的方式来确定。
例如,设置α语料库、β语料库和γ语料库。α语料库包括表征负样本的分词,β语料库包括特征种子(正样本)使用的分词,γ语料库包括表征负样本的属性释义。
其中,α语料库:对增量实体、属性名称等采取词汇级语义分析。首先,对已标注的α语料库(如包括标注信息“如可参数化、是、正样本等中至少一种”的5000~6000条词语)采取词语相似度分析,设置与生命周期、执行证据、记录明细、描述、登记、协议、日志等词语的距离为0-1。其次,对无标注语料进行分析,满足0-1区间距离的词语划入α语料库。第三,对未纳入α语料库的分词采用神经网络词向量模型与α语料库进行词语相关度分析,与α语料库中的词语相关性达到0-1的词语其相似度达标,划入α语料库。剩余词语仍为未标注语料。
β语料库:与α语料库采取相同处理方法,对特征种子(如正样本的词)进行分析,对符合条件的词语划入β语料库。
γ语料库:对表征不能进行参数化的属性释义采取句子级语义分析。首先,对γ语料库中的句子进行分解,以进行浅层语法分析,识别出句子中存在时间周期描述,操作流程描述,业务信息记录等结构的语块,将该部分语块划入γ语料库中。剩余句子仍为未标注语块。
在一个具体实施例中,基于语料库和规则库遍历目标实体的全部属性以确定可参数化属性信息和不可参数化属性信息各自的数量。
在操作S305,如果基于识别结果确定大于或等于预设个数阈值的属性信息属于不可参数化属性信息,则确定实体信息是不可参数化实体信息。
在本实施例中,预设个数阈值可以基于经验设定的,还可以基于大数据分析确定的,在此不做限定。例如,判断属性分析结果,一个实体信息内不可参数化的属性信息的个数,达到预设值则停止分析此实体信息,标注为不可参数化实体。
需要说明的是,还可以根据实体信息中不可参数化属性信息的占比确定实体信息是否可属性化,例如,实体信息包括10个属性,当超过7个属性是不可参数化属性时,则表明该实体信息是不可参数化的。
图5示意性示出了根据本公开实施例的参数识别方法的逻辑图。
如图5所示,可以从包括业务架构的数据资产中读取目标实体,以便对该目标实体进行参数化分析。具体地,可以基于预先构建的规则库和语料库对该目标实体进行分析,如分析目标实体的属性信息中包括的可参数化属性信息或不可参数化属性信息。其中,在进行分析的过程中可以用到诸如特征匹配、语义分析和大数据阈值分析等手段。例如,特征可以为词向量以便基于词向量进行匹配。又例如,可以对属性释义等进行语义分析,以便确定属性释义的语句中是否包括表征不可参数化的语义。此外,还可以基于大数据阈值分析来确定预设个数阈值,以确保阈值的准确度。
通过以上技术便于基于可参数化属性信息或不可参数化属性信息的数量、占比等确定目标实体是否可参数化。此外,在完成实体信息的参数化分析之后,还可以进一步对诸如语料库等进行优化。
本公开实施例提供的参数识别方法,澄清了参数识别方法的系统化实现流程,完善了参数识别的规则,保持参数识别方法的先进性。便于程序开发过程中确定实体信息是否需要设置相对应的变量参数,提升程序开发的系统性和降低返工的概率。
在一个实施例中,属性信息包括:属性类型、实体名称、属性名称或属性释义中至少一种,规则库包括:反向预定义规则、正向规则中至少一种。其中,属性类型可以包括长文本、短语、词语等,对于长文本,如超过预定个数(如超过200字符)的文本,则直接确定其为不可参数化属性信息。
相应地,对于每一个属性信息,基于语料库和规则库处理至少一个属性信息,得到针对至少一个属性信息各自的识别结果可以包括如下操作。
首先,对属性信息进行分词,得到至少一个词。其中,分词方法可以同现有技术,例如,基于字典、辞海、专用字典或指定领域词典(如金融词典、计算机词典等)等对属性信息进行分词,以增加分词的准确度。
然后,确定至少一个词的词向量。具体地,可以基于向量化技术确定词的词向量。如采取词语相似度分析,设置与生命周期、执行证据、记录明细、描述、登记、协议、日志等词语的距离为0-1。如可以基于Word2vec(word to vector)技术得到词向量。
接着,基于语料库、规则库和至少一个词的词向量,确定针对至少一个属性信息各自的识别结果。
以下对规则库进行示例性说明。
例如,反向预定义规则包括以下至少一种。
如果实体名称的分词结果的词向量位于第一指定区间中,则实体名称不可参数化。
如果属性名称的分词结果的词向量位于第一指定区间中,则属性名称不可参数化。
如果属性释义的语义信息与语句库的语块的语义信息相匹配,则属性释义不可参数化。
如果属性类型为指定类型,则属性类型不可参数化。
相应地,正向规则包括以下至少一种。
实体名称的分词结果的词向量位于第二指定区间中,则实体名称可参数化。
属性名称的分词结果的词向量位于第二指定区间中,则属性名称可参数化。
其中,第一指定区间可以和第二指定区间相同或不同,例如,第一指定区间和第二指定区间都是位于(0~1)区间。
在一个实施例中,为了提升基于规则库确定属性信息是否可参数化的速度,规则库还包括属性权重规则。
具体地,属性权重规则包括:当确定当前属性信息中高权重的属性不可参数化后,则确定当前属性信息不可参数化,其中,属性类型、实体名称、属性名称、属性释义的权重依序降低。
在一个实施例中,反向预定义规则包括但不限于:A-3-1至A-3-4中至少一种。
A-3-1、实体名称具有α语料库中的分词特征,不可参数化。
A-3-2、属性名称具有α语料库中的分词特征,不可参数化。
A-3-3、属性PDS释义具有γ语料库中的词义特征,不可参数化。
A-3-4、属性类型为大字段文本(CLOB BLOB TEXT)不可参数化。例如,图片、文件、音乐等信息采用BLOB字段来存储,文章或较长的文字采用CLOB来存储。
正向规则包括但不限于:具有β语料库中的词义特征,可参数化。
属性权重规则,用于递进式分析属性权重。
具体地,属性类型>实体名称>属性名称>属性释义。例如,如果基于属性类型确定了该属性信息是不可参数化的,则不处理后续低权重属性,直接确定该实体信息是不可参数化的。此外,在执行操作S303之前,可以权重进行初始化。
图6示意性示出了根据本公开实施例的确定属性信息的识别结果的流程图。
如图6所示,确定识别结果的过程可以包括如下操作。
属性类型命中规则A-3-4类型则不可参数化。需要说明的是,该操作是可选的操作,可以不执行该操作或跳过该操作。
对实体名称进行分词。如果对实体名称分词语义命中规则A-3-1则不可参数化。如果对实体名称分词语义没有命中规则A-3-1则执行下一操作。
对属性名称进行分词。如果属性名称分词语义命中规则A-3-2则不可参数化。如果属性名称分词语义与特征种子匹配度高则执行下一操作。
对属性释义(也称为属性PDS释义)进行分词。如果属性释义命中规则A-3-3则不可参数化。如果属性释义分词语义与特征种子匹配度高则确定该属性信息可参数化。
图7示意性示出了根据本公开实施例的属性权重的示意图。
如图7所示,属性类型的属性权重最高,实体名称的属性权重次之,属性名称的属性权重比实体名称的属性权重低,属性释义的属性权重比属性名称的属性权重低。
在另一个实施例中,上述方法还包括:如果已有识别结果中大于或等于预设个数阈值的属性信息属于不可参数化属性信息,则停止基于语料库和规则库处理至少一个属性信息。
本实施例中基于属性权重对实体名称、属性名称、属性释义进行分词,如是按照逆向最大匹配法进行的,因此可以有效提升识别效率。例如,当对属性类型进行分析确定属性是不可参数化属性后,无需继续进行图6中后续分析,提升了识别效率。
在另一个实施例中,上述方法还可以包括如下操作。
如果基于识别结果确定少于预设个数阈值的属性信息属于不可参数化属性信息,则确定实体信息是可参数化实体信息。
例如,完成全部目标实体的参数化分析之后,输出可参数化实体结果集。同时,遍历目标实体列表,通过引用关系提取源实体,将源实体为不可参数化的关系实体,标注为不可参数化实体信息。
图8示意性示出了根据本公开另一实施例的参数识别方法的流程图。
如图8所示,上述方法在确定实体信息是不可参数化实体信息,或者在确定实体信息是可参数化实体信息之后,还可以包括操作S807。
在操作S807,基于实体信息扩充语料库。
如上实施例,α语料库和β语料库中可以包括具有人工标注信息的词,如5000条~6000条由专家进行标识的词(如可进行参数化的属性的特征词)。但是,人工标注的时间成本和人力成本较高,且不同的标注者的标注结果可能存在差异,同一个标注者在不同时间的标注结果也可能存在差异。
为了解决上述问题,可以通过机器学习的方式从具有标注信息的属性信息或实体信息中提取出:能表征实体是否可以进行参数化的特征(如词),然后基于该特征来扩展语料库,使得语料库涵盖范围更广,有助于提升参数识别的准确度。
在一个实施例中,语料库包括第一词库、第二词库和语句库中至少一种,其中,第一词库包括表征不可进行参数化的词,第二词库包括表征可进行参数化的词。
相应地,基于实体信息扩充语料库可以包括如下操作。
首先,利用识别模型处理实体信息,得到用于表征实体信息属于不可参数化实体信息的第一扩展词,和/或用于表征实体信息属于可参数化实体信息的第二扩展词。其中,识别模型可以是神经网络、支持向量机、决策树等可以实现分类功能的模型结构。识别模型的输入可以包括具有批注信息的实体信息或具有批注信息的属性信息。识别模型的输入可以包括与批注信息对应的词,如表征属性可以进行参数化的词或表征实体信息不能进行参数化的词等。
然后,将第一扩展词添加进第一词库,和/或,将第二扩展词添加进第二词库。
以下对识别模型的训练方式进行示例性说明。
例如,实体信息包括具有标注信息的不可参数化属性信息和具有标注信息的可参数化属性信息中至少一种。可以对识别模型进行半监督式训练。
相应地,识别模型通过如下方式训练:通过调整识别模型的模型参数,使得识别模型处理实体信息得到的至少一个输出词,各自分别趋近于第一验证词或第二验证词,其中,第一验证词是不可参数化属性信息的属性类型、实体名称和属性名称中与第一词库相匹配的词,第二验证词是可参数化属性信息的属性类型、实体名称和属性名称中与第二词库相匹配的词。
例如,提取未标注为可参数化的属性信息,和/或,提取已标注为可参数化的属性信息。这样可以形成具有标注信息的属性信息的分组结果语料库。
接着,基于分组结果语料库对识别模型进行训练,如基于已标注为可参数化的属性信息进行端到端的训练。重复进行数据输入直至分组结果语料库为空,识别模型的输入可以包含实体名称、属性名称、属性类型、属性释义等,识别模型处理分组结果语料库实现模型训练。这样就可以利用训练好的识别模型处理具有标注信息的实体信息和属性信息,得到输出词,然后基于标注信息将输出词补充到语料库中。
本公开实施例提供的参数识别方法,借助企业级业务架构中的实体信息,根据IT架构中参数的定义和特性,制定出了系统化的用于参数识别的方法,指导IT架构的参数向规则化、模型化、定制化方向发展,解决现有参数管理分散,风险控制覆盖不完全的痛点。
此外,人工标注语料库的语料以得到训练数据的成本较高,且标注准确度受标注者的个体影响较大,在人工标定一定量的语料,如标注数千条语料后,基于人工智能的方式对实体信息、属性信息进行机器学习,自动提取出能表征实体信息或属性信息是否可参数化的特征,大大降低了人工标注的成本,并且有助于提升语料库的涵盖范围和准确性,进而提升参数化识别的准确度。
本公开的一个方面提供了一种参数识别装置。
图9示意性示出了根据本公开实施例的参数识别装置的框图。
如图9所示,该参数识别装置900包括:实体信息获取模块910、属性处理模块920和参数化确定模块930。
其中,实体信息获取模块910用于获取实体信息,实体信息包括至少一个属性信息。
属性处理模块920用于基于语料库和规则库处理至少一个属性信息,得到针对至少一个属性信息各自的识别结果,识别结果表征至少一个属性信息各自属于可参数化属性信息或不可参数化属性信息。
参数化确定模块930用于如果基于识别结果确定大于或等于预设个数阈值的属性信息属于不可参数化属性信息,则确定实体信息是不可参数化实体信息。
需要说明的是,装置部分实施例中各模块/单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再一一赘述。
根据本公开的实施例的模块、单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,实体信息获取模块910、属性处理模块920和参数化确定模块930中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,实体信息获取模块910、属性处理模块920和参数化确定模块930中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,实体信息获取模块910、属性处理模块920和参数化确定模块930中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
本公开的一个方面提供了一种电子设备。图10示意性示出了根据本公开实施例的电子设备的方框图。图10示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图10所示,根据本公开实施例的电子设备1000包括处理器1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1003中,存储有电子设备1000操作所需的各种程序和数据。处理器1001、ROM 1002以及RAM 1003通过总线1004彼此通讯连接。处理器1001通过执行ROM 1002和/或RAM 1003中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,程序也可以存储在除ROM 1002和RAM 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备1000还可以包括输入/输出(I/O)接口1005,输入/输出(I/O)接口1005也连接至总线1004。电子设备1000还可以包括连接至I/O接口1005的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1002和/或RAM 1003和/或ROM 1002和RAM 1003以外的一个或多个存储器。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (11)

1.一种参数识别方法,包括:
获取实体信息,所述实体信息包括至少一个属性信息;
基于语料库和规则库处理至少一个所述属性信息,得到针对至少一个所述属性信息各自的识别结果,所述识别结果表征至少一个所述属性信息各自属于可参数化属性信息或不可参数化属性信息;以及
如果基于所述识别结果确定大于或等于预设个数阈值的属性信息属于不可参数化属性信息,则确定所述实体信息是不可参数化实体信息;其中,所述语料库包括第一词库、第二词库和语句库中至少一种,其中,所述第一词库包括表征不可进行参数化的词,所述第二词库包括表征可进行参数化的词,所述语句库包括表征不可进行参数化的语块,所述语块用于表征语句的结构信息,并且具有语义信息,所述第一词库的词具有处于第一指定区间的词向量,所述第二词库的词具有处于第二指定区间的词向量,所述第一指定区间和所述第二指定区间相同或不同;
其中,所述属性信息包括:属性类型、实体名称、属性名称或属性释义中至少一种;所述规则库包括:反向预定义规则、正向规则中至少一种;
所述基于语料库和规则库处理至少一个所述属性信息,得到针对至少一个所述属性信息各自的识别结果包括:对于每一个属性信息,
对所述属性信息进行分词,得到至少一个词;
确定至少一个所述词的词向量;以及
基于所述语料库、所述规则库和至少一个所述词的词向量,确定针对至少一个所述属性信息各自的识别结果。
2.根据权利要求1所述的方法,其中:
所述反向预定义规则包括以下至少一种:
如果所述实体名称的分词结果的词向量位于所述第一指定区间中,则所述实体名称不可参数化;
如果所述属性名称的分词结果的词向量位于所述第一指定区间中,则所述属性名称不可参数化;
如果所述属性释义的语义信息与所述语句库的语块的语义信息相匹配,则所述属性释义不可参数化;
如果所述属性类型为指定类型,则所述属性类型不可参数化;
所述正向规则包括以下至少一种:
所述实体名称的分词结果的词向量位于所述第二指定区间中,则所述实体名称可参数化;以及
所述属性名称的分词结果的词向量位于所述第二指定区间中,则所述属性名称可参数化。
3.根据权利要求1所述的方法,其中,所述规则库还包括属性权重规则;
所述属性权重规则包括:当确定当前属性信息中高权重的属性不可参数化后,则确定所述当前属性信息不可参数化,其中,属性类型、实体名称、属性名称、属性释义的权重依序降低。
4.根据权利要求1所述的方法,还包括:
如果基于所述识别结果确定少于预设个数阈值的属性信息属于不可参数化属性信息,则确定所述实体信息是可参数化实体信息。
5.根据权利要求4所述的方法,还包括:在确定所述实体信息是不可参数化实体信息,或者在确定所述实体信息是可参数化实体信息之后,
基于所述实体信息扩充所述语料库。
6.根据权利要求5所述的方法,其中,所述语料库包括第一词库、第二词库和语句库中至少一种,其中,所述第一词库包括表征不可进行参数化的词,所述第二词库包括表征可进行参数化的词;
所述基于所述实体信息扩充所述语料库包括:
利用识别模型处理所述实体信息,得到用于表征所述实体信息属于不可参数化实体信息的第一扩展词,和/或用于表征所述实体信息属于可参数化实体信息的第二扩展词;以及
将所述第一扩展词添加进所述第一词库,和/或,将所述第二扩展词添加进所述第二词库。
7.根据权利要求6所述的方法,其中,所述实体信息包括具有标注信息的不可参数化属性信息和具有标注信息的可参数化属性信息中至少一种;
所述识别模型通过如下方式训练:
通过调整所述识别模型的模型参数,使得所述识别模型处理所述实体信息得到的至少一个输出词,各自分别趋近于第一验证词或第二验证词,其中,所述第一验证词是所述不可参数化属性信息的属性类型、实体名称和属性名称中与所述第一词库相匹配的词,所述第二验证词是所述可参数化属性信息的属性类型、实体名称和属性名称中与所述第二词库相匹配的词。
8.根据权利要求1至7任一项所述的方法,还包括:
如果已有识别结果中大于或等于预设个数阈值的属性信息属于不可参数化属性信息,则停止基于语料库和规则库处理至少一个所述属性信息。
9.一种参数识别装置,包括:
实体信息获取模块,用于获取实体信息,所述实体信息包括至少一个属性信息;
属性处理模块,用于基于语料库和规则库处理至少一个所述属性信息,得到针对至少一个所述属性信息各自的识别结果,所述识别结果表征至少一个所述属性信息各自属于可参数化属性信息或不可参数化属性信息;以及
参数化确定模块,用于如果基于所述识别结果确定大于或等于预设个数阈值的属性信息属于不可参数化属性信息,则确定所述实体信息是不可参数化实体信息;
其中,所述参数识别装置用于实现权利要求1~8任一项所述的方法。
10.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储可执行指令,所述可执行指令在被所述处理器执行时,实现根据权利要求1~8任一项所述的方法。
11.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时实现根据权利要求1~8中任一项所述的方法。
CN202011046637.6A 2020-09-29 2020-09-29 参数识别方法、装置和电子设备 Active CN112115212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011046637.6A CN112115212B (zh) 2020-09-29 2020-09-29 参数识别方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011046637.6A CN112115212B (zh) 2020-09-29 2020-09-29 参数识别方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN112115212A CN112115212A (zh) 2020-12-22
CN112115212B true CN112115212B (zh) 2023-10-03

Family

ID=73798558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011046637.6A Active CN112115212B (zh) 2020-09-29 2020-09-29 参数识别方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN112115212B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065353B (zh) * 2021-03-16 2024-04-02 北京金堤征信服务有限公司 实体识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256650A (zh) * 2008-03-21 2008-09-03 中国科学院软件研究所 一种基于业务实体的企业数据提取方法与系统
CN106547740A (zh) * 2016-11-24 2017-03-29 四川无声信息技术有限公司 文本信息处理方法及装置
CN110489744A (zh) * 2019-07-25 2019-11-22 腾讯科技(深圳)有限公司 一种语料的处理方法、装置、电子设备和存储介质
CN111178080A (zh) * 2020-01-02 2020-05-19 杭州涂鸦信息技术有限公司 一种基于结构化信息的命名实体识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980624B (zh) * 2016-01-18 2021-03-26 阿里巴巴集团控股有限公司 一种文本数据的处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256650A (zh) * 2008-03-21 2008-09-03 中国科学院软件研究所 一种基于业务实体的企业数据提取方法与系统
CN106547740A (zh) * 2016-11-24 2017-03-29 四川无声信息技术有限公司 文本信息处理方法及装置
CN110489744A (zh) * 2019-07-25 2019-11-22 腾讯科技(深圳)有限公司 一种语料的处理方法、装置、电子设备和存储介质
CN111178080A (zh) * 2020-01-02 2020-05-19 杭州涂鸦信息技术有限公司 一种基于结构化信息的命名实体识别方法及系统

Also Published As

Publication number Publication date
CN112115212A (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN113722493B (zh) 文本分类的数据处理方法、设备、存储介质
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
CN110968695A (zh) 基于弱监督技术主动学习的智能标注方法、装置及平台
CN109800354B (zh) 一种基于区块链存储的简历修改意图识别方法及系统
US11194963B1 (en) Auditing citations in a textual document
CN111723870B (zh) 基于人工智能的数据集获取方法、装置、设备和介质
US20230351330A1 (en) Autonomous suggestion of issue request content in an issue tracking system
Zhang et al. Efficiency improvement of function point-based software size estimation with deep learning model
CN112115212B (zh) 参数识别方法、装置和电子设备
CN114840685A (zh) 一种应急预案知识图谱构建方法
US20150012550A1 (en) Systems and methods of messaging data analysis
CN114117048A (zh) 一种文本分类的方法、装置、计算机设备及存储介质
CN113515625A (zh) 测试结果分类模型训练方法、分类方法及装置
CN113220999A (zh) 用户特征的生成方法、装置、电子设备和存储介质
CN113220885A (zh) 一种文本处理方法和系统
CN114138976A (zh) 数据处理与模型训练方法、装置、电子设备和存储介质
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114417974A (zh) 模型训练方法、信息处理方法、装置、电子设备和介质
CN109885647B (zh) 用户履历验证方法、装置、电子设备及存储介质
CN113962196A (zh) 一种简历处理方法、装置、电子设备及存储介质
Lim A Case for Pre-trained Language Models in Systems Engineering
Kikuma et al. Automatic test case generation method for large scale communication node software
CN117573956B (zh) 元数据管理方法、装置、设备及存储介质
US10127075B2 (en) Model driven optimization of annotator execution in question answering system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant