CN117057343B - 道路事件识别方法、装置、设备及存储介质 - Google Patents

道路事件识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117057343B
CN117057343B CN202311301208.2A CN202311301208A CN117057343B CN 117057343 B CN117057343 B CN 117057343B CN 202311301208 A CN202311301208 A CN 202311301208A CN 117057343 B CN117057343 B CN 117057343B
Authority
CN
China
Prior art keywords
entity
candidate
relationship
relation
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311301208.2A
Other languages
English (en)
Other versions
CN117057343A (zh
Inventor
叶琰
单敏柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311301208.2A priority Critical patent/CN117057343B/zh
Publication of CN117057343A publication Critical patent/CN117057343A/zh
Application granted granted Critical
Publication of CN117057343B publication Critical patent/CN117057343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Library & Information Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及自然语言处理技术领域,提供了一种道路事件识别方法、装置、设备及存储介质,以提高对文本内容中包含的道路事件的识别准确率。本发明实施例可应用于地图领域,该方法包括:采用至少两个实体关系模型,分别对与道路相关的待识别文本进行实体识别和关系识别,获得相应的实体识别子结果和关系识别子结果;基于各候选实体各自的第一语义类别,以及各自在待识别文本中的位置,获得实体识别结果;将获得的各候选实体分别与各目标实体进行字符匹配,获得关系识别结果;基于实体识别结果和关系识别结果,识别待识别文本中包含的道路事件。

Description

道路事件识别方法、装置、设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,提供了一种道路事件识别方法、装置、设备及存储介质。
背景技术
互联网页面和社交网络包括的文本中通常蕴含丰富的道路相关信息,将这些文本中包括的道路相关事件识别出来,可以作为地图领域相关数据库的有效补充,从而保证地图的实时性。目前,进行道路事件识别时,主要通过实体关系模型对与道路相关的文本进行实体关系抽取,得到文本中包括的实体,以及每两个实体组成的实体对之间的关系,从而根据实体和关系的组合,识别出文本中包括的道路事件。例如,在道路开通封闭的文本内容识别场景中,可以利用实体关系模型对来自网络的文本内容进行实体关系识别,得到与道路开通封闭相关的实体和关系,从而将文本内容中包括的道路开通封闭的事件识别出来。
目前,实体关系模型的实现方式主要包括管道抽取(pipeline)和联合抽取(joint)两种。其中,pipeline方式是将实体抽取和实体关系抽取分开,先进行实体识别,然后基于实体识别结果,进行关系识别。由于这种方式在实体识别阶段产生的错误会传递到关系识别阶段,因此实体关系识别的准确率较低。而joint方式是将实体识别和实体关系抽取在同一个模型中进行处理,同时完成实体和关系的抽取。这种方式由于通过同样的特征表示进行实体识别和关系识别两项任务,可能会对实体关系模型的学习造成误解,导致实体和关系的识别准确率较低。
由此可见,相关技术中通过实体关系模型进行实体关系抽取时都存在准确率低的问题。而根据不准确的实体关系,无法识别出准确的道路事件,因此,相关技术中存在针对文本中包含的道路事件的识别准确率低的问题。
发明内容
本申请实施例提供了一种道路事件识别方法、装置、设备及存储介质,以解决相关技术中识别文本中包含的道路事件的准确率较低的问题。
第一方面,本申请实施例提供了一种道路事件识别方法,包括:采用至少两个实体关系模型,分别执行以下操作:基于一个实体关系模型对待识别文本进行实体识别和关系识别,获得相应的实体识别子结果和关系识别子结果;所述待识别文本为采集的与道路相关的文本内容;所述实体识别子结果表征:所述待识别文本包含的与道路相关的各候选实体各自的第一语义类别;所述关系识别子结果表征:每两个候选实体间的候选关系;
基于所述各候选实体各自的第一语义类别,以及各自在所述待识别文本中的位置,获得所述各候选实体包括的各个字符各自的第二语义类别,并将具有相同第二语义类别且相邻的各字符拼接为相应的目标实体,获得实体识别结果;
将获得的各候选实体分别与各目标实体进行字符匹配,确定各候选关系关联的目标实体对,并在关联相同目标实体对的各候选关系中选取一条记录至关系识别结果中,获得关系识别结果;
基于所述实体识别结果和所述关系识别结果,识别所述待识别文本中包含的道路事件。
第二方面,本申请实施例还提供了一种道路事件识别装置,包括:
模型识别单元,用于采用至少两个实体关系模型,分别执行以下操作:基于一个实体关系模型对待识别文本进行实体识别和关系识别,获得相应的实体识别子结果和关系识别子结果;所述待识别文本为采集的与道路相关的文本内容;所述实体识别子结果表征:所述待识别文本包含的与道路相关的各候选实体各自的第一语义类别;所述关系识别子结果表征:每两个候选实体间的候选关系;
实体融合单元,用于基于所述各候选实体各自的第一语义类别,以及各自在所述待识别文本中的位置,获得所述各候选实体包括的各个字符各自的第二语义类别,并将具有相同第二语义类别且相邻的各字符拼接为相应的目标实体,获得实体识别结果;
关系融合单元,用于将获得的各候选实体分别与各目标实体进行字符匹配,确定各候选关系关联的目标实体对,并在关联相同目标实体对的各候选关系中选取一条记录至关系识别结果中,获得关系识别结果;
道路事件识别单元,用于基于所述实体识别结果和所述关系识别结果,识别所述待识别文本中包含的道路事件。
一种可能的实现方式中,所述实体识别子结果与所述实体关系模型一一对应,每个实体识别子结果包括至少一个候选实体,每个候选实体的第一语义类别及相应的第一类别概率;所述实体融合单元基于所述各候选实体各自的第一语义类别,以及各自在所述待识别文本中的位置,获得所述各候选实体包括的各个字符各自的第二语义类别时,具体用于:针对所述待识别文本中包括的各个字符,分别执行以下操作:基于一个字符在所述待识别文本中的位置,以及每个实体识别子结果中每个候选实体的第一语义类别及相应的第一类别概率,获得所述一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率;根据所述一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率,结合每个实体识别子结果对应的实体关系模型的实体权重,在获得的各个候选语义类别中选取一个,作为所述一个字符的第二语义类别。
一种可能的实现方式中,每个实体识别子结果包括实体字符和非实体字符,其中,所述实体字符为各候选实体包含的字符,所述非实体字符为各候选实体之外,且存在于所述待识别文本中的字符,所述非实体字符的候选语义类别为预设类别,候选类别概率为预设值;所述实体融合单元基于一个字符在待识别文本中的位置,以及每个实体识别子结果中每个候选实体的第一语义类别及相应的第一类别概率,确定所述一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率时,具体用于:针对获得的至少两个实体识别子结果,分别执行以下操作:针对一个实体识别子结果包括的各实体字符,分别执行以下操作:将一个实体字符所属的候选实体的第一语义类别和第一类别概率,作为所述一个实体字符的候选语义类别和候选类别概率。
一种可能的实现方式中,所述实体融合单元根据所述一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率,结合每个实体识别子结果对应的实体关系模型的实体权重,在获得的各个候选语义类别中选取一个,作为所述一个字符的第二语义类别时,具体用于:根据所述一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率,对属于相同类别的至少一个候选语义类别,分别通过所述至少一个候选语义类别各自所属的实体关系模型的实体权重,对所述至少一个候选语义类别各自的候选类别概率进行加权求和,对各个候选语义类别的候选类别概率进行更新;在获得的各个候选语义类别中,选取更新后的候选类别概率符合预设类别选取条件的一个候选语义类别,作为所述一个字符的第二语义类别。
一种可能的实现方式中,实体关系模型的实体权重是权重配置单元根据以下方法确定的:针对每个实体关系模型,分别执行以下操作:采用一个实体关系模型对预设的实体样本集中各文本样本进行实体识别,得到各文本样本的实体预测结果;所述实体样本集中包括多个文本样本和所述多个文本样本各自的实体标签;将各文本样本的实体预测结果和实体标签分别进行比较,根据比较结果确定所述一个实体关系模型的实体识别评估值;所述实体识别评估值表征所述一个实体关系模型实体识别的精确度;分别对确定的所述至少两个实体关系模型各自的实体识别评估值进行归一化,获得每个实体关系模型的实体权重。
一种可能的实现方式中,所述关系融合单元,用于针对获得的各候选关系,分别执行以下操作:将一条候选关系关联的两个候选实体,分别与各目标实体进行字符匹配,获得相应的目标实体对和匹配参数;所述匹配参数表征所述两个候选实体各自与目标实体的匹配程度;针对获得的各目标实体对,分别执行以下操作,以获得关系识别结果:当一个目标实体对关联多条候选关系时,基于每条候选关系的匹配参数,在所述多条候选关系中选取一条记录至所述关系识别结果中。
一种可能的实现方式中,所述关系融合单元将一条候选关系关联的两个候选实体,分别与各目标实体进行字符匹配,获得相应的目标实体对和匹配参数时,具体用于:针对所述一条候选关系关联的两个候选实体,分别执行以下操作:根据一个候选实体在所述待识别文本中的位置和所述一个候选实体的第一语义类别,确定与所述一个候选实体满足预设位置匹配关系,且第一语义类别相同的目标实体;对所述一个候选实体与确定的目标实体进行字符匹配,确定所述一个候选实体的字符匹配结果,所述字符匹配结果表征所述一个候选实体与所述确定的目标实体是否完全字符匹配;根据所述两个候选实体各自对应的目标实体确定所述目标实体对;根据所述两个候选实体中与各自对应的目标实体完全字符匹配的数量,确定所述一条候选关系的匹配参数。
一种可能的实现方式中,所述关系识别子结果与所述实体关系模型一一对应,每个关系识别子结果包括每两个候选实体间的候选关系及相应的候选关系概率;当一个目标实体对关联多条候选关系时,所述关系融合单元基于每条候选关系的匹配参数,在所述多条候选关系中选取一条记录至所述关系识别结果中时,具体用于:当一个目标实体对关联多条候选关系时,通过每条候选关系对应的实体关系模型的关系权重和每条候选关系的匹配参数,分别对属于相同关系的候选关系各自的候选关系概率进行加权求和,对每条候选关系的候选关系概率进行更新;在所述多条候选关系中,选取更新后的候选关系概率符合预设关系选取条件的一条候选关系,作为所述一个目标实体对的目标关系,并将所述目标关系记录至所述关系识别结果中。
一种可能的实现方式中,实体关系模型的关系权重是权重配置单元根据以下方法确定的:针对每个实体关系模型,分别执行以下操作:采用一个实体关系模型对预设的关系样本集中各文本样本进行关系识别,得到各文本样本的关系预测结果;所述关系样本集中包括多个文本样本和所述多个文本样本各自的关系标签;将各文本样本的关系预测结果和关系标签分别进行比较,根据比较结果确定所述一个实体关系模型的关系识别评估值;所述关系识别评估值表征所述一个实体关系模型关系识别的精确度;分别对确定的所述至少两个实体关系模型各自的关系识别评估值进行归一化,获得每个实体关系模型的关系权重。
第三方面,本申请实施例还提供了一种计算机设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种道路事件识别方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其包括程序代码,当程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行上述任意一种道路事件识别方法的步骤。
第五方面,本申请实施例还提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行上述任意一种道路事件识别方法的步骤。
本申请有益效果如下:
本申请实施例提供了一种道路事件识别方法、装置、设备及存储介质,该方法包括:采用至少两个实体关系模型,分别对与道路相关的待识别文本进行实体识别和关系识别,获得相应的实体识别子结果和关系识别子结果;基于与道路相关的各候选实体各自的第一语义类别,以及各自在待识别文本中的位置,获得实体识别结果;将获得的各候选实体分别与各目标实体进行字符匹配,获得关系识别结果;基于实体识别结果和关系识别结果,识别待识别文本中包含的道路事件。
本申请实施例,可以通过至少两个实体关系模型对与道路相关的待识别文本进行实体识别,得到的至少两个道路相关的实体识别子结果进行融合得到实体识别结果,由于确定实体识别结果时,可以充分利用每个实体关系模型的优点,因此相较于单一的实体关系模型得到的实体识别子结果,得到的实体识别的准确率更高。进一步地,由于得到的实体识别结果更准确,因此基于该实体识别结果对各个候选关系进行筛选,可以使得根据筛选后的候选关系确定的关系识别结果更为准确,召回率更高。基于准确率更高的实体识别结果和准确率更高的关系识别结果,识别出的道路事件的准确率就更高。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中一种应用场景的一个可选示意图;
图2为本申请实施例提供的道路事件识别方法应用的系统架构示意图;
图3为本申请实施例提供的道路事件识别方法的流程示意图;
图4为本申请实施例提供的实体关系模型的实体识别过程示意图;
图5为本申请实施例提供的实体关系模型的关系识别过程示意图;
图6为本申请实施例提供的各字符第二语义类别的识别方法的流程示意图;
图7为本申请实施例提供的各字符的候选语义类别和候选类别概率示意图;
图8为本申请实施例提供的字符匹配方法的流程示意图;
图9为本申请实施例提供的实体识别流程示意图;
图10为本申请实施例提供的关系识别流程示意图;
图11为本申请实施例提供的道路事件识别装置的结构示意图;
图12为应用本申请实施例的一种计算机设备的一个硬件组成结构示意图;
图13为应用本申请实施例的另一种计算机设备的一个硬件组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
1)实体:对于文本来说,由于语言组织形式各异,表达方式多样,文本里面提到的很多要素,如人名、手机号、组织名、地名等都称之为实体。
2)F1分数(F1 Score):是统计学中用来衡量分类模型精确度的一种指标。
下面对本申请实施例的设计思想进行简要介绍:
自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等。NLP涉及的自然语言,为人们日常使用的语言,因此该技术与语言学研究密切,但NLP并不是一般地研究自然语言,而是着力于研制能有效地实现利用自然语言通信的计算机系统的技术,因而该技术属于计算机科学的一部分。
互联网页面和社交网络包括的文本中通常蕴含丰富的道路相关信息,通过自然语言处理技术将这些文本中包括的道路相关事件识别出来,可以将这些道路相关事件作为地图领域相关数据库的有效补充,从而保证地图的实时性。目前,进行道路事件识别时,主要通过应用实体关系模型对与道路相关的文本进行实体关系抽取,得到文本中包括的实体,以及每两个实体组成的实体对之间的关系,从而根据实体和关系的组合,识别出文本中包括的道路事件。
例如,在道路开通封闭的文本内容识别场景中,可以利用实体关系模型对来自网络的文本内容进行实体关系识别,得到与道路开通封闭相关的实体和关系,从而基于得到的与道路开通封闭相关的实体和关系,将文本内容中包括的道路开通封闭的事件识别出来。
目前,实体关系模型的实现方式主要包括管道抽取(pipeline)和联合抽取(joint)两种。其中,pipeline方式是将实体抽取和实体关系抽取分开,先进行实体识别,然后将抽取的所有实体进行两两组合,进行实体关系的识别。这种方式的优点在于易于实现,且具有较高的灵活性,但由于该方式在实体识别阶段产生的错误会传递到关系识别阶段,增加了实体关系识别的错误率。
举例来说,在道路开通封闭的文本内容识别场景中,对“5月10日10:00-12:00合肥绕城金寨路收费站将封闭”这一示例文本进行实体识别时,若基于pipeline方式的实体关系模型将“金寨路”识别为一个实体,并将该实体的实体类别识别为“路”,那么在后续进行关系识别时也会将“金寨路”作为一个实体,识别其他实体与“金寨路”之间的关系,但实际上在这一示例文本中应该将“金寨路收费站”作为一个实体,且该实体的实体类别应为“收费站”,也即实体识别阶段就产生了错误,而在实体识别错误的基础上,关系的识别也不会准确。
joint方式是将实体识别和实体关系抽取在同一个模型中进行处理,同时完成实体和关系的抽取。相对于pipeline方式,joint方式可以利用两个任务中的潜在联系,一定程度上缓解误差积累的缺点。但joint方式中由于通过同样的特征表示进行实体识别和关系识别两项任务,可能会对实体关系模型的学习造成误解,导致实体和关系的识别准确率较低。
比如,通过基于joint方式的实体关系模型在对上述示例文本进行关系识别时,由于对实体关系模型的学习造成的误解,从而错误地将头实体为“12:00”和尾实体为“封闭”的实体对之间的关系识别为“开始”,但由于在上述示例文本中“12:00”为封闭的结束时间,因此该实体对的真实关系应该为“结束”。由此可见,这两种实现方式的实体关系模型对文本进行实体关系抽取时,均会出现无法准确的识别道路相关的实体或者无法准确识别实体对之间关系的情况。
由此可见,目前相关技术中通过实体关系模型进行实体关系抽取时存在准确率低的问题。而根据不准确的实体关系,无法识别出准确的道路事件,因此,相关技术中存在针对文本中包含的道路事件的识别准确率低的问题。
有鉴于此,本申请实施例提供了一种道路事件识别方法,该方法包括:采用至少两个实体关系模型,分别对采集的道路相关的待识别文本进行实体识别和关系识别,获得每个实体关系模型对应的实体识别子结果和关系识别子结果。基于获得的实体识别子结果以及待识别文本中各个字符的所在位置,确定待识别文本中包括的各个目标实体,获得实体识别结果。基于获得的实体识别结果,对获得的各候选关系中关联相同目标实体对的候选关系进行融合,获得关系识别结果。再基于实体识别结果和关系识别结果,识别待识别文本中包含的道路事件。通过上述方法,可以通过融合多种实体关系模型的方式来充分利用它们的互补性,来提高实体关系模型的整体性能,从而使得融合后的实体识别结果和关系识别结果相较于单一的实体关系模型更为准确,召回更高。通过提高基于实体识别和关系识别的准确率,就可以提高针对待识别文本中包含的道路事件的识别准确率。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1示出了其中一种应用场景,包括物理终端设备110与服务器120,物理终端设备110可以通过有线网络或无线网络,与服务器120建立通信连接。服务器120可以采集网络中与道路相关的待识别文本,并采用至少两个实体关系模型对待识别文本进行实体识别和关系识别,得到待识别文本的实体识别子结果和关系识别子结果。服务器120还可以基于通过融合实体识别子结果得到是实体识别结果和通过融合关系识别子结果得到的关系识别结果,识别待识别文本中包括的道路事件,并将该道路事件发送至物理终端设备110。物理终端设备110可以向相关人员推送该事件,以使相关人员对该道路事件进行人工作业。
例如,在道路开通封闭的文本内容识别场景中,服务器120可以采集网络中与道路相关的待识别文本,并采用至少两个实体关系模型对该待识别文本进行实体识别和关系识别,从而识别待识别文本中包括的道路开通事件或道路封闭事件。并将识别到的道路开通事件或道路封闭事件发送至相关人员的物理终端设备110,以使相关人员通过物理终端设备110对该事件进行人工作业后写入地图母库数据中。
需要说明的是,在本申请实施例中,物理终端设备110的数量可以为一个,也可以为多个,同样的,服务器120的数量也可以为一个,也可以为多个,也即本申请实施例对于物理终端设备110或者服务器120的数量并不进行限制。
其中,本申请实施例的物理终端设备110包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。图1所示的应用场景仅为示例性的,本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等,本申请对此不作限定。
本申请实施例的服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,本申请在此不做限制。
下面,结合附图对本申请各实施例中提供的方法流程,这里以服务器120来执行本申请实施例提供的道路事件识别方法为例进行介绍。
参见图2为本申请实施例提供的道路事件识别方法应用的系统架构示意图。该系统中可以包括三个实体关系模型:实体关系模型1、实体关系模型2、实体关系模型3。以该系统应用于道路开通封闭事件的文本内容识别场景为例。每个实体关系模型分别对采集的道路相关的待识别文本进行实体识别和关系识别,得到各自对应的实体识别子结果和关系识别子结果。然后通过实体融合将三个实体关系模型各自得到的实体识别子结果进行融合得到实体识别结果,同时基于得到的实体识别结果以及三个实体关系模型各自得到的关系识别子结果进行融合得到关系识别结果。最后可以基于实体识别结果和关系识别结果组合成道路开通封闭相关的事件,并将待识别文本中包括的道路开通封闭相关的事件作为系统的输出。可选的,后续还可以以待识别文本中是否包括道路开通封闭相关的事件作为判断依据,并在待识别文本中包括道路开通封闭相关的事件时,将该事件推送到作业平台,以使该事件可以经过人工作业后被写入地图母库数据中。需要说明的是,图2中所示的实体关系模型的数量以及应用场景仅为示例性的,本申请对此不作限定。
下面将结合图2所示的系统架构介绍本申请实施例提供的道路事件识别方法,参见图3为本申请实施例提供的道路事件识别方法的流程示意图,该方法的具体实施流程可以包括以下步骤301-步骤304:
步骤301:采用至少两个实体关系模型,分别执行以下操作:基于一个实体关系模型对待识别文本进行实体识别和关系识别,获得相应的实体识别子结果和关系识别子结果。
其中,至少两个实体关系模型是预先训练好的,且每个实体关系模型都可以道路相关的文本内容进行实体识别和关系识别。待识别文本可以是从网络中采集的与道路开通或封闭相关的文本内容,例如,可以是服务器通过网络从第三方应用中或网页中采集的与道路开通或封闭相关的文本内容。需要说明的是,各个实体关系模型的训练方法可以参照相关技术中的各种训练方法,本申请对此不作限定。
一种可能的实现方式中,采集待识别文本之前,可以预先根据系统中包括的实体关系模型的识别能力,设置待识别文本的字符数。然后在采用至少两个实体关系模型对待识别文本分别进行实体识别和关系识别之前,可以根据设置的待识别文本的字符数,对采集到的文本进行切分。举例来说,若设置的待识别文本的字符数为300,在网络中采集到的文本的字符数为600,则可以将采集到的文本切分为两个待识别文本,再通过步骤301-步骤304依次对两个待识别文本进行实体识别和关系识别。
如图2所示,每个实体关系模型可以得到一个对应的实体识别子结果,例如实体关系模型1可以得到实体识别子结果1,实体关系模型2可以得到实体识别子结果2,实体关系模型3可以得到实体识别子结果3,每个实体识别子结果用于表征相应实体关系模型识别到的待识别文本包含的与道路相关的各候选实体各自的第一语义类别。
其中,在待识别文本可与道路开通或封闭相关的文本内容时,与道路相关的各候选实体可以是指文本中的一些道路名、桥梁名、收费站、开通、封闭、施工、具体时间、车辆等与道路开通或封闭事件相关的单词或短语。例如候选实体可以是“青年路”、“开通”、“长江大桥”、“2022年9月7日”、“大型货车”等。第一语义类别的类别名称可以是根据经验或者实际情况预先设置的,例如,道路名的第一语义类别可以是道路,“开通”这个候选实体的第一语义类别可以为开通,对于 “2022年9月7日”这类属于具体时间的候选实体的第一语义类别则可以为时间,本申请对此不做限定。
在一些实施例中,实体识别子结果的输出形式可以是基于词的语义类别及其概率(span)形式或者基于每个字符的语义类别及其概率(BIOES)形式。示例性的,span形式的实体识别子结果可以包括至少一个候选实体,每个候选实体的第一语义类别,每个候选实体属于第一语义类别的概率以及每个候选实体在待识别文本中的位置。BIOES形式的实体识别子结果可以包括每个字符的第一语义类别,每个字符属于相应第一语义类别的概率以及每个字符在待识别文本中的位置。
参见图4为本申请实施例提供的实体关系模型的实体识别过程示意图,以图2中的实体关系模型1为例,假设实体关系模型1的输出为span形式,待识别文本为“自2022年6月10日至2022年6月25日,需对长兴路与金东路实施全封闭施工。”则实体关系模型1对待识别文本进行实体识别后获得的实体识别子结果1可以为:候选实体包括“2022年6月1”、“2022年6月25日”、“长兴路与金东路”、“封闭”、 “施工。”。其中,“2022年6月1”在待识别文本中的位置为[2,9],第一语义类别为“时间”,属于第一语义类别的概率为p1;“2022年6月25日”在待识别文本中的位置为[12,21],第一语义类别为“时间”,属于第一语义类别的概率为p2;“长兴路与金东路” 在待识别文本中的位置为 [25,31],第一语义类别为“路”,属于第一语义类别的概率为p3;“封闭”在待识别文本中的位置为 [35,36],第一语义类别为“封闭”,属于第一语义类别的概率为p4;“施工。”在待识别文本中的位置为 [37,39],第一语义类别为“施工”,属于第一语义类别的概率为p5
可选的,在实体识别子结果中,对于非候选实体,也可以将其识别为第一语义类别为非实体的候选实体。举例来说,如上述待识别文本中的“自”、“日至”、“需对”等也可以被识别为第一语义类别为非实体的候选实体,并输出各自的概率。
同理,如图2所示,每个实体关系模型可以得到一个对应的关系识别子结果,例如实体关系模型1可以得到关系识别子结果1,实体关系模型2可以得到关系识别子结果2,实体关系模型3可以得到关系识别子结果3,每个关系识别子结果表征:相应关系识别模型识别到的实体识别子结果包括的各候选实体中,每两个候选实体间的候选关系。
其中,候选关系的关系名称以及识别规则也可以是根据实际应用场景预先设置的,例如,可以设置动作与时间之间的候选关系可以为开始或结束,比如“封闭”这个候选实体属于动作,“2022年9月7日”这个候选实体属于时间,则这两个候选实体之间的候选关系可以是开始或者结束。还可以设置动作与路名之间的候选关系可以为变化,比如“封闭”这个候选实体属于动作,“天津路”这个候选实体属于路名,则这两个候选实体之间的候选关系可以是变化,本申请对此不做限定。
在一个示例中,一条候选关系关联的两个候选实体可以分别称作头候选实体和尾候选实体,头候选实体和尾候选实体互换时,关联的候选关系不变。例如,头候选实体为“封闭”,尾候选实体为“2022年9月7日”时二者之间的候选关系,与头候选实体为“2022年9月7日”,尾候选实体为“封闭”时二者之间的候选关系相同。
参见图5为本申请实施例提供的实体关系模型的关系识别过程示意图,以图2中的实体关系模型1为例,假设待识别文本为“自2022年6月10日至2022年6月25日,需对长兴路与金东路实施全封闭施工。”则实体关系模型1对待识别文本进行关系识别后获得的关系识别子结果1可以包括:头候选实体为“封闭”,尾候选实体为“2022年6月1”时候选关系为开始,概率为p1 1;头候选实体为“封闭”,尾候选实体为 “2022年6月25日”时候选关系为结束,概率为p2 1、头候选实体为“长兴路与金东路”,尾候选实体为“封闭”时候选关系为变化,概率为p3 1;头候选实体为“长兴路与金东路”,尾候选实体为“施工。”时候选关系为变化,概率为p4 1等等。需要说明的是,关系识别子结果1可以包括每两个候选实体之间的候选关系,上述关系识别子结果1中仅示出了部分候选关系,用以举例说明,对于关系识别子结果1中包括的其他候选关系在此不再赘述。
一种可能的实施方式中,采用的至少两个实体关系模型是不同的实体关系模型。其中,不同的实体关系模型的实现方式可以不同,例如在图2所示的系统架构中,实体关系模型1可以是joint式实体关系模型,实体关系模型2可以是 pipeline式实体关系模型。不同的实体关系模型的实现方式相同时,则模型的结构不同,例如,实体关系模型3可以是联合式抽取模型(Span-based Joint Entity and Relation Extraction withTransformer,SPERT)模型,该模型与实体关系模型1的实现方式相同均是joint,但与实体关系模型1的模型结构不同。本申请对采用的实体关系模型的模型结构以及实现方式不作限定。
步骤302:基于各候选实体各自的第一语义类别,以及各自在待识别文本中的位置,获得各候选实体包括的各个字符各自的第二语义类别,并将具有相同第二语义类别且相邻的各字符拼接为相应的目标实体,获得实体识别结果。
一种可能的实现方式中,在基于各候选实体各自的第一语义类别,以及各自在待识别文本中的位置,获得各候选实体包括的各个字符各自的第二语义类别时,可以针对所述待识别文本中包括的各个字符,分别执行如图6所示的流程:
步骤3021:基于一个字符在待识别文本中的位置,以及每个实体识别子结果中每个候选实体的第一语义类别及相应的第一类别概率,获得一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率。
一种可能的实现方式中,每个实体识别子结果包括实体字符和非实体字符,其中,实体字符为各候选实体包含的字符,非实体字符为各候选实体之外,且存在于待识别文本中的字符,非实体字符的候选语义类别为预设类别,候选类别概率为预设值。举例来说,在图4所示的示例中,“封闭”为实体关系子模型1识别到的一个候选实体,则其中的“封”和“闭”均可以称作实体字符。“自”未被识别为候选实体,且存在于待识别文本中,因此“自”可以称作非实体字符。应了解,预设类别和预设值可以是根据实际情况确定的,例如预设类别的名称可以为“非实体”或者“NOT”等,预设值可以为1、0.8等,本申请对此不作限定。
针对获得的至少两个实体识别子结果,分别执行以下操作:
针对一个实体识别子结果包括的各实体字符,分别执行以下操作:将一个实体字符所属的候选实体的第一语义类别和第一类别概率,作为一个实体字符的候选语义类别和候选类别概率。
举例来说,在图4所示的示例中,“长兴路与金东路”的第一语义类别为“路”,属于第一语义类别的概率为p3,则其中的“长”、“兴”、位置为27的“路”、“与”、“金”、“东”以及位置为31的“路”,每个字符的候选语义类别均为“路”,每个字符属于候选语义类别的概率均为p3
确定图4所示的待识别文本中的每个字符的候选语义类别和候选类别概率后,可以得到如图7所示的结果。在图7中为了示意不同候选语义类别,用不同底纹表示属于不同候选语义类别的字符。每个字符下方表示该子字符属于其对应的候选语义类别的候选类别概率。其中,p1 1表示识别关系子模型1中第1个字符的候选类别概率,p1 2表示识别关系子模型1中第2个字符的候选类别概率,以此类推。
步骤3022:根据一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率,结合每个实体识别子结果对应的实体关系模型的实体权重,在获得的各个候选语义类别中选取一个,作为一个字符的第二语义类别。
在一些实施例中,实体关系模型的实体权重可以是根据以下方法确定的:
针对每个实体关系模型,分别执行以下操作:采用一个实体关系模型对预设的实体样本集中各文本样本进行实体识别,得到各文本样本的实体预测结果。将各文本样本的实体预测结果和实体标签分别进行比较,根据比较结果确定一个实体关系模型的实体识别评估值。其中,实体样本集中包括多个文本样本和多个文本样本各自的实体标签。实体识别评估值表征一个实体关系模型对相应文本样本进行实体识别的精确度。然后可以对确定的各实体关系模型的实体识别评估值进行归一化,以使至少两个实体关系模型的实体权重的和为1,获得每个实体关系模型的实体权重。
在一个示例中,实体关系模型的实体权重可以用于衡量该实体关系模型的实体识别子结果的可信度,实体权重越大表示该实体关系模型的实体识别子结果的可信度越高。为了使实体关系模型的实体权重更加准确,预设的实体样本集中包括的文本样本的数量可以大于3000个,实体样本集包括的文本样本可以囊括相应文本识别场景下的各种情况,且每个文本样本的实体标签都很信任。在此基础上,采用至少两个实体关系模型中的每个实体关系模型对预设的实体样本集进行实体识别,分别得到每个实体关系模型对各文本样本的实体预测结果。
在一些实施例中,实体识别评估值可以用F1分数表示,满足以下公式(1)。
公式(1)
式中,表示第i个实体关系模型的F1分数也即实体识别评估值,precision为精确率,表示对于任一实体标签对应的语义类别,实体标签与第i个实体关系模型得到的实体预测结果一致的文本样本占实体预测结果均为该语义类别的文本样本的比例,recall为召回率,表示对于任一实体标签,实体标签与实体预测结果一致的文本样本占实体标签为该语义类别的文本样本的比例。
然后,利用softmax公式将每个实体关系模型的F1分数转化为各自模型的权重,满足公式(2)。
公式(2)
式中,ai表示第i个实体关系模型的实体权重,exp(fi)表示以e为底fi为指数的幂,j表示系统中包括的实体关系模型的数量。
需要说明的是,实体识别评估值还可以为其他统计指标,本申请对此不作限定。
在确定了每个实体关系模型的实体权重后,步骤3022可以执行为:根据一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率,对属于相同类别的至少一个候选语义类别,分别通过至少一个候选语义类别各自所属的实体关系模型的实体权重,对至少一个候选语义类别各自的候选类别概率进行加权求和,对各个候选语义类别的候选类别概率进行更新,满足公式(3)。然后在获得的各个候选语义类别中,选取更新后的候选类别概率符合预设类别选取条件的一个候选语义类别,作为一个字符的第二语义类别。
公式(3)
式中,pn表示待识别文本中第n个字符属于所在语义类别的概率,表示在第i个实体关系模型得到的实体识别子结果中属于该语义类别的概率。
举例来说,假设对于待识别文本中的一个字符“兴”,在实体识别子结果1中属于候选语义类别A,且概率0.7,实体关系模型1的权重为0.3;在实体识别子结果2中属于候选语义类别B,且概率0.6,实体关系模型2的权重为0.3;在实体识别子结果3中属于候选语义类别A,且概率0.8,实体关系模型3的权重为0.4。则“兴”属于A的概率为0.7*0.3+0.8*0.4=0.53,“兴”属于B的概率为0.6*0.3=0.18。由于0.53大于0.18,因此字符“兴”的第二语义类别为A。
一种可能的实现方式中,针对各个实体关系模型还可以设置每个实体关系模型的超参数,用于衡量每个实体关系模型的权重的重要程度,权重越重要,/>越大,如以下公式(4)所示:
公式(4)
其中,可以根据实体关系模型的选取进行设置,例如可以为1、2等正整数,本申请以/>取1为例进行说明,但本申请对/>的取值不作限定。
在确定每个字符的第二语义类别后,将具有相同第二语义类别且相邻的各字符拼接为相应的目标实体,并将该目标实体中各个字符的第二语义类别作为该目标实体的语义类别,从而获得实体识别结果。举例来说,若确定待识别文本“自2022年6月10日至2022年6月25日,需对长兴路与金东路实施全封闭施工。”中“自”的第二语义类别为非实体,“2”、“0”、“2”、“2”、“年”、“6”、“月”、“1”、“0”、“日”的第二语义类别均为“时间”,“至”的第二语义类别为非实体,则将“2022年6月10日”拼接为一个目标实体,并确定该目标实体的语义类别为时间。再比如,这句话中“封”和“闭”的第二语义类别为封闭,“施”和“工”的第二语义类别为施工,则可以确定“封闭”是一个语义类别为封闭的目标实体,“施工”为一个语义类别为施工的目标实体。该待识别文本中包括的其他目标实体的确定过程可以以此类推,在此不再赘述。
步骤303:将获得的各候选实体分别与各目标实体进行字符匹配,确定各候选关系关联的目标实体对,并在关联相同目标实体对的各候选关系中选取一条记录至关系识别结果中,获得关系识别结果。
一种可能的方式中,服务器将获得的各候选实体分别与各目标实体进行字符匹配,确定各候选关系关联的目标实体对时,可以针对获得的各候选关系,分别执行以下操作:将一条候选关系关联的两个候选实体,分别与各目标实体进行字符匹配,获得相应的目标实体对和匹配参数。其中,匹配参数表征两个候选实体各自与目标实体的匹配程度,目标实体对包括头实体和尾实体。
由于每个实体关系模型的关系识别子结果都是基于自身的实体识别子结果得到的,因此各候选关系关联的候选实体可能与得到的实体识别结果中包括的目标实体不一致。对于这种情况,就需要将各个实体关系模型各自得到的候选实体和目标实体进行字符匹配,从而确定各条候选关系对应的目标实体对。
具体的,将一条候选关系关联的两个候选实体,分别与各目标实体进行字符匹配,获得相应的目标实体对和匹配参数时,服务器可以执行如图8所示的流程,该流程包括步骤3031-步骤3033:
步骤3031:针对一条候选关系关联的两个候选实体,分别执行以下操作:根据一个候选实体在待识别文本中的位置和一个候选实体的第一语义类别,确定与一个候选实体满足预设位置匹配关系,且第一语义类别相同的目标实体。对一个候选实体与确定的目标实体进行字符匹配,确定一个候选实体的字符匹配结果。
其中,字符匹配结果表征一个候选实体与确定的目标实体是否完全字符匹配,预设位置匹配关系可以指目标实体在待识别文本中的位置与候选实体在待识别文本中的位置存在交集或者说存在包含的关系。
比如在图4所示的示例中,实体识别子结果1中的候选实体为“封闭”,但在实体识别结果中在位置上与“封闭”存在交集的目标实体为“全封闭”,且语义类别相同均为封闭,因此可以确定“封闭”对应的目标实体为“全封闭”。再比如,实体识别子结果1中的候选实体为“长兴路与金东路”,但在实体识别结果中在位置上与“长兴路与金东路”存在包含关系的目标实体为“长兴路”和“金东路”,且语义类别相同均为路。这种情况,可以预先设置按照位置从前到后的顺序选取目标实体,由于“长兴路”在待识别文本中的位置位于“金东路”之前,因此可以确定候选实体“长兴路与金东路”对应的目标实体为“长兴路”。应了解,可以根据实际情况选取候选实体对应的目标实体,例如也可以按照位置从后到前的顺序选取目标实体,本申请对此不作限定。
一种可能的实现方式中,一个候选实体与确定的目标实体之间的字符匹配结果可以是通过该候选实体与确定的目标实体之间的位置匹配确定的。在候选实体在待识别文本中的位置与目标实体在待识别文本中的位置完全重合时,确定该候选实体与确定的目标实体完全字符匹配。否则,则确定该候选实体与确定的目标实体不能完全字符匹配。
步骤3032:根据两个候选实体各自对应的目标实体确定目标实体对。
其中,目标实体对可以包括头实体和尾实体。
步骤3033:根据两个候选实体中与各自对应的目标实体完全字符匹配的数量,确定一条候选关系的匹配参数。
其中,两个候选实体中与各自对应的目标实体完全字符匹配的数量与匹配参数呈负相关,且匹配参数为正整数。
在一个示例中,若两个候选实体均能与各自对应的目标实体完全字符匹配,则匹配参数可以取1。若两个候选实体中有一个可以与对应的目标实体完全字符匹配,则匹配参数可以取2。若两个候选实体均不能与各自对应的目标实体完全字符匹配,则匹配参数可以取3。
举例来说,对于头候选实体为“封闭”,尾候选实体为“2022年6月1”的候选关系,步骤3031可以确定“封闭”对应的目标实体为“全封闭”,“2022年6月1”对应的目标实体为“2022年6月10日”,由于头候选实体和尾候选实体均不能与各自对应的目标实体完全字符匹配,则该条候选关系的匹配参数则可以为3。
需要说明的是,上述匹配参数的取值方法仅为示例性的,匹配参数的取值可以根据实际情况进行设置,本申请对此不作限定。
基于上述方法,通过实体识别结果可以对各个关系识别子结果中包括的候选关系进行过滤,来去除不属于目标实体关联的关系,从而使得到的关系识别结果更为准确。
一种可能的实现方式中,服务器在关联相同目标实体对的各候选关系中选取一条记录至关系识别结果中,获得关系识别结果时,可以针对获得的各目标实体对,分别执行以下操作,以获得关系识别结果:当一个目标实体对关联多条候选关系时,基于每条候选关系的匹配参数,在多条候选关系中选取一条记录至关系识别结果中。
一种可能的实施方式中,当一个目标实体对关联多条候选关系时,基于每条候选关系的匹配参数,在多条候选关系中选取一条记录至关系识别结果中时,服务器可以通过每条候选关系对应的实体关系模型的关系权重和每条候选关系的匹配参数,分别对属于相同关系的候选关系各自的候选关系概率进行加权求和,对每条候选关系的候选关系概率进行更新。然后可以在多条候选关系中,选取更新后的候选关系概率符合预设关系选取条件的一条候选关系,作为一个目标实体对的目标关系,并将目标关系记录至关系识别结果中。
需要说明的是,预设关系选取条件可以是根据经验或情况预设的
在一些实施例中,实体关系模型的关系权重是根据以下方法确定的:
针对每个实体关系模型,分别执行以下操作:采用一个实体关系模型对预设的关系样本集中各文本样本进行关系识别,得到各文本样本的关系预测结果。关系样本集中包括多个文本样本和多个文本样本各自的关系标签。将各文本样本的关系预测结果和关系标签分别进行比较,根据比较结果确定一个实体关系模型的关系识别评估值。关系识别评估值表征一个实体关系模型关系识别的精确度。然后分别对确定的至少两个实体关系模型各自的关系识别评估值进行归一化,获得每个实体关系模型的关系权重。
其中,预设的关系样本集中包括的文本样本可以与预设的实体样本集中包括的文本样本相同,也可以不同,本申请对此不作限定。
在一些实施例中,关系识别评估值也可以用F1分数表示,F1分数可以参见公式(1)所示,根据各文本样本的关系标签和相应实体关系模型得到的各文本样本的关系预测结果的比较结果确定公式(1)中的precision和recall,即可得到每个实体关系模型的关系识别评估值li,在此不再赘述。
得到各实体关系模型的F1分数后,可以利用softmax公式将每个实体关系模型的F1分数转化为各自模型的权重,满足公式(5)。
公式(5)
式中,bi表示第i个实体关系模型的关系权重,li表示第i个实体关系模型的关系识别评估值,j表示系统中包括的实体关系模型的数量。
需要说明的是,关系识别评估值还可以为其他统计指标,本申请对此不作限定。
在确定各个实体关系模型的关系权重后,可以结合每条候选关系的匹配参数,分别对属于相同关系的候选关系各自的候选关系概率进行加权求和,对每条候选关系的候选关系概率进行更新,更新后的候选关系概率满足公式(6)。
公式(6)
式中,pm表示第m条候选关系的候选关系概率,表示第i个实体关系模型中第m条候选关系的匹配参数。
然后可以在多条候选关系中,选取更新后的候选关系概率中最大的一条候选关系,作为一个目标实体对的目标关系,并将该候选关系概率作为目标关系概率,最后将目标关系和对应的目标关系概率记录至关系识别结果中。
举例来说,假设实体关系模型1的关系权重为0.3,实体关系模型2的关系权重为0.5,实体关系模型3的关系权重为0.2。并且在关系识别子结果1中可以得到“长兴路与金东路”和“封闭”之间的候选关系为变化,候选关系概率为0.8;关系识别子结果2中可以得到“长兴路”和“全封闭”之间的候选关系为变化,候选关系概率为0.7;关系识别子结果3中可以得到“兴路”和“施全封闭”之间的候选关系为变化,候选关系概率为0.8。由于在实体识别结果中相应的目标实体为“长兴路”和“全封闭”, 而“长兴路与金东路”和“封闭”这条候选关系中的候选实体与目标实体均不匹配,因此匹配参数为3。“长兴路”和“全封闭”这条候选关系中的候选实体与目标实体均匹配,因此匹配参数为1。“兴路”和“施全封闭”这条候选关系中的候选实体与目标实体均不匹配,因此匹配参数为3。因此可以得到“长兴路”和“全封闭”这个目标实体对更新后的候选关系概率为p1=0.83*0.3+0.71*0.5+0.83*0.2=0.606。并且这个目标实体对的候选关系均为变化,因此可以确定“长兴路”和“全封闭”这个目标实体对目标关系为变化,目标关系概率为0.606,并将这一目标关系记录在关系识别结果中。
步骤304:基于实体识别结果和关系识别结果,识别待识别文本中包含的道路事件。
服务器可以将步骤302得到的实体识别结果与步骤303得到的关系识别结果进行组合,从而识别待识别文本中包含的道路事件。
举例来说,对于待识别文本“自2022年6月10日至2022年6月25日,需对长江大桥实施全封闭施工。”实体识别结果中的目标实体包括“2022年6月10日”、“2022年6月25日”“长江大桥”、“实施”、“全封闭”、“施工”,关系识别结果中包括:“2022年6月10日”与“全封闭”之间的目标关系为开始,“2022年6月25日”2022年6月25日与“全封闭”之间的目标关系为结束等。则通过实体识别结果与关系识别结果的组合可以识别出长江大桥将要进行全封闭施工,且全封闭的开始时间为2022年6月10日,全封闭的结束时间为2022年6月25日。
一种可能的实现方式中,服务器在识别到待识别文本中包含道路事件时,可以将该道路事件和待识别文本发送至作业平台或相关人员的物理终端,以使相关人员对识别到的道路事件进行人工作业,写入地图母库数据中。
通过上述方法,本申请实施例可以通过融合多种实体关系模型的输出结果的方式可以充分利用多种实体关系模型各自的优点,达到互补的效果,从而使得融合后的实体识别结果和关系识别结果相较于单一的实体关系模型得到的实体识别子结果和关系识别子结果更为准确,召回更高。由于实体识别结果和关系识别结果更加准确,因此基于该实体识别结果和关系识别结果得到的道路事件就更为准确。在此基础上,事件识别准确率的提高,还可以减少相关人员将道路事件写入地图母库数据时进行人为修改的工作量,从而提高相关人员的作业效率。
下面,为了能够更加清晰地理解本申请实施例提出的方案,将结合具体地实施例对本申请提供的一种道路事件识别方法进行介绍。
参见图9为本申请实施例提供的实体识别流程示意图。在道路开通封闭的文本内容识别场景中,服务器从网络中采集到一条道路相关的待识别文本:“自2022年6月10日至2022年6月25日,需对长兴路与金东路实施全封闭施工。”并将该待识别文本输入如图4所示的系统架构中。实体关系模型1、实体关系模型2、实体关系模型3的实体权重分别为。实体关系模型1对该待识别文本进行实体识别后,可以分别确定每个字符的候选语义类别,以及属于该候选语义类别的概率/>。同理,实体关系模型1对该待识别文本进行实体识别后,可以分别确定每个字符的候选语义类别,以及属于该候选语义类别的概率/>。实体关系模型3对该待识别文本进行实体识别后,可以分别确定每个字符的候选语义类别,以及属于该候选语义类别的概率/>。应了解,在图9中分别用不同的底纹表示字符的不同语义类别,用空白底纹表示非实体,用斜纹表示时间,用竖纹表示路,用横纹表示封闭,用交叉纹理表示施工。
在确定待识别文本的每个字符在每个实体识别结果中的候选语义类别以及候选类别概率后,可以通过公式(7)对每个字符进行字符级别的实体融合,从而得到每个字符的第二语义类别。再将属于相同第二语义类别的字符进行拼接后可以输出实体识别结果。
公式(7)
在本申请实施例中输出的实体识别结果,包括的目标实体为“2022年6月10日”、“2022年6月25日”、“长兴路”、“金东路”、“全封闭”、“施工”。其中,“2022年6月10日”、“2022年6月25日”的语义类别为时间,“长兴路”、“金东路”的语义类别为路,“全封闭”的语义类别为封闭,“施工”的语义类别为施工。
参见图10为本申请实施例提供的关系识别流程示意图,在待识别文本分别输入实体关系模型1、实体关系模型2、实体关系模型3后,三个实体关系模型还可以分别对待识别文本进行关系识别,得到关系识别子结果1、关系识别子结果2、关系识别子结果3。关系权重分别为。服务器可以基于实体识别结果对关系识别子结果1、关系识别子结果2和关系识别子结果3进行关系融合,从而得到关系识别结果。
具体的,服务器可以将每个关系识别子结果中每条候选关系关联的头候选实体和尾候选实体分别与实体识别结果包括的目标实体进行匹配,确定头候选实体对应的头实体,尾候选实体对应的尾实体,从而得到每条候选关系关联的目标实体对,以及该条候选关系的匹配参数。具体方法可以参见图8所示的方法实施例,在此不再赘述。
对于关联同一目标实体对的多条候选关系可以通过公式(8)进行关系融合,确定实体识别结果中每两个目标实体间的目标关系和目标关系概率,从而得到关系识别结果。
公式(8)
需要说明的,是图10中仅示出了部分候选关系。
一种可能的实现方式中,根据图9得到的实体识别结果和图10得到的关系识别结果,可以从待识别文本:“自2022年6月10日至2022年6月25日,需对长兴路与金东路实施全封闭施工。”中获得2022年6月10日至2022年6月25日,长兴路与金东路实施全封闭施工的道路封闭事件。从而可以确定待识别文本中包括道路开通封闭相关事件,并将待识别文本以及获得的道路封闭事件推送到相关作业平台或相关人员的物理终端设备,以使相关人员将该道路封闭事件写入地图母库数据。
与上述方法实施例基于同一发明构思,本申请实施例还提供了一种道路事件识别装置。如图11所示道路事件识别装置1100可以包括:模型识别单元1101、实体融合单元1102、关系融合单元1103、道路事件识别单元1104和权重配置单元1105。
模型识别单元1101,用于采用至少两个实体关系模型,分别执行以下操作:基于一个实体关系模型对待识别文本进行实体识别和关系识别,获得相应的实体识别子结果和关系识别子结果;所述待识别文本为采集的与道路相关的文本内容;所述实体识别子结果表征:所述待识别文本包含的各候选实体各自的第一语义类别;所述关系识别子结果表征:每两个候选实体间的候选关系;
实体融合单元1102,用于基于所述各候选实体各自的第一语义类别,以及各自在所述待识别文本中的位置,获得所述各候选实体包括的各个字符各自的第二语义类别,并将具有相同第二语义类别且相邻的各字符拼接为相应的目标实体,获得实体识别结果;
关系融合单元1103,用于将获得的各候选实体分别与各目标实体进行字符匹配,确定各候选关系关联的目标实体对,并在关联相同目标实体对的各候选关系中选取一条记录至关系识别结果中,获得关系识别结果;
道路事件识别单元1104,用于基于所述实体识别结果和所述关系识别结果,识别所述待识别文本中包含的道路事件。
一种可能的实现方式中,所述实体识别子结果与所述实体关系模型一一对应,每个实体识别子结果包括至少一个候选实体,每个候选实体的第一语义类别及相应的第一类别概率;所述实体融合单元1102基于所述各候选实体各自的第一语义类别,以及各自在所述待识别文本中的位置,获得所述各候选实体包括的各个字符各自的第二语义类别时,具体用于:针对所述待识别文本中包括的各个字符,分别执行以下操作:基于一个字符在所述待识别文本中的位置,以及每个实体识别子结果中每个候选实体的第一语义类别及相应的第一类别概率,获得所述一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率;根据所述一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率,结合每个实体识别子结果对应的实体关系模型的实体权重,在获得的各个候选语义类别中选取一个,作为所述一个字符的第二语义类别。
一种可能的实现方式中,每个实体识别子结果包括实体字符和非实体字符,其中,所述实体字符为各候选实体包含的字符,所述非实体字符为各候选实体之外,且存在于所述待识别文本中的字符,所述非实体字符的候选语义类别为预设类别,候选类别概率为预设值;所述实体融合单元1102基于一个字符在待识别文本中的位置,以及每个实体识别子结果中每个候选实体的第一语义类别及相应的第一类别概率,确定所述一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率时,具体用于:针对获得的至少两个实体识别子结果,分别执行以下操作:针对一个实体识别子结果包括的各实体字符,分别执行以下操作:将一个实体字符所属的候选实体的第一语义类别和第一类别概率,作为所述一个实体字符的候选语义类别和候选类别概率。
一种可能的实现方式中,所述实体融合单元1102根据所述一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率,结合每个实体识别子结果对应的实体关系模型的实体权重,在获得的各个候选语义类别中选取一个,作为所述一个字符的第二语义类别时,具体用于:根据所述一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率,对属于相同类别的至少一个候选语义类别,分别通过所述至少一个候选语义类别各自所属的实体关系模型的实体权重,对所述至少一个候选语义类别各自的候选类别概率进行加权求和,对各个候选语义类别的候选类别概率进行更新;在获得的各个候选语义类别中,选取更新后的候选类别概率符合预设类别选取条件的一个候选语义类别,作为所述一个字符的第二语义类别。
一种可能的实现方式中,实体关系模型的实体权重是权重配置单元1105根据以下方法确定的:针对每个实体关系模型,分别执行以下操作:采用一个实体关系模型对预设的实体样本集中各文本样本进行实体识别,得到各文本样本的实体预测结果;所述实体样本集中包括多个文本样本和所述多个文本样本各自的实体标签;将各文本样本的实体预测结果和实体标签分别进行比较,根据比较结果确定所述一个实体关系模型的实体识别评估值;所述实体识别评估值表征所述一个实体关系模型实体识别的精确度;分别对确定的所述至少两个实体关系模型各自的实体识别评估值进行归一化,获得每个实体关系模型的实体权重。
一种可能的实现方式中,所述关系融合单元1103,用于针对获得的各候选关系,分别执行以下操作:将一条候选关系关联的两个候选实体,分别与各目标实体进行字符匹配,获得相应的目标实体对和匹配参数;所述匹配参数表征所述两个候选实体各自与目标实体的匹配程度;针对获得的各目标实体对,分别执行以下操作,以获得关系识别结果:当一个目标实体对关联多条候选关系时,基于每条候选关系的匹配参数,在所述多条候选关系中选取一条记录至所述关系识别结果中。
一种可能的实现方式中,所述关系融合单元1103将一条候选关系关联的两个候选实体,分别与各目标实体进行字符匹配,获得相应的目标实体对和匹配参数时,具体用于:针对所述一条候选关系关联的两个候选实体,分别执行以下操作:根据一个候选实体在所述待识别文本中的位置和所述一个候选实体的第一语义类别,确定与所述一个候选实体满足预设位置匹配关系,且第一语义类别相同的目标实体;对所述一个候选实体与确定的目标实体进行字符匹配,确定所述一个候选实体的字符匹配结果,所述字符匹配结果表征所述一个候选实体与所述确定的目标实体是否完全字符匹配;根据所述两个候选实体各自对应的目标实体确定所述目标实体对;根据所述两个候选实体中与各自对应的目标实体完全字符匹配的数量,确定所述一条候选关系的匹配参数。
一种可能的实现方式中,所述关系识别子结果与所述实体关系模型一一对应,每个关系识别子结果包括每两个候选实体间的候选关系及相应的候选关系概率;当一个目标实体对关联多条候选关系时,所述关系融合单元1103基于每条候选关系的匹配参数,在所述多条候选关系中选取一条记录至所述关系识别结果中时,具体用于:当一个目标实体对关联多条候选关系时,通过每条候选关系对应的实体关系模型的关系权重和每条候选关系的匹配参数,分别对属于相同关系的候选关系各自的候选关系概率进行加权求和,对每条候选关系的候选关系概率进行更新;在所述多条候选关系中,选取更新后的候选关系概率符合预设关系选取条件的一条候选关系,作为所述一个目标实体对的目标关系,并将所述目标关系记录至所述关系识别结果中。
一种可能的实现方式中,实体关系模型的关系权重是权重配置单元1105根据以下方法确定的:针对每个实体关系模型,分别执行以下操作:采用一个实体关系模型对预设的关系样本集中各文本样本进行关系识别,得到各文本样本的关系预测结果;所述关系样本集中包括多个文本样本和所述多个文本样本各自的关系标签;将各文本样本的关系预测结果和关系标签分别进行比较,根据比较结果确定所述一个实体关系模型的关系识别评估值;所述关系识别评估值表征所述一个实体关系模型关系识别的精确度;分别对确定的所述至少两个实体关系模型各自的关系识别评估值进行归一化,获得每个实体关系模型的关系权重。
为了描述的方便,以上各部分按照功能划分为各单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件或硬件中实现。
在介绍了本申请示例性实施方式的道路事件识别方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的计算机设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种计算机设备。在一种实施例中,该计算机设备可以是服务器,如图1所示的服务器120。在该实施例中,计算机设备1200的结构如图12所示,可以至少包括存储器1201、通讯模块1203,以及至少一个处理器1202。
存储器1201,用于存储处理器1202执行的计算机程序。存储器1201可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器1201可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1201也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器1201是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。存储器1201可以是上述存储器的组合。
处理器1202,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器1202,用于调用存储器1201中存储的计算机程序时实现上述道路事件识别方法。
通讯模块1203用于与物理终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器1201、通讯模块1203和处理器1202之间的具体连接介质。本申请实施例在图12中以存储器1201和处理器1202之间通过总线1204连接,总线1204在图12中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1204可以分为地址总线、数据总线、控制总线等。为便于描述,图12中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
存储器1201中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的道路事件识别方法。处理器1202用于执行上述的道路事件识别方法,如图3所示。
在另一种实施例中,计算机设备也可以是其他计算机设备,如图1所示的物理终端设备110。在该实施例中,计算机设备的结构可以如图13所示,包括:通信组件1310、存储器1320、显示单元1330、摄像头1340、传感器1350、音频电路1360、蓝牙模块1370、处理器1380等部件。
通信组件1310用于与服务器进行通信。在一些实施例中,可以包括电路无线保真(Wireless Fidelity,WiFi)模块,WiFi模块属于短距离无线传输技术,电子设备通过WiFi模块可以帮助对象收发信息。
存储器1320可用于存储软件程序及数据。处理器1380通过运行存储在存储器1320的软件程序或数据,从而执行物理终端设备110的各种功能以及数据处理。存储器1320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1320存储有使得物理终端设备110能运行的操作系统。本申请中存储器1320可以存储操作系统及各种应用程序,还可以存储执行本申请实施例道路事件识别方法的计算机程序。
显示单元1330还可用于显示由对象输入的信息或提供给对象的信息以及物理终端设备110的各种菜单的图形用户界面(graphical user interface,GUI)。具体地,显示单元1330可以包括设置在物理终端设备110正面的显示屏1332。其中,显示屏1332可以采用液晶显示器、发光二极管等形式来配置。
显示单元1330还可用于接收输入的数字或字符信息,产生与物理终端设备110的对象设置以及功能控制有关的信号输入,具体地,显示单元1330可以包括设置在物理终端设备110正面的触控屏1331,可收集对象在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。
其中,触控屏1331可以覆盖在显示屏1332之上,也可以将触控屏1331与显示屏1332集成而实现物理终端设备110的输入和输出功能,集成后可以简称触摸显示屏。本申请中显示单元1330可以显示应用程序以及对应的操作步骤。
摄像头1340可用于捕获静态图像,对象可以将摄像头1340拍摄的图像通过应用发布。摄像头1340可以是一个,也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器1380转换成数字图像信号。
物理终端设备还可以包括至少一种传感器1350,比如加速度传感器1351、距离传感器1352、指纹传感器1353、温度传感器1354。物理终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。
音频电路1360、扬声器1361、传声器1362可提供对象与物理终端设备110之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号,传输到扬声器1361,由扬声器1361转换为声音信号输出。物理终端设备110还可配置音量按钮,用于调节声音信号的音量。另一方面,传声器1362将收集的声音信号转换为电信号,由音频电路1360接收后转换为音频数据,再将音频数据输出至通信组件1310以发送给比如另一物理终端设备110,或者将音频数据输出至存储器1320以便进一步处理。
蓝牙模块1370用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如,物理终端设备可以通过蓝牙模块1370与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接,从而进行数据交互。
处理器1380是物理终端设备的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器1320内的软件程序,以及调用存储在存储器1320内的数据,执行物理终端设备的各种功能和处理数据。在一些实施例中,处理器1380可包括一个或多个处理单元;处理器1380还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器1380中。本申请中处理器1380可以运行操作系统、应用程序、用户界面显示及触控响应,以及本申请实施例的道路事件识别方法。另外,处理器1380与显示单元1330耦接。
此外需要注意的是,在本申请的具体实施方式中,涉及到与道路事件识别等相关的对象数据,当本申请以上实施例运用到具体产品或技术中时,需要获得对象许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在一些可能的实施方式中,本申请提供的道路事件识别方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在计算机设备上运行时,计算机程序用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的道路事件识别方法中的步骤,例如,计算机设备可以执行如图3中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体地例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在用户计算机设备上执行、部分地在用户计算机设备上执行、作为一个独立的软件包执行、部分在用户计算机设备上部分在远程计算机设备上执行、或者完全在远程计算机设备上执行。在涉及远程计算机设备的情形中,远程计算机设备可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机设备,或者,可以连接到外部计算机设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序命令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序命令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的命令产生包括命令装置的制造品,该命令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序命令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的命令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种道路事件识别方法,其特征在于,包括:
采用至少两个实体关系模型,分别执行以下操作:基于一个实体关系模型对待识别文本进行实体识别和关系识别,获得相应的实体识别子结果和关系识别子结果;所述待识别文本为采集的与道路相关的文本内容;所述实体识别子结果表征:所述待识别文本包含的与道路相关的各候选实体各自的第一语义类别;所述关系识别子结果表征:每两个候选实体间的候选关系;
基于所述各候选实体各自的第一语义类别,以及各自在所述待识别文本中的位置,获得所述各候选实体包括的各个字符各自的第二语义类别,并将具有相同第二语义类别且相邻的各字符拼接为相应的目标实体,获得实体识别结果;
将获得的各候选实体分别与各目标实体进行字符匹配,确定各候选关系关联的目标实体对,并在关联相同目标实体对的各候选关系中选取一条记录至关系识别结果中,获得关系识别结果;
基于所述实体识别结果和所述关系识别结果,识别所述待识别文本中包含的道路事件。
2.根据权利要求1所述的方法,其特征在于,所述实体识别子结果与所述实体关系模型一一对应,每个实体识别子结果包括至少一个候选实体,每个候选实体的第一语义类别及相应的第一类别概率;
所述基于所述各候选实体各自的第一语义类别,以及各自在所述待识别文本中的位置,获得所述各候选实体包括的各个字符各自的第二语义类别,包括:
针对所述待识别文本中包括的各个字符,分别执行以下操作:
基于一个字符在所述待识别文本中的位置,以及每个实体识别子结果中每个候选实体的第一语义类别及相应的第一类别概率,获得所述一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率;
根据所述一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率,结合每个实体识别子结果对应的实体关系模型的实体权重,在获得的各个候选语义类别中选取一个,作为所述一个字符的第二语义类别。
3.根据权利要求2所述的方法,其特征在于,每个实体识别子结果包括实体字符和非实体字符,其中,所述实体字符为各候选实体包含的字符,所述非实体字符为各候选实体之外,且存在于所述待识别文本中的字符,所述非实体字符的候选语义类别为预设类别,候选类别概率为预设值;
所述基于一个字符在待识别文本中的位置,以及每个实体识别子结果中每个候选实体的第一语义类别及相应的第一类别概率,确定所述一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率,包括:
针对获得的至少两个实体识别子结果,分别执行以下操作:
针对一个实体识别子结果包括的各实体字符,分别执行以下操作:将一个实体字符所属的候选实体的第一语义类别和第一类别概率,作为所述一个实体字符的候选语义类别和候选类别概率。
4.根据权利要求2所述的方法,其特征在于,所述根据所述一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率,结合每个实体识别子结果对应的实体关系模型的实体权重,在获得的各个候选语义类别中选取一个,作为所述一个字符的第二语义类别,包括:
根据所述一个字符在每个实体识别子结果中的候选语义类别及相应的候选类别概率,对属于相同类别的至少一个候选语义类别,分别通过所述至少一个候选语义类别各自所属的实体关系模型的实体权重,对所述至少一个候选语义类别各自的候选类别概率进行加权求和,对各个候选语义类别的候选类别概率进行更新;
在获得的各个候选语义类别中,选取更新后的候选类别概率符合预设类别选取条件的一个候选语义类别,作为所述一个字符的第二语义类别。
5.根据权利要求2-4中任一项所述的方法,其特征在于,实体关系模型的实体权重是根据以下方法确定的:
针对每个实体关系模型,分别执行以下操作:
采用一个实体关系模型对预设的实体样本集中各文本样本进行实体识别,得到各文本样本的实体预测结果;所述实体样本集中包括多个文本样本和所述多个文本样本各自的实体标签;
将各文本样本的实体预测结果和实体标签分别进行比较,根据比较结果确定所述一个实体关系模型的实体识别评估值;所述实体识别评估值表征所述一个实体关系模型实体识别的精确度;
分别对确定的所述至少两个实体关系模型各自的实体识别评估值进行归一化,获得每个实体关系模型的实体权重。
6.根据权利要求1-4中任一项所述的方法,其特征在于,所述将获得的各候选实体分别与各目标实体进行字符匹配,确定各候选关系关联的目标实体对,并在关联相同目标实体对的各候选关系中选取一条记录至关系识别结果中,获得关系识别结果,包括:
针对获得的各候选关系,分别执行以下操作:将一条候选关系关联的两个候选实体,分别与各目标实体进行字符匹配,获得相应的目标实体对和匹配参数;所述匹配参数表征所述两个候选实体各自与目标实体的匹配程度;
针对获得的各目标实体对,分别执行以下操作,以获得关系识别结果:当一个目标实体对关联多条候选关系时,基于每条候选关系的匹配参数,在所述多条候选关系中选取一条记录至所述关系识别结果中。
7.根据权利要求6所述的方法,其特征在于,所述将一条候选关系关联的两个候选实体,分别与各目标实体进行字符匹配,获得相应的目标实体对和匹配参数,包括:
针对所述一条候选关系关联的两个候选实体,分别执行以下操作:根据一个候选实体在所述待识别文本中的位置和所述一个候选实体的第一语义类别,确定与所述一个候选实体满足预设位置匹配关系,且第一语义类别相同的目标实体;对所述一个候选实体与确定的目标实体进行字符匹配,确定所述一个候选实体的字符匹配结果,所述字符匹配结果表征所述一个候选实体与所述确定的目标实体是否完全字符匹配;
根据所述两个候选实体各自对应的目标实体确定所述目标实体对;
根据所述两个候选实体中与各自对应的目标实体完全字符匹配的数量,确定所述一条候选关系的匹配参数。
8.根据权利要求7所述的方法,其特征在于,所述关系识别子结果与所述实体关系模型一一对应,每个关系识别子结果包括每两个候选实体间的候选关系及相应的候选关系概率;
所述当一个目标实体对关联多条候选关系时,基于每条候选关系的匹配参数,在所述多条候选关系中选取一条记录至所述关系识别结果中,包括:
当一个目标实体对关联多条候选关系时,通过每条候选关系对应的实体关系模型的关系权重和每条候选关系的匹配参数,分别对属于相同关系的候选关系各自的候选关系概率进行加权求和,对每条候选关系的候选关系概率进行更新;
在所述多条候选关系中,选取更新后的候选关系概率符合预设关系选取条件的一条候选关系,作为所述一个目标实体对的目标关系,并将所述目标关系记录至所述关系识别结果中。
9.根据权利要求8所述的方法,其特征在于,实体关系模型的关系权重是根据以下方法确定的:
针对每个实体关系模型,分别执行以下操作:
采用一个实体关系模型对预设的关系样本集中各文本样本进行关系识别,得到各文本样本的关系预测结果;所述关系样本集中包括多个文本样本和所述多个文本样本各自的关系标签;
将各文本样本的关系预测结果和关系标签分别进行比较,根据比较结果确定所述一个实体关系模型的关系识别评估值;所述关系识别评估值表征所述一个实体关系模型关系识别的精确度;
分别对确定的所述至少两个实体关系模型各自的关系识别评估值进行归一化,获得每个实体关系模型的关系权重。
10.一种道路事件识别装置,其特征在于,包括:
模型识别单元,用于采用至少两个实体关系模型,分别执行以下操作:基于一个实体关系模型对待识别文本进行实体识别和关系识别,获得相应的实体识别子结果和关系识别子结果;所述待识别文本为采集的与道路相关的文本内容;所述实体识别子结果表征:所述待识别文本包含的各候选实体各自的第一语义类别;所述关系识别子结果表征:每两个候选实体间的候选关系;
实体融合单元,用于基于所述各候选实体各自的第一语义类别,以及各自在所述待识别文本中的位置,获得所述各候选实体包括的各个字符各自的第二语义类别,并将具有相同第二语义类别且相邻的各字符拼接为相应的目标实体,获得实体识别结果;
关系融合单元,用于将获得的各候选实体分别与各目标实体进行字符匹配,确定各候选关系关联的目标实体对,并在关联相同目标实体对的各候选关系中选取一条记录至关系识别结果中,获得关系识别结果;
道路事件识别单元,用于基于所述实体识别结果和所述关系识别结果,识别所述待识别文本中包含的道路事件。
11.一种计算机设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~9中任一项所述方法的步骤。
12.一种计算机可读存储介质,其特征在于,其包括程序代码,当所述程序代码在计算机设备上运行时,所述程序代码用于使所述计算机设备执行权利要求1~9中任一项所述方法的步骤。
CN202311301208.2A 2023-10-10 2023-10-10 道路事件识别方法、装置、设备及存储介质 Active CN117057343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311301208.2A CN117057343B (zh) 2023-10-10 2023-10-10 道路事件识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311301208.2A CN117057343B (zh) 2023-10-10 2023-10-10 道路事件识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117057343A CN117057343A (zh) 2023-11-14
CN117057343B true CN117057343B (zh) 2023-12-12

Family

ID=88659386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311301208.2A Active CN117057343B (zh) 2023-10-10 2023-10-10 道路事件识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117057343B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020135337A1 (zh) * 2018-12-29 2020-07-02 新华三大数据技术有限公司 实体语义关系分类
CN113947087A (zh) * 2021-12-20 2022-01-18 太极计算机股份有限公司 一种基于标签的关系构建方法、装置、电子设备及存储介质
CN114817465A (zh) * 2022-04-14 2022-07-29 海信电子科技(武汉)有限公司 一种用于多语言语义理解的实体纠错方法及智能设备
CN114925693A (zh) * 2022-01-05 2022-08-19 华能贵诚信托有限公司 一种基于多模型融合的多元关系抽取方法和抽取系统
CN116821372A (zh) * 2023-07-07 2023-09-29 中国平安人寿保险股份有限公司 基于知识图谱的数据处理方法、装置、电子设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111221983B (zh) * 2020-01-15 2023-08-04 北京百度网讯科技有限公司 时序知识图谱生成方法、装置、设备和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020135337A1 (zh) * 2018-12-29 2020-07-02 新华三大数据技术有限公司 实体语义关系分类
CN113947087A (zh) * 2021-12-20 2022-01-18 太极计算机股份有限公司 一种基于标签的关系构建方法、装置、电子设备及存储介质
CN114925693A (zh) * 2022-01-05 2022-08-19 华能贵诚信托有限公司 一种基于多模型融合的多元关系抽取方法和抽取系统
CN114817465A (zh) * 2022-04-14 2022-07-29 海信电子科技(武汉)有限公司 一种用于多语言语义理解的实体纠错方法及智能设备
CN116821372A (zh) * 2023-07-07 2023-09-29 中国平安人寿保险股份有限公司 基于知识图谱的数据处理方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN117057343A (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN111177393B (zh) 一种知识图谱的构建方法、装置、电子设备及存储介质
EP4137961A1 (en) Method and apparatus for executing automatic machine learning process, and device
Zheng et al. Chatgpt is on the horizon: Could a large language model be all we need for intelligent transportation?
CN112084779B (zh) 用于语义识别的实体获取方法、装置、设备及存储介质
CN112015896B (zh) 基于人工智能的情感分类方法、以及装置
CN116932919B (zh) 信息推送方法、装置、电子设备和计算机可读介质
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
WO2024083121A1 (zh) 一种数据处理方法及其装置
CN117521675A (zh) 基于大语言模型的信息处理方法、装置、设备及存储介质
CN117057343B (zh) 道路事件识别方法、装置、设备及存储介质
CN114417974B (zh) 模型训练方法、信息处理方法、装置、电子设备和介质
CN113779227B (zh) 案情事实抽取方法及系统及装置及介质
CN113051607B (zh) 一种隐私政策信息提取方法
CN114637850A (zh) 异常行为识别及模型训练方法、装置、设备及存储介质
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN116702785B (zh) 关系标签的处理方法和装置、存储介质及电子设备
CN113537372B (zh) 一种地址识别方法、装置、设备及存储介质
CN117077656B (zh) 论证关系挖掘方法、装置、介质及电子设备
CN116630632B (zh) 图像分割模型的量化方法、装置和设备及计算机存储介质
CN117034019B (zh) 一种业务处理方法、装置、电子设备和存储介质
CN113095434B (zh) 目标检测方法及装置、电子设备、存储介质
Tian Construction of Computer English Corpus Assisted by Internet of Things Information Perception and Interaction Technology
CN116977765A (zh) 一种检测模型的训练方法、装置、计算设备及存储介质
CN116432666A (zh) 一种文本评估方法、装置、电子设备和存储介质
CN116628187A (zh) 一种文本分类方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant