CN116432615A - 文本处理方法及装置 - Google Patents

文本处理方法及装置 Download PDF

Info

Publication number
CN116432615A
CN116432615A CN202310685460.1A CN202310685460A CN116432615A CN 116432615 A CN116432615 A CN 116432615A CN 202310685460 A CN202310685460 A CN 202310685460A CN 116432615 A CN116432615 A CN 116432615A
Authority
CN
China
Prior art keywords
target
text
entity
attribute
query text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310685460.1A
Other languages
English (en)
Inventor
葛凇志
吕贵林
陈涛
姜大力
韩爽
杨杰
王烁皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FAW Group Corp
Original Assignee
FAW Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FAW Group Corp filed Critical FAW Group Corp
Priority to CN202310685460.1A priority Critical patent/CN116432615A/zh
Publication of CN116432615A publication Critical patent/CN116432615A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本处理方法及装置。其中,该方法涉及车联网领域,包括:响应于接收到目标询问文本,确定目标询问文本是否缺少实体或属性;响应于目标询问文本缺少实体或属性,基于目标询问文本和历史问答数据,确定目标询问文本对应的目标实体和目标属性;基于目标实体、目标属性和知识图谱,生成目标询问文本对应的目标答复文本,其中,知识图谱用于表征不同实体、不同属性与不同答复文本之间的对应关系。本发明解决了相关技术中生成询问文本对应的答复文本时的生成准确率低的技术问题。

Description

文本处理方法及装置
技术领域
本发明涉及车联网领域,具体而言,涉及一种文本处理方法及装置。
背景技术
在进行车辆的语音问答时,现有技术中通常根据神经网络模型进行深度学习,以优化提取相关数据,但是该方法的模型的预训练计算量巨大,并且当询问文本为缺少属性或实体的文本时,无法对缺少属性或实体的文本准确的进行数据提取,因此会导致生成询问文本对应的答复文本的生成准确率低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本处理方法及装置,以至少解决相关技术中生成询问文本对应的答复文本时的生成准确率低的技术问题。
根据本发明实施例的一个方面,提供了一种文本处理方法,包括:响应于接收到目标询问文本,确定目标询问文本是否缺少实体或属性;响应于目标询问文本缺少实体或属性,基于目标询问文本和历史问答数据,确定目标询问文本对应的目标实体和目标属性;基于目标实体、目标属性和知识图谱,生成目标询问文本对应的目标答复文本,其中,知识图谱用于表征不同实体、不同属性与不同答复文本之间的对应关系。
可选地,响应于目标询问文本缺少实体,基于目标询问文本和历史问答数据,确定目标询问文本对应的目标实体和目标属性,包括:对目标询问文本进行语义识别,确定目标询问文本对应的目标属性;确定历史问答数据的历史实体为目标询问文本对应的目标实体。
可选地,响应于目标询问文本缺少属性,基于目标询问文本和历史问答数据,确定目标询问文本对应的目标实体和目标属性,包括:对目标询问文本进行语义识别,确定目标询问文本对应的目标实体;确定历史问答数据的历史属性为目标询问文本对应的目标属性。
可选地,基于目标实体、目标属性和知识图谱,生成目标询问文本对应的目标答复文本,包括:对目标实体和目标属性进行组合,得到目标文本;基于目标文本在知识图谱中进行查询,得到目标答复文本。
可选地,确定目标询问文本是否缺少实体或属性,包括:将目标询问文本与多个预设泛化文本进行匹配,得到目标询问文本对应的目标泛化文本,其中,目标泛化文本包含的泛化实体与目标询问文本包含的目标实体相同,或目标泛化文本包含的泛化属性与目标询问文本包含的目标属性相同;对目标询问文本进行语义识别,确定目标询问文本是否缺少实体或属性。
可选地,响应于目标询问文本不缺少实体和属性,该方法还包括:对目标询问文本进行语义识别,确定目标询问文本对应的目标实体和目标属性;对目标实体和目标属性进行组合,得到目标文本;基于目标文本在知识图谱中进行查询,得到目标答复文本。
根据本发明实施例的另一方面,还提供了一种文本处理装置,包括:第一确定模块,用于响应于接收到目标询问文本,确定目标询问文本是否缺少实体或属性;第二确定模块,用于响应于目标询问文本缺少实体或属性,基于目标询问文本和历史问答数据,确定目标询问文本对应的目标实体和目标属性;生成模块,用于基于目标实体、目标属性和知识图谱,生成目标询问文本对应的目标答复文本,其中,知识图谱用于表征不同实体、不同属性与不同答复文本之间的对应关系。
根据本发明实施例的另一方面,还提供了一种文本处理系统,包括:麦克风,用于获取文本;文本处理器,与麦克风连接,用于对获取到的文本数据进行语义识别,得到目标答复文本;显示器,与文本处理器连接,用于显示目标答复文本。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述任意一项的文本处理方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述任意一项的文本处理方法。
在本发明实施例中,采用响应于接收到目标询问文本,确定目标询问文本是否缺少实体或属性;响应于目标询问文本缺少实体或属性,基于目标询问文本和历史问答数据,确定目标询问文本对应的目标实体和目标属性;基于目标实体、目标属性和知识图谱,生成目标询问文本对应的目标答复文本,其中,知识图谱用于表征不同实体、不同属性与不同答复文本之间的对应关系的方式。容易注意到的是,在本发明实施例中,通过判断目标询问文本是否为缺少属性或实体,能够获取到历史问答数据中的实体或属性,达到了补充完整目标询问文本的数据的目的,其次基于完整的目标询问文本和知识图谱可以准确的得到目标询问文本对应的目标答复文本,达到了准确得到目标询问文本对应的目标答复文本的目的,从而实现了准确生成目标询问文本对应的目标答复文本的技术效果,进而解决了相关技术中生成询问文本对应的答复文本时的生成准确率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种文本处理方法的流程图;
图2是根据本发明实施例的一种可选的获取目标答复文本的方法的流程图
图3是根据本发明实施例的一种文本处理装置的结构示意图;
图4是根据本发明实施例的一种文本处理系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种文本处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种文本处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,响应于接收到目标询问文本,确定目标询问文本是否缺少实体或属性。
上述的目标询问文本可以是车辆接收到车内人员发出的语音后,对语音进行处理得到的询问文本。上述的实体可以是目标询问文本中包含的具体事物,例如,可以是“车辆”、“空调”、“座椅”、“轮胎”等,但不仅限于此。上述的属性可以是目标询问文本中的具体事物的特性,例如可以是“型号”、“颜色”、“更换方法”等,但不仅限于此。
在一种可选的实施例中,当用户需要了解车辆某些部件的具体信息时,首先用户可以向车辆发出语音,其次车辆可以通过语音接收处理装置接收到语音后,对语音进行处理得到目标询问文本,然后可以通过文本处理装置对目标询问文本进行确认,得到目标询问文本缺少实体,或者缺少属性的结果。例如,当用户想要了解车辆的轮胎如何更换时,可以向车辆发出“怎么更换”的语音,其次车辆在接收到语音后进行处理可以得到目标询问文本为“怎么更换”,其次对目标询问文本进行确认,可以得到目标询问文本缺少实体,即缺少“轮胎”。
需要说明的是,对语音进行处理得到目标询问文本的装置不仅限于语音接收处理装置,还可以是任意一种或多种能够将语音转换为文本的处理器、模块、系统以及服务器等,在本实施例中不做具体限定,用户可根据实际需求自行选择。同样的,确认目标询问文本是否缺少实体或属性的装置不仅限于文本处理装置,还可以是任意一种或多种能够确认目标询问文本是否缺少实体或属性的处理器、模块、系统以及服务器等,在本实施例中不做具体限定,用户可根据实际需求自行选择。
在另一种可选的实施例中,当用户想要了解车辆附近的环境情况时,例如用户想要知道车辆附近的加油站有多少个时,首先可以发出“加油站”的语音,其次车辆在接收到语音后进行处理可以得到目标询问文本为“加油站”,其次对目标询问文本进行确认,可以得到目标询问文本缺少属性,即缺少“附近”、“有多少个”。
步骤S104,响应于目标询问文本缺少实体或属性,基于目标询问文本和历史问答数据,确定目标询问文本对应的目标实体和目标属性。
上述的历史问答数据,可以是与当前时刻间隔时间最短的前一时刻(例如可以是上一轮),车辆接收到的用户的历史询问文本,以及车辆反馈给用户的历史答复文本。例如,历史问答数据可以包括但不限于:“空调怎么打开”和“按下中控系统中的空调按钮”,“大灯在哪里”和“大灯在车辆的前方”。上述的目标实体可以是目标询问文本的实体,目标属性可以是目标实体的属性,上述的历史属性可以是历史询问文本中的历史实体对应的属性。
在一种可选的实施例中,当确认目标询问文本为缺少实体后,可以基于目标属性得到历史问答数据中的历史实体,进而可以将历史实体作为目标实体,因此可以得到目标询问文本对应目标实体和目标属性。此外,还可以基于目标属性得到历史问答数据,其次可以将历史问答数据的历史实体和历史属性作为目标询问文本对应的目标实体和目标属性。
在另一种可选的实施例中,当确认目标询问文本为缺少属性后,可以基于目标实体得到历史问答数据中的历史属性,进而可以将历史属性作为目标属性,因此可以得到目标询问文本对应目标实体和目标属性。例如,还可以基于目标实体得到历史问答数据,其次可以将历史问答数据的历史实体和历史属性作为目标询问文本对应的目标实体和目标属性。
步骤S106,基于目标实体、目标属性和知识图谱,生成目标询问文本对应的目标答复文本,其中,知识图谱用于表征不同实体、不同属性与不同答复文本之间的对应关系。
上述的知识图谱可以现有技术中的任意一种知识图谱,在本实施例中不做具体限定,其中,基于知识图谱能够得到不同实体、不同属性对应的不同答复文本。
在一种可选的实施例中,当确定目标询问文本的目标实体和目标属性后,可以基于知识图谱生成目标询问文本对应的目标答复文本。例如,当得到目标实体为“天窗”,目标属性为“怎么打开”时,可以在知识图谱中找到目标实体和目标属性对应的目标答复文本为“按下中控系统中的天窗按钮即可打开天窗”。
在另一种可选的实施例中,当用户需要对车辆的某个部件的具体信息时,首先用户可以向车辆发出语音,车辆通过语音接收处理装置接收到语音后,可以对语音进行处理得到目标询问文本,其次可以通过文本处理装置对目标询问文本进行确认,得到目标询问文本缺少实体,或者缺少属性的结果,然后当确认目标询问文本缺少实体后,可以基于目标属性得到历史问答数据中的历史实体,进而可以将历史实体作为目标实体,因此可以得到目标询问文本对应目标实体和目标属性,最后可以基于知识图谱获取到目标属性和目标实体对应的目标答复文本。
在本发明实施例中,采用响应于接收到目标询问文本,确定目标询问文本是否缺少实体或属性;响应于目标询问文本缺少实体或属性,基于目标询问文本和历史问答数据,确定目标询问文本对应的目标实体和目标属性;基于目标实体、目标属性和知识图谱,生成目标询问文本对应的目标答复文本,其中,知识图谱用于表征不同实体、不同属性与不同答复文本之间的对应关系的方式。容易注意到的是,在本发明实施例中,通过判断目标询问文本是否为缺少属性或实体,能够获取到历史问答数据中的实体或属性,达到了补充完整目标询问文本的数据的目的,其次基于完整的目标询问文本和知识图谱可以准确的得到目标询问文本对应的目标答复文本,达到了准确得到目标询问文本对应的目标答复文本的目的,从而实现了准确生成目标询问文本对应的目标答复文本的技术效果,进而解决了相关技术中生成询问文本对应的答复文本时的生成准确率低的技术问题。
可选地,响应于目标询问文本缺少属性,基于目标询问文本和历史问答数据,确定目标询问文本对应的目标实体和目标属性,包括:对目标询问文本进行语义识别,确定目标询问文本对应的目标实体;确定历史问答数据的历史属性为目标询问文本对应的目标属性。
在一种可选的实施例中,首先可以通过语义识别模型对目标询问文本进行语义识别,得到目标询问文本对应的目标实体,其次可以获取历史问答数据,并将历史问答数据中的历史询问文本的历史实体的历史属性作为目标询问文本的目标属性,进而可以得到目标询问文本的目标属性和目标实体。例如,首先可以通过语义识别模型对目标询问文本进行语义识别,当目标询问文本为“空调”时,可以确定目标询问文本缺少属性,例如可以是“怎么打开”、“在哪里”等属性,其次可以获取历史问答数据,例如可以是“空调怎么打开”和“按下中控系统中的空调按钮”,但不仅限于此,然后可以将历史问答数据中的历史属性“怎么打开”作为目标询问文本的目标属性,进而可以得到目标询问文本的目标实体为“空调”,目标属性为“怎么打开”。
需要说明的是,对目标询问文本进行语义识别的模型可以是现有技术中的任意一种或多种语义识别模型,例如可以是自然语言理解(Natural Language Understanding,NLU)模型,但不仅限于此,用户可以根据实际需求自行选择,在本实施例中不做具体限定。
可选地,响应于目标询问文本缺少实体,基于目标询问文本和历史问答数据,确定目标询问文本对应的目标实体和目标属性,包括:对目标询问文本进行语义识别,确定目标询问文本对应的目标属性;确定历史问答数据的历史实体为目标询问文本对应的目标实体。
在一种可选的实施例中,首先可以通过语义识别模型对目标询问文本进行语义识别,得到目标询问文本对应的目标属性,其次可以获取历史问答数据,并将历史问答数据中的历史询问文本的历史实体作为目标询问文本的目标实体,进而可以得到目标询问文本的目标属性和目标实体。例如,首先可以通过语义识别模型对目标询问文本进行语义识别,当目标询问文本为“怎么更换”时,可以确定目标询问文本缺少实体,例如可以是“轮胎”、“大灯”等实体,其次可以获取历史问答数据,例如可以是“轮胎有几个”和“轮胎有5个,其中一个是备用轮胎”,但不仅限于此,然后可以将历史问答数据中的历史实体“轮胎”作为目标询问文本的目标实体,进而可以得到目标询问文本的目标实体为“轮胎”,目标属性为“怎么更换”。
需要说明的是,本发明实施例为了提高生成目标询问文本对应的目标答复文本的生成准确率,通过获取历史答复数据中的历史实体和历史属性,达到了提高目标询问文本的完整度的目的。此外,由于历史问答数据为与目标询问文本的时间距离最短的数据,因此可以判定历史问答数据中的历史实体和历史属性与目标询问文本中的目标实体和目标属性关联度较高,因此可以将历史实体和历史属性作为目标实体和目标属性。
需要说明的是,对目标询问文本进行语义识别的模型可以是现有技术中的任意一种或多种语义识别模型,例如可以是自然语言理解(Natural Language Understanding,NLU)模型,但不仅限于此,用户可以根据实际需求自行选择,在本实施例中不做具体限定。
可选地,基于目标实体、目标属性和知识图谱,生成目标询问文本对应的目标答复文本,包括:对目标实体和目标属性进行组合,得到目标文本;基于目标文本在知识图谱中进行查询,得到目标答复文本。
在一种可选的实施例中,当得到目标询问文本的目标实体和目标属性后,可以对目标实体和目标属性进行组合,例如,可以将目标实体和目标属性进行拼接得到目标文本,最后可以基于目标文本在知识图谱中进行查询,得到目标答复文本。例如,当得到目标实体为“轮胎”,目标属性为“型号是什么”后,可以将目标实体和目标属性进行拼接,得到目标文本为“车辆的轮胎型号是什么”,最后可以基于目标文本在知识图谱中查询得到“轮胎的型号为×××××”的目标答复文本。
可选地,确定目标询问文本是否缺少实体或属性,包括:将目标询问文本与多个预设泛化文本进行匹配,得到目标询问文本对应的目标泛化文本,其中,目标泛化文本包含的泛化实体与目标询问文本包含的目标实体相同,或目标泛化文本包含的泛化属性与目标询问文本包含的目标属性相同;对目标询问文本进行语义识别,确定目标询问文本是否缺少实体或属性。
上述的预设泛化文本可以是知识图谱中多个包含实体或属性的文本,通过上下文理解定制文法可以得到目标询问文本对应的目标泛化文本,其中,上下文理解定制文法可以基于目标文本数据和历史问答数据,得到与目标实体或目标属性相同的目标泛化文本。
在一种可选的实施例中,首先可以通过上下文理解定制文法将目标询问文本与多个预设泛化文本进行匹配,得到目标询问文本对应的目标泛化文本,其中,目标泛化文本包含的泛化实体与目标询问文本包含的目标实体相同,或目标泛化文本包含的泛化属性与目标询问文本包含的目标属性相同;其次可以通过语义识别模型对目标询问文本进行语义识别,得到目标询问文本缺少实体或属性的结果。
需要说明的是,对目标询问文本进行语义识别的模型可以是现有技术中的任意一种或多种语义识别模型,例如可以是自然语言理解(Natural Language Understanding,NLU)模型,但不仅限于此,用户可以根据实际需求自行选择,在本实施例中不做具体限定。
可选地,响应于目标询问文本不缺少实体和属性,该方法还包括:对目标询问文本进行语义识别,确定目标询问文本对应的目标实体和目标属性;对目标实体和目标属性进行组合,得到目标文本;基于目标文本在知识图谱中进行查询,得到目标答复文本。
在一种可选的实施例中,当判断目标询问文本不缺少实体和属性后,可以通过语义识别模型对目标询问文本进行语义识别,得到目标询问文本对应的目标实体和目标属性,其次可以将目标实体和目标属性进行拼接,得到目标文本,最后可以基于目标文本在知识图谱中进行查询,得到目标答复文本。
需要说明的是,对目标询问文本进行语义识别的模型可以是现有技术中的任意一种或多种语义识别模型,例如可以是自然语言理解(Natural Language Understanding,NLU)模型,但不仅限于此,用户可以根据实际需求自行选择,在本实施例中不做具体限定。
本发明提出了一种基于知识图谱的车辆语音问答上下文理解方法,一是通过匹配上下文理解定制文法判断是否为缺少实体或属性的说法,对于缺少实体或属性的说法有针对性,在做上下文理解时语义理解识别率高,二是创新性地利用继承规则在不同情况下继承上一轮对话中的实体或属性,此种方法计算量小,逻辑清晰简单。
图2是根据本发明实施例的一种可选的获取目标答复文本的方法的流程图,如图2所示,该方法包括以下步骤:
步骤S21,一轮问答请求开始;
步骤S22,通过上下文理解定制文法判断目标询问文本是否为缺少实体或属性的说法,若是,进入步骤S23,若否,进入步骤S210;
步骤S23,通过语义理解模型给出语义识别结果并打上特殊标记;
步骤S24,判断语义识别结果是否缺少实体,若是,进入步骤S25,若否,进入步骤S27;
步骤S25,在上一轮交互的历史数据中查询实体;
步骤S26,继承实体得到目标实体,进入步骤S29;
步骤S27,在上一轮交互的历史数据中查询属性;
步骤S28,继承属性得到目标属性,进入步骤S29;
步骤S29,基于目标实体和目标属性在知识图谱中进行查询得到目标答复文本;
步骤S210,进入常规问答流程得到目标答复文本。
在一种可选的实施例中,若为实体继承,当首句(即历史查询文本)为“轮胎是什么型号的”,二句(即目标查询文本)为“怎么更换”时,问答请求首先通过“上下文理解定制文法”进行匹配,如果不是缺少实体或属性的说法,将不会匹配成功,比如首句中“轮胎是什么型号的”,“实体”为“轮胎”,“属性”为“型号”,后续通过常规问答流程处理(例如可以通过槽位分析、命名实体识别(Named Entity Recognition,NER)模型、意图分类模型(Intent)等进行处理得到目标答复文本);如果是缺少实体或属性的说法,比如二句中“怎么更换”,将会匹配到“上下文理解定制文法”中“更换方法”的泛化说法,例如“如何更换”、“更换方法有哪些”等,匹配成功后,“怎么更换”一句通过NLU语义理解给出语义识别结果:“属性”为“更换方法”,缺少“实体”,并打上特殊标记:增加字段键值(key,value)其中,value的内容为:上下文理解句式,并且缺少“实体”。需要说明的是,通过增加特殊标记作为判断依据,可以提高问答效率;根据语义识别结果判断,该问答属于缺少“实体”的上下文理解句式,“属性”为“更换方法”,故从缓存中获取上一轮交互的历史数据,查询到首句中“轮胎是什么型号的”的“实体”为“轮胎”,利用继承规则继承上一轮对话中的“实体”,拼接“实体”和“属性”,即“实体”为上一轮对话中的“轮胎”,“属性”为本轮对话中的“更换方法”;最后在知识图谱中查询“实体”为“轮胎”,“属性”为“更换方法”的属性值,即为本轮对话中的问答结果。
在另一种可选的实施例中,若为属性继承,当首句为“空调怎么打开”,二句为“倒车影像呢”时,问答请求首先通过“上下文理解定制文法”进行匹配,如果不是缺少实体或属性的说法,将不会匹配成功,比如首句中“空调怎么打开”,“实体”为“空调”,“属性”为“打开方法”,后续通过常规问答流程处理(例如可以通过槽位分析、NER模型、Intent模型等进行处理得到目标答复文本);如果是缺少实体或属性的说法,比如二句中“倒车影像呢”,将会匹配到“上下文理解定制文法”中“槽位呢”的泛化说法:例如“发动机舱盖呢”、“大灯呢”、“天窗呢”等;匹配成功后,“倒车影像呢”一句通过NLU语义理解给出语义识别结果:“实体”为“倒车影像”,缺少“属性”,并打上特殊标记:增加key和value,其中,value的内容为上下文理解句式,并且缺少“属性”,通过增加特殊标记作为判断依据,可以提高问答效率;根据语义识别结果判断,该问答属于缺少“属性”的上下文理解句式,“实体”为“倒车影像”,故从缓存中获取上一轮交互的历史数据,查询到首句中“空调怎么打开”的“属性”为“打开方法”,利用继承规则继承上一轮对话中的“属性”,拼接“实体”和“属性”,即“属性”为上一轮对话中的“打开方法”,“实体”为本轮对话中的“倒车影像”,在知识图谱中查询“实体”为“倒车影像”,“属性”为“打开方法”的属性值,即为本轮对话中的问答结果。
综上所述,先通过“上下文理解定制文法”进行匹配的方法,优势如下:一是提前准确定位句式类型为“上下文理解”,提高这种缺少“实体”或“属性”说法的语义理解准确率和回复率;二是如果定制文法匹配成功,将直接在知识图谱中搜索答案,无需通过复杂的常规问答流程和模型处理(槽位分析、NER模型、Intent模型等),原理简单,速度快。
实施例2
根据本发明实施例的另一方面,还提供了一种文本处理装置,该装置可以执行上述实施例1中提供的方法,具体实现方式和优选应用场景与上述实施例1相同,在此不做赘述。
图3是根据本发明实施例的一种文本处理装置的结构示意图,如图3所示,该装置包括:第一确定模块32,用于响应于接收到目标询问文本,确定目标询问文本是否缺少实体或属性;第二确定模块34,用于响应于目标询问文本缺少实体或属性,基于目标询问文本和历史问答数据,确定目标询问文本对应的目标实体和目标属性;生成模块36,用于基于目标实体、目标属性和知识图谱,生成目标询问文本对应的目标答复文本,其中,知识图谱用于表征不同实体、不同属性与不同答复文本之间的对应关系。
可选地,响应于目标询问文本缺少实体,第二确定模块包括:第一识别单元,用于对目标询问文本进行语义识别,确定目标询问文本对应的目标属性;第一确定单元,用于确定历史问答数据的历史实体为目标询问文本对应的目标实体。
可选地,响应于目标询问文本缺少属性,第二确定模块还包括:第二识别单元,用于对目标询问文本进行语义识别,确定目标询问文本对应的目标实体;第二确定单元,用于确定历史问答数据的历史属性为目标询问文本对应的目标属性。
可选地,生成模块包括:组合单元,用于对目标实体和目标属性进行组合,得到目标文本;查询单元,用于基于目标文本在知识图谱中进行查询,得到目标答复文本。
可选地,第一确定模块包括:匹配单元,用于将目标询问文本与多个预设泛化文本进行匹配,得到目标询问文本对应的目标泛化文本,其中,目标泛化文本包含的泛化实体与目标询问文本包含的目标实体相同,或目标泛化文本包含的泛化属性与目标询问文本包含的目标属性相同;第三识别单元,用于对目标询问文本进行语义识别,确定目标询问文本是否缺少实体或属性。
可选地,响应于目标询问文本不缺少实体和属性,该装置还包括:识别模块,用于对目标询问文本进行语义识别,确定目标询问文本对应的目标实体和目标属性;组合模块,用于对目标实体和目标属性进行组合,得到目标文本;查询模块,用于基于目标文本在知识图谱中进行查询,得到目标答复文本。
实施例3
根据本发明实施例的另一方面,还提供了一种文本处理系统。
图4是根据本发明实施例的一种文本处理系统的结构示意图,如图4所示,该系统包括:麦克风40,用于获取文本;文本处理器42,与麦克风连接,用于对获取到的文本数据进行语义识别,得到目标答复文本;显示器44,与文本处理器连接,用于显示目标答复文本。
实施例4
据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述任意一项的文本处理方法。
实施例5
根据本发明实施例的另一方面,还提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述任意一项的文本处理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种文本处理方法,其特征在于,包括:
响应于接收到目标询问文本,确定所述目标询问文本是否缺少实体或属性;
响应于所述目标询问文本缺少所述实体或所述属性,基于所述目标询问文本和历史问答数据,确定所述目标询问文本对应的目标实体和目标属性;
基于所述目标实体、所述目标属性和知识图谱,生成所述目标询问文本对应的目标答复文本,其中,所述知识图谱用于表征不同实体、不同属性与不同答复文本之间的对应关系。
2.根据权利要求1所述的方法,其特征在于,响应于所述目标询问文本缺少所述实体,基于所述目标询问文本和历史问答数据,确定所述目标询问文本对应的目标实体和目标属性,包括:
对所述目标询问文本进行语义识别,确定所述目标询问文本对应的所述目标属性;
确定所述历史问答数据的历史实体为所述目标询问文本对应的所述目标实体。
3.根据权利要求1所述的方法,其特征在于,响应于所述目标询问文本缺少所述属性,基于所述目标询问文本和历史问答数据,确定所述目标询问文本对应的目标实体和目标属性,包括:
对所述目标询问文本进行语义识别,确定所述目标询问文本对应的所述目标实体;
确定所述历史问答数据的历史属性为所述目标询问文本对应的所述目标属性。
4.根据权利要求1所述的方法,其特征在于,基于所述目标实体、所述目标属性和知识图谱,生成所述目标询问文本对应的目标答复文本,包括:
对所述目标实体和所述目标属性进行组合,得到目标文本;
基于所述目标文本在所述知识图谱中进行查询,得到所述目标答复文本。
5.根据权利要求1所述的方法,其特征在于,确定所述目标询问文本是否缺少实体或属性,包括:
将所述目标询问文本与多个预设泛化文本进行匹配,得到所述目标询问文本对应的目标泛化文本,其中,所述目标泛化文本包含的泛化实体与所述目标询问文本包含的所述目标实体相同,或所述目标泛化文本包含的泛化属性与所述目标询问文本包含的所述目标属性相同;
对所述目标询问文本进行语义识别,确定所述目标询问文本是否缺少所述实体或所述属性。
6.根据权利要求1所述的方法,其特征在于,响应于所述目标询问文本不缺少所述实体和所述属性,所述方法还包括:
对所述目标询问文本进行语义识别,确定所述目标询问文本对应的目标实体和目标属性;
对所述目标实体和所述目标属性进行组合,得到目标文本;
基于所述目标文本在知识图谱中进行查询,得到所述目标答复文本。
7.一种文本处理装置,其特征在于,包括:
第一确定模块,用于响应于接收到目标询问文本,确定所述目标询问文本是否缺少实体或属性;
第二确定模块,用于响应于所述目标询问文本缺少所述实体或所述属性,基于所述目标询问文本和历史问答数据,确定所述目标询问文本对应的目标实体和目标属性;
生成模块,用于基于所述目标实体、所述目标属性和知识图谱,生成所述目标询问文本对应的目标答复文本,其中,所述知识图谱用于表征不同实体、不同属性与不同答复文本之间的对应关系。
8.一种文本处理系统,其特征在于,包括:
麦克风,用于获取文本;
文本处理器,与所述麦克风连接,用于对获取到的文本数据进行语义识别,得到目标答复文本;
显示器,与所述文本处理器连接,用于显示所述目标答复文本。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的文本处理方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任意一项所述的文本处理方法。
CN202310685460.1A 2023-06-12 2023-06-12 文本处理方法及装置 Pending CN116432615A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310685460.1A CN116432615A (zh) 2023-06-12 2023-06-12 文本处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310685460.1A CN116432615A (zh) 2023-06-12 2023-06-12 文本处理方法及装置

Publications (1)

Publication Number Publication Date
CN116432615A true CN116432615A (zh) 2023-07-14

Family

ID=87081796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310685460.1A Pending CN116432615A (zh) 2023-06-12 2023-06-12 文本处理方法及装置

Country Status (1)

Country Link
CN (1) CN116432615A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019687A (zh) * 2019-04-11 2019-07-16 宁波深擎信息科技有限公司 一种基于知识图谱的多意图识别系统、方法、设备及介质
CN110245240A (zh) * 2019-05-31 2019-09-17 国网电子商务有限公司 一种问题数据答案的确定方法及装置
CN110990526A (zh) * 2019-11-21 2020-04-10 腾讯科技(深圳)有限公司 一种查询语句展示方法及相关设备
CN111414457A (zh) * 2020-03-20 2020-07-14 深圳前海微众银行股份有限公司 基于联邦学习的智能问答方法、装置、设备及存储介质
CN112559687A (zh) * 2020-12-15 2021-03-26 中国平安人寿保险股份有限公司 问题识别及查询方法、装置、电子设备及存储介质
CN115495553A (zh) * 2022-09-20 2022-12-20 中国平安人寿保险股份有限公司 查询文本排序方法、装置、计算机设备及存储介质
CN115952260A (zh) * 2022-12-09 2023-04-11 科大讯飞股份有限公司 汽车领域问答方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019687A (zh) * 2019-04-11 2019-07-16 宁波深擎信息科技有限公司 一种基于知识图谱的多意图识别系统、方法、设备及介质
CN110245240A (zh) * 2019-05-31 2019-09-17 国网电子商务有限公司 一种问题数据答案的确定方法及装置
CN110990526A (zh) * 2019-11-21 2020-04-10 腾讯科技(深圳)有限公司 一种查询语句展示方法及相关设备
CN111414457A (zh) * 2020-03-20 2020-07-14 深圳前海微众银行股份有限公司 基于联邦学习的智能问答方法、装置、设备及存储介质
CN112559687A (zh) * 2020-12-15 2021-03-26 中国平安人寿保险股份有限公司 问题识别及查询方法、装置、电子设备及存储介质
CN115495553A (zh) * 2022-09-20 2022-12-20 中国平安人寿保险股份有限公司 查询文本排序方法、装置、计算机设备及存储介质
CN115952260A (zh) * 2022-12-09 2023-04-11 科大讯飞股份有限公司 汽车领域问答方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107240398B (zh) 智能语音交互方法及装置
CN111858877B (zh) 多类型问题智能问答方法、系统、设备及可读存储介质
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN111708869B (zh) 人机对话的处理方法及装置
CN114757176B (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN110890088B (zh) 语音信息反馈方法、装置、计算机设备和存储介质
US20230128497A1 (en) Machine learning-implemented chat bot database query system for multi-format database queries
CN111611382A (zh) 话术模型训练方法、对话信息生成方法及装置、系统
CN115440221B (zh) 一种基于云计算的车载智能语音交互方法及系统
CN115512696B (zh) 模拟训练方法及车辆
CN111737424A (zh) 一种问题的匹配方法、装置、设备及存储介质
CN117648982A (zh) 基于问答模型生成答案方法、装置、电子设备及存储介质
CN115509485A (zh) 一种业务表单的填写方法、装置、电子设备和存储介质
CN117077792A (zh) 一种基于知识图谱生成提示数据的方法及装置
CN114186041A (zh) 一种答案输出方法
CN111414732A (zh) 文本风格转换方法、装置、电子设备及存储介质
CN117828057A (zh) 知识问答方法、装置、设备和存储介质
CN112367494A (zh) 基于ai的在线会议通讯方法、装置及计算机设备
CN112487817A (zh) 命名实体识别模型训练方法、样本标注方法、装置及设备
CN111324712A (zh) 对话回复方法及服务端
CN116432615A (zh) 文本处理方法及装置
CN115952260A (zh) 汽车领域问答方法、装置、电子设备及存储介质
CN114399994A (zh) 语音交互方法、车辆和存储介质
CN115564529A (zh) 语音导航控制方法、装置、计算机终端及存储介质
CN113987202A (zh) 一种基于知识图谱的交互电话呼入方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20230714