CN113127610A - 一种数据处理方法、装置、设备及介质 - Google Patents
一种数据处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113127610A CN113127610A CN201911419742.7A CN201911419742A CN113127610A CN 113127610 A CN113127610 A CN 113127610A CN 201911419742 A CN201911419742 A CN 201911419742A CN 113127610 A CN113127610 A CN 113127610A
- Authority
- CN
- China
- Prior art keywords
- target
- sentence pattern
- scene
- corpus
- general
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 40
- 239000000463 material Substances 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012423 maintenance Methods 0.000 abstract description 13
- 238000000034 method Methods 0.000 abstract description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000004044 response Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 11
- 241001083847 Berberis Species 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据处理方法、装置、设备及介质,应用于人工智能技术领域,用以解决用户意图识别的成功率以及回复检索的命中率较低的问题。具体为:针对维护的各个场景,确定该场景的场景句式库,并基于该场景的场景句式库,更新该场景下各个企业的智能问答库,从而简化了企业运营和维护智能问答库的难度,降低了智能问答库的运营和维护成本,而且,基于场景的场景句式库,更新该场景下各个企业的智能问答库,使得该场景下每个企业的智能问答库中都包含有基于其他企业的通用句式更新的问询语料,从而丰富了每个企业的智能问答库中的问询数量,进而提高了用户意图识别的成功率和回复检索的命中率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据处理方法、装置、设备及介质。
背景技术
随着人工智能的兴起,具有语音交互功能的智能设备逐渐在各行各业和日常生活中得到广泛应用,为各行各业和日常生活带来很多便利。例如,通过智能导览机器人在博物馆进行参观线路的引领以及参观物品的讲解,通过智能接待机器人在企业前台进行迎宾接待,通过智能导购机器人在商场进行位置引导以及促销活动、品牌介绍等各类问询的回复等。
目前,智能设备采集到用户发起的问询后,需要根据智能问答库,对用户发起的问询进行自然语言处理(Natural Language Processing,NLP),从而可以识别出用户意图并对用户发起的问询的回复进行检索。其中,智能问答库的运营和维护是用户意图识别和回复检索的关键,然而,在根据智能问答库,对用户发起的问询进行NLP时,由于智能问答库的运营和维护程度参差不齐,用户意图识别的成功率和回复检索的命中率较低,如何提高用户意图识别的成功率和回复检索的命中率是当前需要考虑的问题。
发明内容
本申请实施例提供了一种数据处理方法、装置、设备及介质,用以解决现有技术中存在的用户意图识别的成功率以及回复检索的命中率较低的问题。
本申请实施例提供的技术方案如下:
第一方面,本申请实施例提供了一种数据处理方法,包括:
确定待处理的目标场景;
获取目标场景对应的企业的语料作为目标语料;
将目标语料转换成通用句式,得到目标语料对应的通用句式;
基于目标语料对应的通用句式,确定目标场景的场景句式库。
第二方面,本申请实施例提供了另一种数据处理方法,包括:
确定待处理的目标企业;
确定目标企业所属场景对应的场景句式库,其中,场景句式库是基于场景下各个企业对应的语料的通用句式确定的;
基于场景句式库中的通用句式,更新目标企业的智能问答库。
第三方面,本申请实施例提供了另一种数据处理方法,包括:
获取问询请求;
若问询请求未命中智能设备对应的智能问答库,则将问询请求转换成通用句式;
若通用句式命中智能设备对应的场景句式库,则根据场景句式库对应的兜底回复,确定问询请求的响应信息,其中,场景句式库是基于场景下各个企业对应的语料的通用句式确定的。
第四方面,本申请实施例提供了一种数据处理装置,包括:
场景确定单元,用于确定待处理的目标场景;
语料获取单元,用于获取目标场景对应的企业的语料作为目标语料;
句式转换单元,用于将目标语料转换成通用句式,得到目标语料对应的通用句式;
句式库确定单元,用于基于目标语料对应的通用句式,确定目标场景的场景句式库。
第五方面,本申请实施例提供了另一种数据处理装置,包括:
确定单元,用于确定待处理的目标企业;
句式库确定单元,用于确定目标企业所属场景对应的场景句式库,其中,场景句式库是基于场景下各个企业对应的语料的通用句式确定的;
问答库更新单元,用于基于场景句式库中的通用句式,更新目标企业的智能问答库。
第六方面,本申请实施例提供了另一种数据处理装置,包括:
问询获取单元,用于获取问询请求;
句式转换单元,用于若问询请求未命中智能设备对应的智能问答库,则将问询请求转换成通用句式;
响应确定单元,用于若通用句式命中智能设备对应的场景句式库,则根据场景句式库对应的兜底回复,确定问询请求的响应信息,其中,场景句式库是基于场景下各个企业对应的语料的通用句式确定的。
第七方面,本申请实施例提供了一种电子设备,包括:存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述第一方面或第二方面中的数据处理方法。
第八方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令被处理器执行时实现上述第一方面或第二方面中的数据处理方法。
本申请实施例中,针对维护的各个场景,确定该场景的场景句式库,并基于该场景的场景句式库,更新该场景下各个企业的智能问答库,从而简化了企业运营和维护智能问答库的难度,降低了智能问答库的运营和维护成本,而且,基于场景的场景句式库,更新该场景下各个企业的智能问答库,使得该场景下每个企业的智能问答库中都包含有基于其他企业的通用句式更新的问询语料,从而丰富了每个企业的智能问答库中的问询数量,进而提高了用户意图识别的成功率和回复检索的命中率。
本申请的其它特征和优点将在随后的说明书中阐述,部分地可以从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中数据处理系统的系统框架示意图;
图2A为本申请实施例中一种数据处理方法的概况流程示意图;
图2B为本申请实施例中实体词识别和实体词标签替换示意图;
图2C为本申请实施例中初始场景句式库创建示意图;
图2D为本申请实施例中通用句式组获取示意图;
图2E为本申请实施例中新添通用句式组示意图;
图2F为本申请实施例中更新第一通用句式组示意图;
图2G为本申请实施例中不更新第一通用句式组示意图;
图3为本申请实施例中另一种数据处理方法的概况流程示意图;
图4为本申请实施例中另一种数据处理方法的概况流程示意图;
图5为本申请实施例中一种数据处理装置的功能结构示意图;
图6为本申请实施例中另一种数据处理装置的功能结构示意图;
图7为本申请实施例中另一种数据处理装置的功能结构示意图;
图8为本申请实施例中电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及有益效果更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于本领域技术人员更好地理解本申请,下面先对本申请涉及的技术用语进行简单介绍。
1、智能设备,为具有语音交互功能的机器人、智能家居(如智能音箱、智能电视等)、智能手机、平板电脑等。
2、场景,为智能设备的使用场景,例如:商场、图书馆、博物馆、医院、酒店等。
3、语料,即语言材料,可以是对语音进行解析获得的文本材料,也可以是预先配置的文本材料;
语料库,为存储有企业对应的语料的数据库。
4、实体词,可以是预先配置的在特定场景下使用频率高的词语(可以是名词、动词等),也可以是语料中的名词。例如:语料“我想去麦当劳”包含的实体词为“麦当劳”;
实体词库,可以是存储有企业对应的实体词的数据库,本申请中,一个企业可以对应一个实体词库,也可以是存储有同一场景下各个企业的实体词的数据库,本申请中,一个场景可以对应一个实体词库。
5、通用句式,为将语料包含的实体词替换成对应的实体词标签后得到的句式。例如:将语料“我想去麦当劳”包含的实体词“麦当劳”替换成对应的实体词标签“<location_food>”,可以得到通用句式“我想去<location_food>”;
场景句式库,为存储有同一场景下各个企业的通用句式的数据库,本申请中,一个场景可以对应一个场景句式库。
6、智能问答库,为存储有企业对应的问询语料和相应回复的数据库,本申请中,一个企业可以对应一个智能问答库。
需要说明的是,本申请中提及的“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样的用语在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
在介绍了本申请涉及的技术用语后,接下来,对本申请实施例的应用场景和设计思想进行简单介绍。
目前,智能设备的智能问答库由企业单独运营和维护,智能问答库的运行和维护成本较高,而且,各个企业对智能问答库进行运营和维护的程度参差不齐,智能问答库根据所属企业运行和维护的智能问答库,对接收到的问询进行用户意图识别和回复检索时,可能存在用户意图识别的成功率和回复检索的命中率较低的问题。
为此,本申请实施例中,参阅图1所示,智能设备101通过通信网络102与服务器103进行通信连接,服务器103针对维护的各个场景,确定该场景的场景句式库,并基于该场景的场景句式库,更新该场景下各个企业的智能问答库,从而可以简化企业运营和维护智能问答库的难度,降低智能问答库的运行和维护成本,而且,可以进一步基于场景的场景句式库,更新该场景下各个企业的智能问答库,从而使该场景下每个企业的智能问答库中都包含有基于其他企业的通用句式更新的问询语料,进而可以丰富每个企业的智能问答库中的问询数量,提高企业意图识别的成功率和回复检索的命中率。
应当理解,图1中的智能设备101、通信网络102、服务器103的数目仅仅是示意性的,根据实际需求可以具有任意数目的智能设备101、通信网络102和服务器103,对此本申请不作具体限定。
在介绍了本申请实施例的应用场景和设计思想之后,下面对本申请实施例提供的技术方案进行说明。
本申请实施例提供了一种数据处理方法,该数据处理方法可以应用于如图1所示的数据处理系统中的服务器103,参阅图2A所示,本申请实施例提供的数据处理方法的概况流程如下:
步骤201:确定待处理的目标场景。
实际应用中,服务器103在确定待处理的目标场景时,可以采用但不限于以下方式:
第一种方式:服务器103可以将维护的各个场景分别确定为目标场景。
第二种方式:服务器103若接收到配置指令,则可以将该配置指令指示的场景确定为目标场景。
第三种方式:服务器103可以在确定任一企业的语料有更新时,将该企业所属场景确定为目标场景。
步骤202:获取目标场景对应的企业的语料作为目标语料。
在具体实施时,服务器103可以根据企业标识,获取该企业标识对应的语料作为该企业的目标语料。
实际应用中,服务器103在获取目标场景对应的企业的语料作为目标语料时,可以确定目标场景对应的企业,并根据企业标识,确定该企业的语料库,根据该语料库中每个类别的语料组包含的各个语料,确定目标语料。
具体的,服务器103在根据该语料库中每个类别的语料组包含的各个语料,确定目标语料时,可能存在但不限于以下两种情况:
第一种情况:若为首次确定,则服务器103可以将该语料库中每个类别的语料组包含的各个语料分别确定目标语料。
例如:假设服务器103确定出的目标场景为商场,根据预先配置的目标场景与企业的映射关系,确定商场对应的企业包括商场1和商场2,商场1对应的语料库A中包含位置咨询和优惠活动两个类别的语料组,商场2对应的语料库B中包含位置咨询一个类别的语料组,则:
服务器103针对商场1,可以将语料库A包含的位置咨询类别下的语料组中的各个语料,以及优惠活动类别下的语料组中的各个语料,分别确定为目标语料;
服务器103针对商场2,可以将语料库B包含的位置咨询类别下的语料组中的各个语料,分别确定为目标语料。
第二种情况:若为非首次确定,则服务器103可以根据该语料库中每个类别的语料组包含的各个语料的添加时间,选取上一次获取目标语料后新添加的各个语料,并将新添加的各个语料分别确定为目标语料。
例如:假设服务器103确定出的目标场景为商场,根据预先配置的目标场景与企业的映射关系,确定商场对应的企业包括商场1和商场2,商场1对应的语料库A中包含位置咨询和优惠活动两个类别的语料组,商场2对应的语料库B中包含位置咨询一个类别的语料组,则:
服务器103针对商场1,可以根据语料库A包含的位置咨询类别下的语料组中各个语料的添加时间,以及优惠活动类别下的语料组中各个语料的添加时间,选取上一次获取目标语料后为商场1新添加的各个语料,并将选取的为商场1新添加的各个语料分别确定为商场1的目标语料;
服务器103针对商场2,可以根据语料库B包含的位置咨询类别下的语料组中各个语料的添加时间,选取上一次获取目标语料后为商场2新添加的各个语料,并将选取的为商场2新添加的各个语料分别确定为商场2的目标语料。
步骤203:将目标语料转换成通用句式,得到目标语料对应的通用句式。
本申请实施例中,为了在将目标语料转换成通用句式的过程中,能够对目标语料包含的实体词进行精准识别,在确定目标场景的场景句式库之前,服务器103可以先确定目标场景的实体词库。实际应用中,服务器103可以获取目标场景对应的企业的实体词,并基于获得的各个实体词,确定目标场景的实体词库。具体的,服务器103基于获得的各个实体词,确定目标场景的实体词库时,可能存在但不限于以下两种情况:
第一种情况:若为首次确定,则服务器103可以对目标场景对应的各企业的实体词进行去重处理,并基于去重处理后得到的各个实体词,生成初始实体词库作为目标场景的实体词库。
第二种情况:若为非首次确定,则服务器103可以基于目标场景对应的各企业的实体词,对上一次确定出的目标场景的第一实体词库进行更新,得到第二实体词库作为目标场景的实体词库。
基于上述任一实施例,服务器103确定目标场景的实体词库之后,可以根据目标场景的实体词库,将目标语料转换成通用句式,具体的,服务器103根据目标场景的实体词库,将目标语料转换成通用句式时,可以采用但不限于以下方式:
首先,服务器103可以根据目标场景的实体词库,对目标语料进行实体词识别,得到目标语料包含的目标实体词。
然后,服务器103可以将目标语料包含的目标实体词,替换为目标实体词对应的实体词标签,得到目标语料对应的通用句式。
例如:参阅图2B所示,假设商场1、商场2和商场3各自对应的语料库中均包含位置咨询一个类别的语料组,其中:
标识为“uuid1”的商场1对应的语料库A中,位置咨询类别下的语料组包含“我想去麦当劳”、“带我去麦当劳可以吗”、“麦当劳在什么地方啊”等语料,则,服务器103根据商场1的实体词库,对目标语料“我想去麦当劳”进行实体词识别,可以得到目标语料“我想去麦当劳”包含的目标实体词“麦当劳”,将目标语料“我想去麦当劳”包含的目标实体词“麦当劳”替换为目标实体词“麦当劳”对应的实体词标签“<location_food>”,可以得到目标语料“我想去麦当劳”对应的通用句式“我想去<location_food>”;采用类似的处理,得到目标语料“带我去麦当劳可以吗”对应的通用句式“带我去<location_food>可以吗”,以及目标语料“麦当劳在什么地方啊”对应的通用句式“<location_food>在什么地方啊”。
标识为“uuid2”的商场2对应的语料库B中,位置咨询类别下的语料组包含“我想去KFC”,“KFC在哪一层”、“KFC在哪个位置”等语料,则,服务器103根据商场2的实体词库,对目标语料“我想去KFC”进行实体词识别,可以得到目标语料“我想去KFC”包含的目标实体词“KFC”,将目标语料“我想去KFC”包含的目标实体词“KFC”替换为目标实体词“KFC”对应的实体词标签“<location_food>”,可以得到目标语料“我想去KFC”对应的通用句式“我想去<location_food>”;采用类似的处理,得到目标语料“KFC在哪一层”对应的通用句式“<location_food>在哪一层”,以及目标语料“KFC在哪个位置”对应的通用句式“<location_food>在哪个位置”。
标识为“uuid3”的商场3对应的语料库B中,位置咨询类别下的语料组包含“呷哺呷哺在几楼”、“你知道呷哺呷哺在哪吗”、“呷哺呷哺在什么地方”等语料,则,服务器103根据商场3的实体词库,对目标语料“呷哺呷哺在几楼”进行实体词识别,可以得到目标语料“呷哺呷哺在几楼”包含的目标实体词“呷哺呷哺”,将目标语料“呷哺呷哺在几楼”包含的目标实体词“呷哺呷哺”替换为目标实体词“呷哺呷哺”对应的实体词标签“<location_food>”,可以得到目标语料“呷哺呷哺在几楼”对应的通用句式“<location_food>在几楼”;采用类似的处理,得到目标语料“你知道呷哺呷哺在哪吗”对应的通用句式“你知道<location_food>在哪吗”,以及目标语料“呷哺呷哺在什么地方”对应的通用句式“<location_food>在什么地方”。
步骤204:基于目标语料对应的通用句式,确定目标场景的场景句式库。
实际应用中,服务器103在基于目标语料对应的通用句式,确定目标场景的场景句式库时,可能存在但不限于以下两种情况:
第一种情况:若为首次确定,则服务器103可以基于目标语料对应的通用句式,生成初始场景句式库作为目标场景的场景句式库。
实际应用中,服务器103在基于目标语料对应的通用句式,生成初始场景句式库时,可以采用但不限于以下方式:
服务器103可以对各个目标语料对应的通用句式进行聚类,得到至少一个通用句式组,并基于该至少一个通用句式组,获得目标场景的初始场景句式库,其中,初始场景句式库中每个通用句式组配置一个类别标识,具体的,服务器103可以针对初始场景句式库中每个通用句式组,根据该通用句式组包含的通用句式表征的语义,为该通用句式组配置一个类别标识。
例如:参阅图2C所示,假设目标场景为商场,根据预先配置的目标场景与企业的映射关系,确定商场对应的企业包含标识为“uuid1”的商场1、标识为“uuid2”的商场2和标识为“uuid3”的商场3,则:
服务器103可以获取商场1对应的目标语料,分别为“KFC在哪”、“KFC在什么地方”、“带我去KFC”等,并获取商场2对应的目标语料,分别为“MDL在哪”、“MDL在什么位置”、“我想去MDL”等,以及获取商场3对应的目标语料,分别为“ONLY的方位”、“ONLY在几楼”、“我想去ONLY”等;
服务器103可以对商场1的目标语料进行实体词识别和实体词标签替换,得到商场1的通用句式,分别为“<LOC>在哪”、“<LOC>在什么地方”、“带我去<LOC>”等,并对商场2的目标语料进行实体词识别和实体词标签替换,得到商场2的通用句式,分别为“<LOC>在哪”、“<LOC>在什么位置”、“我想去<LOC>”等,以及对商场3的目标语料进行实体词识别和实体词标签替换,得到商场2的通用句式,分别为“<LOC>的方位”、“<LOC>在几楼”、“我想去<LOC>”等;
服务器103可以对商场1、商场2和商场3的通用句式进行聚类,得到通用句式组,该通用句式组中包含“<LOC>在哪”、“<LOC>在什么地方”、“<LOC>在什么位置”、“带我去<LOC>”、“我想去<LOC>”、“<LOC>的方位”、“<LOC>在几楼”等通用句式;
服务器103可以基于该通用句式组,获得目标场景“商场”的初始场景句式库,并且,服务器103可以根据该通用句式组中的通用句式表征的语义“位置咨询”,为该通用句式组配置类别标识“位置咨询”。
在具体实施时,服务器103在对各个目标语料对应的通用句式进行聚类,得到至少一个通用句式组时,可以采用但不限于以下方式:
首先,服务器103针对每个企业,可以对该企业的各个目标语料对应的通用句式进行聚类,得到该企业对应的各个通用句式形成的无向图,其中,无向图表征该企业对应的各个通用句式之间的聚类关系。
然后,服务器103采用并查集算法,对各个企业对应的无向图进行处理,得到至少一个连通子图,其中,连通子图连接的各个通用句式之间的语义相似度不低于设定阈值。
最后,服务器103对于每个连通子图,可以将该连通子图所连接的通用句式确定为一个通用句式组,得到至少一个通用句式组。
例如:参阅图2D所示,假设服务器103对商场1的各个目标语料对应的通用句式进行聚类,可以得到商场1对应的无向图中包含的“我想去<location_food>”、“带我去<location_food>可以吗”、“<location_food>在什么地方啊”等通用句式;
服务器103对商场2的各个目标语料对应的通用句式进行聚类,可以得到商场2对应的无向图中包含的“我想去<location_food>”、“<location_food>在哪一层”、“<location_food>在哪个位置”等通用句式;
服务器103对商场3的各个目标语料对应的通用句式进行聚类,可以得到商场3对应的无向图中包含的“<location_food>在几楼”、“你知道<location_food>在哪吗”、“<location_food>在什么地方”等通用句式;
服务器103采用并查集算法,对商场1、商场2和商场3的无向图进行处理,可以得到连通子图连接的“我想去<location_food>”、“带我去<location_food>可以吗”、“<location_food>在什么地方啊”、“<location_food>在哪一层”、“<location_food>在哪个位置”、“<location_food>在几楼”、“你知道<location_food>在哪吗”等通用句式;
服务器103将该连通子图所连接的“我想去<location_food>”、“带我去<location_food>可以吗”、“<location_food>在什么地方啊”、“<location_food>在哪一层”、“<location_food>在哪个位置”、“<location_food>在几楼”、“你知道<location_food>在哪吗”等通用句式确定为一个通用句式组。
值得说的是,在另一个实施例中,目标场景的初始场景句式库还可以是根据该目标场景下使用频率高的通用句式,为该目标场景预先配置。
例如:假设目标场景为商场,该目标场景下使用频率高的通用句式包括“<LOC>在哪”、“<LOC>在什么地方”、“<LOC>在什么位置”、“带我去<LOC>等,则可以将“<LOC>在哪”、“<LOC>在什么地方”、“<LOC>在什么位置”、“带我去<LOC>等通用句式确定为一个通用句式组,并根据该通用句式组中的通用句式表征的语义“位置咨询”,为该通用句式组配置类别标识“位置咨询”后,基于该通用句式组,获得目标场景“商场”的初始场景句式库并配置在服务器103中。这样,后续服务器103就可以基于目标场景“商场”对应的企业的语料,对该初始场景句式库进行更新。
第二种情况:若为非首次确定,则服务器103可以基于目标语料对应的通用句式,对上一次得到的目标场景的第一场景句式库进行更新,得到第二场景句式库作为目标场景的场景句式库。
实际应用中,服务器103在基于目标语料对应的通用句式,对上一次得到的目标场景的第一场景句式库进行更新,得到第二场景句式库时,可以采用但不限于以下方式:
首先,服务器103可以从目标场景的第一场景句式库中,获取与目标语料对应的通用句式相匹配的第一通用句式组。
具体的,服务器103从目标场景的第一场景句式库中,获取与目标语料对应的通用句式相匹配的第一通用句式组时,可采用但不限于以下方式:
服务器103从目标场景的第一场景句式库中,获取与目标语料所属的语料组中任一语料对应的通用句式相匹配的通用句式作为目标通用句式,并将目标通用句式所属的通用句式组,确定为与目标语料对应的通用句式相匹配的第一通用句式组。
然后,服务器103基于第一通用句式组的获取结果,采用相应的句式库更新方式,对上一次得到的目标场景的第一场景句式库进行更新。
具体的,服务器103基于第一通用句式组的获取结果,采用相应的句式库更新方式,对上一次得到的目标场景的第一场景句式库进行更新时,可能存在但不限于以下两种情况:
第一种情况:服务器103未获得与目标语料对应的通用句式相匹配的第一通用句式组。
此种情况下,服务器103可以确定第一场景句式库中不存在与目标语料所属类别相同的第一通用句式组。
进一步的,服务器103可以将目标语料对应的通用句式确定为新的通用句式组,添加至第一场景句式库中,得到目标场景的第二场景句式库。
例如:参阅图2E所示,假设目标场景为商场,目标语料为“厕所收费吗”,则服务器103可以对目标语料“厕所收费吗”所属的语料组中任一语料,比如“厕所收不收费”进行实体词识别和实体词标签替换,得到该任一语料“厕所收不收费”对应的通用句式“<LOC>收不收费”,将该任一语料“厕所收不收费”对应的通用句式“<LOC>收不收费”与商场的第一场景句式库进行匹配,确定无匹配结果时,可以认为商场的第一场景句式库中不存在与目标语料“厕所收费吗”所属类别相同的第一通用句式组。
此种情况下,服务器103可以为目标语料“厕所收费吗”对应的通用句式“<LOC>收费吗”配置新的通用句式组标签,并将目标语料“厕所收费吗”对应的通用句式“<LOC>收费吗”确定为新的通用句式组添加至商场的第一场景句式库中,得到商场的第二场景句式库。
第二种情况:服务器103获得与目标语料对应的通用句式相匹配的第一通用句式组。
此种情况下,服务器103可以确定第一场景句式库中存在与目标语料所属类别相同的第一通用句式组。
在一种示例中,服务器103可以在确定目标语料对应的第一通用句式组中不存在目标语料对应的通用句式时,将目标语料对应的通用句式更新至目标语料对应的第一通用句式组,得到目标场景的第二场景句式库。
例如:参阅图2F所示,假设目标场景为商场,目标语料为“厕所怎么走”,则服务器103可以对目标语料“厕所怎么走”所属的语料组中任一语料,比如“厕所在哪”进行实体词识别和实体词标签替换,得到该任一语料“厕所在哪”对应的通用句式“<LOC>在哪”,将该任一语料“厕所在哪”对应的通用句式“<LOC>在哪”与商场的第一场景句式库进行匹配,确定有匹配结果时,可以认为商场的第一场景句式库中存在与目标语料“厕所怎么走”所属类别相同的第一通用句式组。
此种情况下,服务器103可以进一步确定目标语料“厕所怎么走”对应的第一通用句式组中不存在目标语料“厕所怎么走”对应的通用句式“<LOC>怎么走”时,将目标语料“厕所怎么走”对应的通用句式“<LOC>怎么走”更新至目标语料“厕所怎么走”对应的第一通用句式组,得到商场的第二场景句式库。
在另一个示例中,服务器103在确定目标语料对应的第一通用句式组中已存在目标语料对应的通用句式时,可以不对目标语料对应的第一通用句式组进行更新,即目标场景的第二场景句式库仍为并将上一次得到的该目标场景的第一场景句式库,确定为目标场景的第二场景句式库。
例如:参阅图2G所示,假设目标场景为商场,目标语料为“厕所在什么地方”,则服务器103可以对目标语料“厕所在什么地方”所属的语料组中任一语料,比如“厕所在哪”进行实体词识别和实体词标签替换,得到该任一语料“厕所在哪”对应的通用句式“<LOC>在哪”,将该任一语料“厕所在哪”对应的通用句式“<LOC>在哪”与商场的第一场景句式库进行匹配,确定有匹配结果时,可以认为商场的第一场景句式库中存在与目标语料“厕所在什么地方”所属类别相同的第一通用句式组。
此种情况下,服务器103可以进一步确定目标语料“厕所在什么地方”对应的第一通用句式组中存在目标语料“厕所在什么地方”对应的通用句式“厕所在什么地方”时,可以不对目标语料“厕所在什么地方”对应的第一通用句式组进行更新,即商场的第二场景句式库仍为上一次得到的商场的第一场景句式库。
需要说明的是,上述目标语料可以是一个语料,也可以是属于同一类别的一组语料,在基于目标语料确定目标场景的场景句式库时,可以分别基于每个目标语料执行上述数据处理过程,以确定目标场景的场景句式库,也可以基于属于同一类别的一组目标语料执行上述数据处理过程,以确定目标场景的场景句式库。
本申请实施例中,通过对同一场景下各个企业的目标语料进行处理,使得最终获得的场景句式库集合了该场景下各个企业的通用句式,从而实现了对该场景的场景句式库的集中运营和维护。进一步的,为了能够丰富各个企业的智能问答库中的问询数量,服务器103还可以根据该场景的场景句式库,对该场景对应的企业的智能问答库进行更新,从而使该场景下每个企业的智能问答库中都包含有基于其他企业的通用句式更新的问询语料,进而达到了丰富智能问答库中问询数量的目的。
服务器103可以采用本申请实施例提供的另一种数据处理方法,对该场景对应的企业的智能问答库进行更新,参阅图3所示,本申请实施例提供的数据处理方法的概况流程如下:
步骤301:确定待处理的目标企业。
实际应用中,服务器103在确定待处理的目标企业时,可以采用但不限于以下方式:
第一种方式:服务器103可以将维护的各个场景对应的每一个企业分别确定为目标企业。
第二种方式:服务器103若接收到配置指令,则可以将该配置指令指示的企业确定为目标企业。
第三种方式:服务器103可以在确定任一企业的语料有更新时,将该企业确定为目标企业。
步骤302:确定目标企业所属场景对应的场景句式库,其中,场景句式库是基于场景下各个企业对应的语料的通用句式确定的。
实际应用中,服务器103可以将维护的各个场景的场景句式库和场景标识关联存储在指定区域,在确定待处理的目标企业之后,服务器103可以根据目标企业所属场景的场景标识,从指定区域中获取目标企业所属场景对应的场景句式库。
步骤303:基于场景句式库中的通用句式,更新目标企业的智能问答库。
实际应用中,服务器103基于场景句式库中的通用句式,更新目标企业的智能问答库时,可以针对目标企业的智能问答库中的至少一个问询语料组执行如下处理:
首先,服务器103可以将问询语料组包含的各个问询语料分别转换成通用句式,得到各个问询语料对应的通用句式。
然后,服务器103可以从场景句式库中,获取与智能问答库中的问询语料组的类型相匹配的目标通用句式组。
其次,服务器103可以从目标通用句式组中,获得除各个问询语料对应的通用句式之外的其他通用句式为目标通用句式。
最后,服务器103可以基于目标通用句式,对问询语料组进行更新。具体的,服务器103基于目标通用句式,对问询语料组进行更新时,可以采用但不限于以下方式:
首先,服务器103可以基于目标企业对应的实体词库,对问询语料组包含的各个问询语料分别进行实体词识别,得到各个问询语料包含的目标实体词。
然后,服务器103可以将目标通用句式包含的实体词标签,分别替换为各个问询语料包含的目标实体词,得到目标通用句式对应的各个问询语料。
最后,服务器103可以将目标通用句式对应的各个问询语料更新至问询语料组。
本申请实施例中,通过目标企业所属场景对应的场景句式库,对目标企业的智能问答库进行更新时,不仅可以简化企业运营和维护智能问答库的难度,降低智能问答库的运营和维护成本,而且,还可以丰富各个企业的智能问答库中的问询数量,提高企业意图识别的成功率和回复检索的命中率。
进一步的,智能设备101在根据所属企业的智能问答库,对接收到的问询请求进行企业意图识别和回复检索时,可以采用本申请实施例提供的另一种数据处理方法,具体的,参阅图4所示,本申请实施例提供的数据处理方法的概况流程如下:
步骤401:获取问询请求。
实际应用中,智能设备101可以对企业语音进行监听,当监听到企业语音时,可以将该企业语音解析成文本材料作为问询请求。
步骤402:若该问询请求未命中智能设备101对应的智能问答库,则将该问询请求转换成通用句式。
实际应用中,智能设备101获得问询请求后,可以先在智能设备101对应的智能问答库中检测该问询请求是否命中,确定该问询请求命中智能设备101对应的智能问答库时,可以直接从智能设备101对应的智能问答库中,获取该问询请求对应的回复作为该问询请求的响应信息,确定该问询请求未命中智能设备101对应的智能问答库时,可以进一步在智能设备101所属企业的智能问答库中检测该问询请求是否命中,确定该问询请求命中智能设备101所属企业的智能问答库时,可以根据智能设备101所属企业的智能问答库对应的兜底回复,确定该问询请求的响应信息,确定该问询请求未命中智能设备101所属企业的智能问答库时,可以进一步将该问询请求转换成通用句式,并在智能设备101所属场景的场景句式库中检测该问询请求是否命中,继续执行步骤403。
步骤403:若该通用句式命中智能设备对应的场景句式库,则根据该场景句式库对应的兜底回复,确定该问询请求的响应信息,其中,场景句式库是基于场景下各个企业对应的语料的通用句式确定的。
实际应用中,智能设备101根据场景句式库对应的兜底回复,确定该问询请求的响应信息时,可以采用但不限于以下方式:智能设备101若该问询请求包含实体词,则将场景句式库对应的兜底回复包含的实体词标签,替换为该问询请求包含的实体词,得到该问询请求的响应信息。
例如:假设问询请求为“麦当劳在哪”,场景句式库对应的兜底回复为“管理员还没告诉我<实体词标签>在哪里”,则智能设备101可以将场景句式库对应的兜底回复“管理员还没告诉我<实体词标签>在哪里”包含的实体词标签,替换为问询请求“麦当劳在哪”包含的实体词“麦当劳”,得到问询请求“麦当劳在哪”的响应信息为“管理员还没告诉我麦当劳在哪里”。
值得说的是,若该通用句式未命中智能设备101对应的场景句式库,则智能设备101可以进一步根据智能设备101所属业务线的业务问答库中检测该问询请求是否命中,确定该问询请求命中智能设备101所属业务线的业务问答库时,可以从该业务问答库中,获取该问询请求对应的回复作为该问询请求的响应信息,确定该问询请求未命中智能设备101所属业务线的业务问答库时,可以根据业务问答库对应的兜底回复,获得该问询请求的响应信息。
例如:问询请求为“你们公司在哪里”,业务句式库对应的兜底回复为“我不知道,管理员小哥还没有教我”,则智能设备101在确定问询请求“你们公司在哪里”未命中业务问答库时,可以将业务句式库对应的兜底回复“我不知道,管理员小哥还没有教我”确定为问询请求“你们公司在哪里”的响应信息。
基于上述实施例,本申请实施例提供了一种数据处理装置,该数据处理装置可以应用于如图1所示的数据处理系统中的服务器103,参阅图5所示,本申请实施例提供的数据处理装置500至少包括:
场景确定单元501,用于确定待处理的目标场景;
语料获取单元502,用于获取目标场景对应的企业的语料作为目标语料;
句式转换单元503,用于将目标语料转换成通用句式,得到目标语料对应的通用句式;
句式库确定单元504,用于基于目标语料对应的通用句式,确定目标场景的场景句式库。
在一种可能的实施方式中,在确定待处理的目标场景时,场景确定单元501具体用于:
将维护的各个场景分别确定为目标场景;或者,
若接收到配置指令,则将配置指令指示的场景确定为目标场景;或者,
确定任一企业的语料有更新时,将企业所属场景确定为目标场景。
在一种可能的实施方式中,本申请实施例提供的数据处理装置500还包括:
实体词获取单元505,用于获取目标场景对应的企业的实体词;
实体词库确定单元506,用于基于实体词获取单元获得的各个实体词,确定目标场景的实体词库。
在一种可能的实施方式中,在基于实体词获取单元获得的各个实体词,确定目标场景的实体词库时,实体词库确定单元506具体用于:
若为首次确定,则对目标场景对应的各企业的实体词进行去重处理,并基于去重处理后得到的各个实体词,生成初始实体词库作为目标场景的实体词库;
或者,若为非首次确定,则基于目标场景对应的各企业的实体词,对上一次确定出的目标场景的第一实体词库进行更新,得到第二实体词库作为目标场景的实体词库。
在一种可能的实施方式中,在将目标语料转换成通用句式,得到目标语料对应的通用句式时,句式转换单元503具体用于:
根据目标场景的实体词库,对目标语料进行实体词识别,得到目标语料包含的目标实体词;将目标语料包含的目标实体词,替换为目标实体词对应的实体词标签,得到目标语料对应的通用句式。
在一种可能的实施方式中,在基于目标语料对应的通用句式,确定目标场景的场景句式库时,句式库确定单元504具体用于:
若为首次确定,则基于目标语料对应的通用句式,生成初始场景句式库作为目标场景的场景句式库;
或者,若为非首次确定,则基于目标语料对应的通用句式,对上一次得到的目标场景的第一场景句式库进行更新,得到第二场景句式库作为目标场景的场景句式库。
在一种可能的实施方式中,在基于目标语料对应的通用句式,生成初始场景句式库时,句式库确定单元504具体用于:
对各个目标语料对应的通用句式进行聚类,得到至少一个通用句式组;
基于至少一个通用句式组,获得目标场景的初始场景句式库,其中,初始场景句式库中每个通用句式组配置一个类别标识。
在一种可能的实施方式中,在对各个目标语料对应的通用句式进行聚类,得到至少一个通用句式组时,句式库确定单元504具体用于:
针对每个企业,对企业的各个目标语料对应的通用句式进行聚类,得到企业对应的各个通用句式形成的无向图,其中,无向图表征企业对应的各个通用句式之间的聚类关系;采用并查集算法,对各个企业对应的无向图进行处理,得到至少一个连通子图,其中,连通子图连接的各个通用句式之间的语义相似度不低于设定阈值;对于每个连通子图,将连通子图所连接的通用句式确定为一个通用句式组,得到至少一个通用句式组。
在一种可能的实施方式中,在基于目标语料对应的通用句式,对上一次得到的目标场景的第一场景句式库进行更新,得到第二场景句式库时,句式库确定单元504具体用于:
从目标场景的第一场景句式库中,获取与目标语料对应的通用句式相匹配的第一通用句式组;基于目标语料对应的通用句式,对目标语料对应的第一通用句式组进行更新,得到第二场景句式库。
在一种可能的实施方式中,在获取目标场景对应的企业的语料作为目标语料时,语料获取单元502具体用于:
确定目标场景对应的企业的语料库,并根据将语料库中每个类别下的语料组包含的各个语料,确定目标语料;
在从目标场景的第一场景句式库中,获取与目标语料对应的通用句式相匹配的第一通用句式组时,句式库确定单元504具体用于:
从目标场景的第一场景句式库中,获取与目标语料所属的语料组中任一语料对应的通用句式相匹配的通用句式作为目标通用句式,并将目标通用句式所属的通用句式组,确定为与目标语料对应的通用句式相匹配的第一通用句式组。
基于上述实施例,本申请实施例还提供了另一种数据处理装置,该数据处理装置可以应用于如图1所示的数据处理系统中的服务器103,参阅图6所示,本申请实施例提供的数据处理装置600至少包括:
确定单元601,用于确定待处理的目标企业;
句式库确定单元602,用于确定目标企业所属场景对应的场景句式库,其中,场景句式库是基于场景下各个企业对应的语料的通用句式确定的;
问答库更新单元603,用于基于场景句式库中的通用句式,更新目标企业的智能问答库。
在一种可能的实施方式中,在确定待处理的目标企业时,确定单元601具体用于:
将维护的各个场景对应的每一个企业分别确定为目标企业;
或者,若接收到配置指令,则将配置指令指示的企业确定为目标企业;
或者,确定任一企业的语料有更新时,将企业确定为目标企业。
在一种可能的实施方式中,在基于场景句式库中的通用句式,更新目标企业的智能问答库时,问答库更新单元603具体用于:
确定目标企业的智能问答库,对于智能问答库中的至少一个问询语料组执行如下处理:
将问询语料组包含的各个问询语料分别转换成通用句式,得到各个问询语料对应的通用句式;从场景句式库中,获取与智能问答库中的问询语料组的类型相匹配的目标通用句式组;从目标通用句式组中,获得除各个问询语料对应的通用句式之外的其他通用句式为目标通用句式;基于目标通用句式,对问询语料组进行更新。
在一种可能的实施方式中,在基于目标通用句式,对问询语料组进行更新时,问答库更新单元603具体用于:
基于目标企业对应的实体词库,对问询语料组包含的各个问询语料分别进行实体词识别,得到各个问询语料包含的目标实体词;将目标通用句式包含的实体词标签,分别替换为各个问询语料包含的目标实体词,得到目标通用句式对应的各个问询语料;将目标通用句式对应的各个问询语料更新至问询语料组。
基于上述实施例,本申请实施例还提供了另一种数据处理装置,该数据处理装置可以应用于如图1所示的数据处理系统中的智能设备101,参阅图7所示,本申请实施例提供的数据处理装置700至少包括:
问询获取单元701,用于获取问询请求;
句式转换单元702,用于若问询请求未命中智能设备对应的智能问答库,则将问询请求转换成通用句式;
响应确定单元703,用于若通用句式命中智能设备对应的场景句式库,则根据场景句式库对应的兜底回复,确定问询请求的响应信息,其中,场景句式库是基于场景下各个企业对应的语料的通用句式确定的。
在一种可能的实施方式中,在根据场景句式库对应的兜底回复,确定问询请求的响应信息时,响应确定单元703具体用于:
若问询请求包含实体词,则将兜底回复包含的实体词标签,替换为问询请求包含的实体词,得到问询请求的响应信息。
需要说明的是,本申请实施例提供的三种数据处理装置解决技术问题的原理与本申请实施例提供的数据处理方法相似,因此,本申请实施例提供的三种数据处理装置的实施可以参见本申请实施例提供的数据处理方法的实施,重复之处不再赘述。
在介绍了本申请实施例提供的数据处理方法和装置之后,接下来,对本申请实施例提供的电子设备进行简单介绍。
本申请实施例提供的电子设备可以是如图1所示的数据处理系统中的服务器103,参阅图8所示,本申请实施例提供的电子设备800至少包括:处理器801、存储器802和存储在存储器802上并可在处理器801上运行的计算机程序,处理器801执行计算机程序时实现本申请实施例提供的数据处理方法。
需要说明的是,图8所示的电子设备800仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例提供的电子设备800还可以包括连接不同组件(包括处理器801和存储器802)的总线803。其中,总线803表示几类总线结构中的一种或多种,包括存储器总线、外围总线、局域总线等。
存储器802可以包括易失性存储器形式的可读介质,例如随机存储器(RandomAccess Memory,RAM)8021和/或高速缓存存储器8022,还可以进一步包括只读存储器(ReadOnly Memory,ROM)8023。
存储器802还可以包括具有一组(至少一个)程序模块8024的程序工具8025,程序模块8024包括但不限于:操作子系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备800也可以与一个或多个外部设备804(例如键盘、遥控器等)通信,还可以与一个或者多个使得用户能与电子设备800交互的设备通信(例如手机、电脑等),和/或,与使得电子设备800与一个或多个其它电子设备800进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口805进行。并且,电子设备800还可以通过网络适配器806与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图8所示,网络适配器806通过总线803与电子设备800的其它模块通信。应当理解,尽管图8中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks,RAID)子系统、磁带驱动器以及数据备份存储子系统等。
下面对本申请实施例提供的计算机可读存储介质进行介绍。本申请实施例提供的计算机可读存储介质存储有计算机指令,计算机指令被处理器执行时实现本申请实施例提供的数据处理方法。具体地,该可执行程序可以内置或者安装在电子设备800中,这样,电子设备800就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的数据处理方法。
此外,本申请实施例提供的数据处理方法还可以实现为一种程序产品,该程序产品包括程序代码,当该程序产品可以在电子设备800上运行时,该程序代码用于使电子设备800执行本申请实施例提供的数据处理方法。
本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合,其中,可读介质可以是可读信号介质或者可读存储介质,而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合,具体地,可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码,还可以在计算设备上运行。然而,本申请实施例提供的程序产品不限于此,在本申请实施例中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
确定待处理的目标场景;
获取所述目标场景对应的企业的语料作为目标语料;
将所述目标语料转换成通用句式,得到所述目标语料对应的通用句式;
基于所述目标语料对应的通用句式,确定所述目标场景的场景句式库。
2.如权利要求1所述的数据处理方法,其特征在于,将所述目标语料转换成通用句式,得到所述目标语料对应的通用句式,包括:
根据所述目标场景的实体词库,对所述目标语料进行实体词识别,得到所述目标语料包含的目标实体词;
将所述目标语料包含的目标实体词,替换为所述目标实体词对应的实体词标签,得到所述目标语料对应的通用句式。
3.如权利要求1所述的数据处理方法,其特征在于,基于所述目标语料对应的通用句式,确定所述目标场景的场景句式库,包括:
若为首次确定,则基于所述目标语料对应的通用句式,生成初始场景句式库作为所述目标场景的场景句式库;或者,
若为非首次确定,则基于所述目标语料对应的通用句式,对上一次得到的所述目标场景的第一场景句式库进行更新,得到第二场景句式库作为所述目标场景的场景句式库。
4.如权利要求3所述的数据处理方法,其特征在于,基于所述目标语料对应的通用句式,生成初始场景句式库,包括:
对各个目标语料对应的通用句式进行聚类,得到至少一个通用句式组;
基于所述至少一个通用句式组,获得所述目标场景的初始场景句式库,其中,所述初始场景句式库中每个通用句式组配置一个类别标识。
5.如权利要求4所述的数据处理方法,其特征在于,对各个目标语料对应的通用句式进行聚类,得到至少一个通用句式组,包括:
针对每个企业,对所述企业的各个目标语料对应的通用句式进行聚类,得到所述企业对应的各个通用句式形成的无向图,其中,所述无向图表征所述企业对应的各个通用句式之间的聚类关系;
采用并查集算法,对各个企业对应的无向图进行处理,得到至少一个连通子图,其中,所述连通子图连接的各个通用句式之间的语义相似度不低于设定阈值;
对于每个连通子图,将所述连通子图所连接的通用句式确定为一个通用句式组,得到所述至少一个通用句式组。
6.如权利要求3所述的数据处理方法,其特征在于,基于所述目标语料对应的通用句式,对上一次得到的所述目标场景的第一场景句式库进行更新,得到第二场景句式库,包括:
从所述目标场景的第一场景句式库中,获取与所述目标语料对应的通用句式相匹配的第一通用句式组;
基于所述目标语料对应的通用句式,对所述目标语料对应的第一通用句式组进行更新,得到所述第二场景句式库。
7.如权利要求6所述的数据处理方法,其特征在于,获取所述目标场景对应的企业的语料作为目标语料,包括:
确定所述目标场景对应的企业的语料库,并根据所述语料库中每个类别的语料组包含的各个语料,确定所述目标语料;
从所述目标场景的第一场景句式库中,获取与所述目标语料对应的通用句式相匹配的第一通用句式组,包括:
从所述目标场景的第一场景句式库中,获取与所述目标语料所属的语料组中任一语料对应的通用句式相匹配的通用句式作为目标通用句式,并将所述目标通用句式所属的通用句式组,确定为与所述目标语料对应的通用句式相匹配的第一通用句式组。
8.一种数据处理装置,其特征在于,包括:
场景确定单元,用于确定待处理的目标场景;
语料获取单元,用于获取所述目标场景对应的企业的语料作为目标语料;
句式转换单元,用于将所述目标语料转换成通用句式,得到所述目标语料对应的通用句式;
句式库确定单元,用于基于所述目标语料对应的通用句式,确定所述目标场景的场景句式库。
9.一种电子设备,其特征在于,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1-7任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911419742.7A CN113127610B (zh) | 2019-12-31 | 2019-12-31 | 一种数据处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911419742.7A CN113127610B (zh) | 2019-12-31 | 2019-12-31 | 一种数据处理方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113127610A true CN113127610A (zh) | 2021-07-16 |
CN113127610B CN113127610B (zh) | 2024-04-19 |
Family
ID=76770714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911419742.7A Active CN113127610B (zh) | 2019-12-31 | 2019-12-31 | 一种数据处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113127610B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105895090A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 语音信号处理方法及装置 |
CN106777048A (zh) * | 2016-12-09 | 2017-05-31 | 全国组织机构代码管理中心 | 企业质量信用数据获取方法和系统 |
CN108038234A (zh) * | 2017-12-26 | 2018-05-15 | 众安信息技术服务有限公司 | 一种问句模板自动生成方法及装置 |
CN108287922A (zh) * | 2018-02-28 | 2018-07-17 | 福州大学 | 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法 |
CN108897857A (zh) * | 2018-06-28 | 2018-11-27 | 东华大学 | 面向领域的中文文本主题句生成方法 |
CN109101551A (zh) * | 2018-07-10 | 2018-12-28 | 广州极天信息技术股份有限公司 | 一种问答知识库的构建方法及装置 |
CN109190099A (zh) * | 2018-08-23 | 2019-01-11 | 上海互教教育科技有限公司 | 句模提取方法及装置 |
CN109388717A (zh) * | 2018-07-20 | 2019-02-26 | 北京智能点科技有限公司 | 一种批量生成语料的方法和系统 |
CN109408821A (zh) * | 2018-10-22 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 一种语料生成方法、装置、计算设备及存储介质 |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
US20190182382A1 (en) * | 2017-12-13 | 2019-06-13 | Genesys Telecomminications Laboratories, Inc. | Systems and methods for chatbot generation |
CN110399457A (zh) * | 2019-07-01 | 2019-11-01 | 吉林大学 | 一种智能问答方法和系统 |
CN110427478A (zh) * | 2019-08-12 | 2019-11-08 | 南京邮电大学 | 一种基于知识图谱的问答搜索方法及系统 |
CN110516063A (zh) * | 2019-07-11 | 2019-11-29 | 网宿科技股份有限公司 | 一种服务系统的更新方法、电子设备及可读存储介质 |
-
2019
- 2019-12-31 CN CN201911419742.7A patent/CN113127610B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105895090A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 语音信号处理方法及装置 |
CN106777048A (zh) * | 2016-12-09 | 2017-05-31 | 全国组织机构代码管理中心 | 企业质量信用数据获取方法和系统 |
US20190182382A1 (en) * | 2017-12-13 | 2019-06-13 | Genesys Telecomminications Laboratories, Inc. | Systems and methods for chatbot generation |
CN108038234A (zh) * | 2017-12-26 | 2018-05-15 | 众安信息技术服务有限公司 | 一种问句模板自动生成方法及装置 |
CN108287922A (zh) * | 2018-02-28 | 2018-07-17 | 福州大学 | 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法 |
CN108897857A (zh) * | 2018-06-28 | 2018-11-27 | 东华大学 | 面向领域的中文文本主题句生成方法 |
CN109101551A (zh) * | 2018-07-10 | 2018-12-28 | 广州极天信息技术股份有限公司 | 一种问答知识库的构建方法及装置 |
CN109388717A (zh) * | 2018-07-20 | 2019-02-26 | 北京智能点科技有限公司 | 一种批量生成语料的方法和系统 |
CN109190099A (zh) * | 2018-08-23 | 2019-01-11 | 上海互教教育科技有限公司 | 句模提取方法及装置 |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
CN109408821A (zh) * | 2018-10-22 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 一种语料生成方法、装置、计算设备及存储介质 |
CN110399457A (zh) * | 2019-07-01 | 2019-11-01 | 吉林大学 | 一种智能问答方法和系统 |
CN110516063A (zh) * | 2019-07-11 | 2019-11-29 | 网宿科技股份有限公司 | 一种服务系统的更新方法、电子设备及可读存储介质 |
CN110427478A (zh) * | 2019-08-12 | 2019-11-08 | 南京邮电大学 | 一种基于知识图谱的问答搜索方法及系统 |
Non-Patent Citations (2)
Title |
---|
XING ZHAO 等: "Combine with dependency parsing and entity for answer syntax pattern learning method", 《PROCEEDINGS OF THE 30TH CHINESE CONTROL CONFERENCE》, pages 3282 - 3286 * |
李家南: "IT领域问答系统的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 4, pages 138 - 1518 * |
Also Published As
Publication number | Publication date |
---|---|
CN113127610B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11334635B2 (en) | Domain specific natural language understanding of customer intent in self-help | |
CN108597519B (zh) | 一种话单分类方法、装置、服务器和存储介质 | |
JP6736173B2 (ja) | データベースへの自然言語インタフェースのための方法、システム、記録媒体およびコンピュータ・プログラム | |
CN102193973B (zh) | 呈现回答 | |
Ko et al. | Using classification techniques for informal requirements in the requirements analysis-supporting system | |
US9940355B2 (en) | Providing answers to questions having both rankable and probabilistic components | |
US20220019739A1 (en) | Item Recall Method and System, Electronic Device and Readable Storage Medium | |
CN112650858B (zh) | 应急协助信息的获取方法、装置、计算机设备及介质 | |
US20200027446A1 (en) | Visualization interface for voice input | |
US20210365488A1 (en) | Term-cluster knowledge graph for support domains | |
CN110019712A (zh) | 多意图查询方法和装置、计算机设备及计算机可读存储介质 | |
AU2017276360B2 (en) | A system for the automated semantic analysis processing of query strings | |
US20230030086A1 (en) | System and method for generating ontologies and retrieving information using the same | |
CN107480197B (zh) | 实体词识别方法及装置 | |
CN111126422B (zh) | 行业模型的建立及行业的确定方法、装置、设备及介质 | |
Jiang et al. | CSM: a cloud service marketplace for complex service acquisition | |
CN110019714A (zh) | 基于历史结果的多意图查询方法、装置、设备及存储介质 | |
WO2021199052A1 (en) | Methods and systems for searching and retrieving information | |
US20230061773A1 (en) | Automated systems and methods for generating technical questions from technical documents | |
US11036725B2 (en) | System and method for computerized data processing, analysis and display | |
CN113127610A (zh) | 一种数据处理方法、装置、设备及介质 | |
CN110674316B (zh) | 一种数据转换的方法及相关装置 | |
CN112835852B (zh) | 提升逐篇归档的效率的人物重名消歧方法、系统、设备 | |
CN113254622B (zh) | 知识点查询方法、装置及服务器 | |
CN112672266B (zh) | 异常音箱的确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |