CN113761844A - 确定目标语料的方法、装置、电子设备及存储介质 - Google Patents
确定目标语料的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113761844A CN113761844A CN202011401239.1A CN202011401239A CN113761844A CN 113761844 A CN113761844 A CN 113761844A CN 202011401239 A CN202011401239 A CN 202011401239A CN 113761844 A CN113761844 A CN 113761844A
- Authority
- CN
- China
- Prior art keywords
- target
- corpus
- information
- determining
- service platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000000463 material Substances 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 27
- 238000010276 construction Methods 0.000 claims description 21
- 238000012216 screening Methods 0.000 claims description 20
- 238000001914 filtration Methods 0.000 claims description 17
- 230000027455 binding Effects 0.000 claims description 12
- 238000009739 binding Methods 0.000 claims description 12
- 238000013210 evaluation model Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种确定目标语料的方法、装置、电子设备及存储介质,该方法包括:接收目标用户当前输入的文本信息,并确定所述文本信息所属的目标业务平台;确定与所述目标业务平台相对应的目标语料库,从与所述目标语料库中确定与所述文本信息相对应的目标语料信息;将所述目标预料信息发送至与所述目标用户相对应的目标终端。本发明实施例的技术方案,实现了在不同业务平台输入文本信息时,可以返回与文本信息相匹配的目标语料,提高了目标语料与目标用户,以及目标语料与文本信息之间的匹配度,进而提高了用户体验的技术效果。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种确定目标语料的方法、装置、电子设备及存储介质。
背景技术
通常用户与计算机交互时,多是计算机将用户输入的文字转换为相应的指令,以使计算机理解、执行并反馈与文字相对应的用户需求。
目前,对于互联网而言,需要用到文字输入的领域越来越多,如电商客服系统的客服咨询、论坛回帖等。在执行咨询客服或者论坛回帖的情形下,用户需要花费较长的时间来输入相应的文字,因此亟待一种输入辅助工具,来实现高效的文字录入。为了解决上述问题,已有相应的辅助输入工具根据用户输入的信息,来提供相应的语料。
在实现本发明的过程中时,发明人发现现有技术存在以下问题:
针对不同的业务,根据用户输入的信息反馈出的语料是相同的,即无法提供与不同业务相对应语料,导致基于辅助输入工具反馈的语料与用户之间的匹配度较低,进而影响用户体验的问题。
发明内容
本发明提供了一种确定目标语料的方法、装置、电子设备及存储介质,以实现在不同业务平台输入文字时,可以联想到与当前业务平台和文字相对应的目标语料,从而提高目标语料与用户之间的匹配度的技术效果。
第一方面,本发明实施例提供了一种确定目标语料的方法,该方法包括:
接收目标用户当前输入的文本信息,并确定所述文本信息所属的目标业务平台;
确定与所述目标业务平台相对应的目标语料库,从与所述目标语料库中确定与所述文本信息相对应的目标语料信息;
将所述目标预料信息发送至与所述目标用户相对应的目标终端。
第二方面,本发明实施例还提供了一种确定目标语料的装置,该装置包括:
目标业务平台确定模块,用于接收目标用户当前输入的文本信息,并确定所述文本信息所属的目标业务平台;
目标语料信息确定模块,用于确定与所述目标业务平台相对应的目标语料库,从与所述目标语料库中确定与所述文本信息相对应的目标语料信息;
目标语料信息发送模块,用于将所述目标预料信息发送至与所述目标用户相对应的目标终端。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例任一所述的确定目标语料的方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例任一所述的确定目标语料的方法。
本发明实施例的技术方案,在接收到目标用户输入的文本信息时,可以确定文本信息所属的目标业务平台,从与目标业务平台对应的语料库中联想与文本信息相对应的目标语料信息,因此确定出的目标语料信息是与目标用户和目标业务平台相匹配的,进一步将确定的目标语料反馈至目标用户所对应的终端,用户可以从反馈的目标语料信息中选择将要输入的文本信息,节省了用户输入文字的时间,从而提高了用户体验的技术效果。
附图说明
为了更加清楚地说明本发明示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
图1为本发明实施例一所提供的一种确定目标语料的方法流程示意图;
图2为本发明实施例二所提供的一种确定目标语料的方法流程示意图;
图3为本发明实施例所提供的与确定目标语料的方法相对应的系统架构示意图;
图4为本发明实施例所提供的系统结构中接入层对应的结构示意图;
图5为本发明实施例所提供的系统结构中数据层对应的结构示意图;
图6为本发明实施例所提供的系统结构中数据构建层对应的结构示意图;
图7为本发明实施例所提供的电商咨询中包括的特征示意图;
图8为本发明实施例所提供的系统结构中数据特征层关联的示意图;
图9为本发明实施例三提供的一种确定目标语料的装置结构示意图;
图10为本发明实施例四所提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一所提供的一种确定目标语料的方法流程示意图,本实施例可适用于在不同业务平台输入文字时,可以根据当前输入的文字联想到接下来要输入的文本信息,即语料信息,并反馈至当前输入的文字所属的目标终端,以供用户选择的情况,该方法可以由确定目标语料的装置来执行,该装置可以通过软件和/或硬件的形式实现。
在介绍本实施例技术方案之前,先简单介绍下应用场景。用户可以在各个业务平台中编辑相应的文本信息,可选的,在业务平台A的内容编辑控件中编辑文字,业务平台可以实时获取编辑的文字,并将当前编辑的文字发送至确定目标语料的系统,即联想系统,以使确定目标语料的系统可以根据当前编辑的文字,联想到用户将要输入的语句,并将联想到的语句(语料)反馈至业务平台A,从而将确定的语料反馈至目标用户所属的目标终端。
如图1所述,本实施例的方法包括:
S110、接收目标用户当前输入的文本信息,并确定所述文本信息所属的目标业务平台。
其中,若目标用户在业务平台A的内容编辑控件中编辑文字时,可以将编辑文本的用户作为目标用户。或者是,若要进入某个业务平台需要先进行注册,在注册完成后可以存在相应的账号以及密码,用户需要先登录才能在业务平台的内容编辑控件中编辑相应的文本信息,可以将账号所对应的用户作为目标用户。也就是说,目标用户是与某个登录账号所对应的用户,由于在实际应用过程中,存在多个用户使用一个账号的情形,因此目标用户的数量可以有多个,但均是与账号相对应。目标用户可以在各个业务平台的内容编辑空间中编辑相应的文字,可选的,在评论编辑控件中编辑评论信息,在搜索内容编辑控件中编辑搜索内容等。在用户编辑文字的过程中,业务平台可以实时获取目标用户在内容编辑控件中编辑的文字,并将获取到的文字发送至联想系统,即确定目标语料信息的联想系统。目标业务平台指的是当前输入的文本信息所属的平台,例如,用户在业务平台A中编辑了相应的文本信息,业务平台A为目标业务平台。
具体的,目标用户在某个业务平台的内容编辑控件中输入文字时,业务平台可以实时获取用户输入的文本信息,并将输入的文本信息发生至确定语料信息的系统。确定语料信息的系统接收各个业务平台发送的用户当前输入的文本信息,在接收文本信息时可以确定文本信息所属的目标业务平台,以从与目标业务平台所对应的语料库中确定与文本信息相对应的语料,即根据用户当前输入的文字,确定用户将要输入的语句。
在本实施例中,确定文本信息所属的目标业务平台,包括:接收目标用户所属目标业务平台发送的文本信息,并确定接收所述文本信息的目标接口标识,基于所述目标接口标识确定所述文本信息所属的目标业务平台。
具体的,在接收到文本信息后,可以确定发送文本信息的目标接口,并确定与该接口相对应的目标接口标识,基于目标接口标识可以确定文本信息所属的目标业务平台。
需要说明的是,各个业务平台可以通过相应的接口接入到确定语料信息的系统中。在确定语料信息的系统接收到文本信息后,可以根据接收到文本信息的接口,来确定文本信息所对应的业务平台。确定文本信息所属业务平台的好处在于,可以从与该业务平台对应的语料库中确定出相应的目标语料,提高了确定出的目标语料不仅与当前业务平台相对应,还与用户输入的文字相匹配,以实现确定出的语料与目标用户将要输入的文字高度契合的技术效果。
S120、确定与所述目标业务平台相对应的目标语料库,从与所述目标语料库中确定与所述文本信息相对应的目标语料信息。
其中,目标语料库是与目标业务平台所对应的语料库。语料库中存储了与当前业务平台相对应的多个语料。其中,语料可以是基于各个用户的行为数据来生成的。例如,行为数据包括:输入行为或者触发行为等生成的语料,可选的,输入行为生成语料可以是:在当前业务平台输入文字时,可以对文本信息处理,并将处理后的文本信息存储至语料库中作为一个语料;触发行为生成语料可以是:监测用户触发的操作,基于操作信息生成相应的语料。目标语料信息是指根据文本信息,联想到用户将要输入的语句信息。目标语料信息的数量可以是一个或者多个。
具体的,在确定目标业务平台后,可以从与目标业务平台所对应的语料库中,确定与文本信息所对应的目标语料信息。
在本实施例中,确定与所述目标业务平台相对应的目标语料库,从与所述目标语料库中确定与所述文本信息相对应的目标语料信息,包括:根据所述目标业务平台的标识信息,确定与所述标识信息所对应的目标语料库;调取预先确定的与所述目标业务平台相对应的至少一个特征的权重值,基于所述权重值以及所述文本信息所对应的目标特征,从与所述目标业务平台相对应的语料库中,确定与所述文本信息相对应的目标语料信息。
需要说明的是,不同业务平台基于不同的接口,与本实施例所提供的确定目标语料的装置建立数据传输。
其中,标识信息可以是接口标识信息,根据接口标识信息可以确定与该接口对应的目标业务平台。在确定目标业务平台后,可以从目标存储位置中存储的与各个业务平台对应的语料库中确定与目标业务平台对应的语料库,即目标语料库。针对每个业务平台,可以预先设置不同业务平台所对应的特征,可选的,商品属性特征等,同时也可以确定每一个特征所对应的权重值。目标特征是根据文本信息所确定的特征,可选的,是基于哪一个触发入口进入的内容编辑控件,如,基于触发售前商品咨询控件到内容编辑控件,此时,目标特征可以是咨询入口、商品所属的物品品类等特征。
具体的,在确定与目标业务平台所对应的目标语料库后,可以获取预先配置的与目标业务平台相对应的各个特征,以及与每个特征所对应的权重值。同时,可以确定文本信息所对应的目标特征,即与文本信息关联的特征。根据目标特征,以及每个特征的权重值,可以从与目标业务平台所对应的语料库中确定出目标语料信息。
本实施例,基于目标特征和权重值,从语料库中确定出目标语料信息的好处在于:提高了确定出的目标语料与用户之间的适配性,从而节省了用户输入文字的时间。
在上述技术方案的基础上,所述基于所述权重值以及所述文本信息所对应的目标特征,从与所述目标业务平台相对应的语料库中,确定与所述文本信息相对应的目标语料信息,包括:根据所述权重值以及所述目标特征,从所述语料库中确定与所述文本信息相对应的至少一个待选择语料信息;根据各待选择语料信息的热度值,从所述至少一个待选择语料信息中确定预设数量的目标语料信息;所述热度值用于表征语料信息的使用频率。
其中,待选择语料信息是根据目标特征以及目标特征所对应的权重值,从目标语料库中初次确定出的语料信息。热度值可以理解为语料信息的使用频率,或者是语料信息反馈至终端的反馈频次。根据每个待选择语料信息的热度值,可以从待选择语料信息确定出目标语料信息。预设数量为预先设置的,可选的,预设数量为三。可以根据热度值,从待选择语料信息中确定三个目标语料信息。
在上述技术方案的基础上,从语料库中确定至少一个待选择语料信息包括:根据所述目标特征、与每个特征对应的权重值,以及与所述目标平台相对应的语料库中各语料信息所对应的特征,确定与所述文本信息相对应的至少一个待选择语料信息。
需要说明的是,语料库中存储的语料信息不仅包括语料,还包括与该语料绑定的特征。
具体的,根据目标特征,与每个特征对应的权重值,以及语料库中各语料绑定的特征,可以从语料库中确定与文本信息的目标特征所对应的多个待选择语料信息。这样设置的好处在于,确定出的待选择语料信息是与文本信息所对应目标特征是相匹配的,进而提高确定目标语料信息准确性的技术效果。
在本实施例中,根据目标特征以及每个特征对应的权重值,确定至少一个待选择语料信息可以是:根据语料库中各语料信息所包括的特征,确定包括所述目标特征的至少一个待确定语料信息;根据每个待确定语料信息所包括的特征,以及每个特征对应的权重值,确定各待确定语料信息与所述目标用户之间的匹配度;基于所述匹配度,从所述至少一个待确定语料信息中确定与所述文本信息相对应的至少一个待选择语料信息。
其中,可以从与目标业务平台所对应的语料库中,确定包括目标特征的语料信息,并将此时确定出的语料信息作为待确定语料信息。根据每个特征所对应的权重值以及待确定语料信息所对应的特征,可以对确定各个待确定语料信息与用户之间的匹配度。匹配度用于表征待确定语料信息与目标特征之间的匹配值。根据匹配度,可以从多个待确定语料信息中确定与文本信息相对应的至少一个待选择语料信息。可选的,可以根据匹配值从高往低,确定一定数量的待选择语料信息。
在本实施例中,采用此种方式确定待选择语料信息的好处在于,可以提高确定出的目标语料与用户之间的匹配度,从而提高用户体验的技术效果。
在上述技术方案的基础上,所述根据各待选择语料信息的热度值,从所述至少一个待选择语料信息中确定预设数量的目标语料信息,包括:根据各待选择语料信息的热度值以及匹配度,确定个待选择语料与所述文本信息之间的契合度;基于所述契合度,从所述至少一个待选择语料信息中确定预设数量的目标语料信息。
其中,热度值用于表征每个语料反馈至终端的频率。契合度用于表征待选择语料信息与目标用户之间的匹配度。
具体的,针对每个待选择语料信息,可以根据热度值以及匹配值,确定待选择语料信息与用户之间的契合度,可以根据契合度从高往低选择一定数量的语料信息作为目标语料信息。此时确定出的语料信息与目标用户相匹配的。
S130、将所述目标语料信息发送至与所述目标用户相对应的目标终端。
其中,目标终端指的是与目标用户相对应的终端,例如,用户在终端A上安装的应用程序上输入文本信息,那么终端A为与目标用户所对应的目标终端。
具体的,在确定目标语料信息后,可以将目标语料信息反馈至目标终端的,并在目标终端显示确定的目标语料信息,用户可以从显示的目标语料信息中选择与其相匹配的语料,从而避免用户手动输入文字,实现了节省时间的技术效果。
示例性的,用户当前输入的文字为“我想”,确定目标语料信息的系统,可以根据用户输入的“我想”,以及’“我想”所对应的目标特征,如:咨询入口特征,商品属性特征等,确定出的目标语料可以是“我想知道几天可以到”,并将确定的语料信息反馈至目标用户所属的目标终端,以供用户选择。用户可以触发语料信息,以实现了节约输入时间的技术问题。
本发明实施例的技术方案,在接收到目标用户输入的文本信息时,可以确定文本信息所属的目标业务平台,从与目标业务平台对应的语料库中联想与文本信息相对应的目标语料信息,因此确定出的目标语料信息是与目标用户和目标业务平台相匹配的,进一步将确定的目标语料反馈至目标用户所对应的终端,用户可以从反馈的目标语料信息中选择将要输入的文本信息,节省了用户输入文字的时间,从而提高了用户体验的技术效果。
在上述技术方案的基础上,调取预先确定的与各个目标业务平台所相对应的至少一个特征的权重值,包括:基于预先训练好的权重评估模型,确定与所述目标业务平台相对应的各个特征的权重值。
需要说明的是,本实施例所提供的权重值可以是用户预先设置的,也可以是基于训练好的权重评估模型来确定的。
其中,权重评估模型为预先训练得到的,用于确定目标业务平台的各个特征的权重值。
也就是说,确定与各个业务平台所对应的权重值可以是以深度学习和机器学习模型为基础,对实现训练好的模型进行联想,每部各特征的权重不可配置,对业务也无感知;另一种方式可以是用户预先配置每个特征的权重,以及权重的分布方式,使得确定出的目标语料对某些特征有所倾向。
需要说明的是,用户可以根据实际情况来确定每个特征对应的权重,在此不做具体限定。
在本实施例中,确定每个特征对应的权重的好处在于,可以提高确定出的目标语料与用户所要输入文字之间高度契合的技术效果。
实施例二
图2为本发明实施例二所提供的一种确定目标语料的方法流程示意图。在前述实施例的基础上,可以预先创建不同业务平台所对应的语料库,进而在接收到文本信息后,可以从相应的语料库中确定目标语料。其中,与上述实施例相同或者相应的技术术语在此不再赘述。
在介绍本实施例技术方案之前,需要说明的是,本方案是基于通用的输入联想系统架构,并通过对语料构建、业务规则配置以及数据管理等系统模块组件化,实现各个业务平台的接入,并建立与各个业务平台对应的语料库,进而在接收到各个业务平台发送的文本信息时,可以从与业务平台对应的语料库中确定相应的目标语料信息。
因此,在介绍本实施例构建与不同业务平台所对应的目标语料库之前,先对所使用的联想系统架构,即确定目标语料信息的系统架构进行简单介绍。如图3所示,该系统架构包括:接入层、数据层、存储层、构建层、特征层以及业务层。其中,接入层包括数据接入模块和业务接入模块,各模块主要用于负责各个业务平台的接入和数据接口的接入;数据层包括基础数据采集和应用数据埋点,基础数据采集用于采集基础数据,即用户输入行为数据,应用数据埋点为埋点数据的采集,即触发行为数据的采集;存储层包括分析数据存储、通用查询存储以及高频查询存储。构建层包括文本处理、风险规避、文本筛选以及更新规则,主要用于将数据处理为符合条件的文本。特征层,包括语料特征处理模块以及语料特征关联模块,用于将业务领域内自定义的特征进行处理,并与具体的语料进行绑定。业务层包括联想规则构建,即确定目标语料的规则,以及查询规则构建,主要是将由业务自行配置各个特征对联想结果的权重占比,以及在输入文字后,确定目标语料的各种规则。
构建与各个业务平台对应的语料库以及系统架构中各个层的具体作用,可参见下述实施例:如图2所示,所述方法包括:
S210、针对每个业务平台,接收当前业务平台上报的业务数据。
需要说明的是,可以将各个业务平台与联想系统建立通信。在建立通信完成后,各个业务平台可以将检测到的数据发送至联想系统,即确定目标语料的系统,以使联想系统可以基于构建的各个层对接收到的语料信息进行处理,从而得到与该业务系统相对应的语料库中的语料信息,以及向用户反馈相应的语料信息。
其中,业务数据可以理解为业务平台监测到的数据。可以将监测到的业务数据发送至确定目标语料的系统。
在本实施例中,接收当前业务平台上报的业务数据可以基于接入层来实现。即当前业务平台可以基于接入层接入到确定目标语料信息的系统。
参见图4,接入层包括业务接入、数据接入和接入管理系统。其中,业务接入包括业务系统前端、输入/输出/展示,业务系统后台以及请求/处理。业务系统前端负责文本的接入、文本的发送、确定目标语料信息后将目标语料信息展示等,这样信息可以与业务系统后台进行连接。业务后台系统负责业务请求的处理与传输,由后台系统通过接口与接入管理系统进行连接。数据接入主要是对业务数据的采集与上报,业务系统需要接入管理系统包括自己的数据接口,以便获取对应的数据。数据隔离是指不同业务系统的数据虽然通过统一的接口形式进行上报,但是需要不同的业务代码将其进行隔离。计入管理系统提供前端页面,供用户配置接入信息,配置的接入信息包括业务接口信息、数据信息以及规则信息等。配置的接入信息用户可以根据实际需求进行设置。数据监测系统提供业务数据的管理功能,如点击、更新、显示等。
其中,在业务平台接入到确定语料信息的系统中后,可以基于数据层接收或者采集相应的应用数据,尤其是业务平台的文本数据,参见图5。业务平台负责使用数据的上报,如语料在前端的曝光情况,用户输入的关键词、反馈的语料被点击的情况等。使用上报数据主要是用户实时交互操作相关的动态数据。与业务平台对应的服务端负责采集应用数据,如语料曾出现过的场景,以及该场景相关的特征数据,此时采集的数据多为离线的静态数据。也就是说,客户端主要是基础数据的采集,服务端主要是埋点数据的采集。基于数据层可以将采集到的数据存储到存储层。
S220、基于预先配置的配置信息,将所述业务数据处理为目标格式数据。
其中,在业务平台接入确定语料信息的系统时,可以预先确定各个业务平台的配置信息。目标格式数据是基于配置信息对业务数据处理后得到的数据。为了将业务数据处理为目标格式数据,配置信息可以包括:数据的存储格式。
在本实施例中,可以基于存储层将业务数据处理为目标格式数据。存储层可以将获取到的业务数据,可选的,基础数据和/或应用埋点数据处理为预设格式的数据。
S230、基于与所述当前业务平台相对应的数据构建规则,对所述目标格式数据进行处理,得到与所述当前业务平台相对应的语料信息。
其中,基于与当前业务平台相对应的数据构建规则对数据进行处理,可以基于确定语料信息系统中的构建层来处理。由于不同业务平台的内在逻辑存在一定的差异,需要呈现在客户端上的内容也存在一定的差异,因此可以基于构建层中的各个组件对业务数据进行处理,得到与当前业务平台相对应的语料信息。
可选的,构建规则包括文本筛选规则,所述基于与所述当前业务平台相对应的数据构建规则,对所述目标格式数据进行处理,得到与所述当前业务平台相对应的语料信息,包括:将所述目标格式数据按照所述文本筛选规则进行文本内容筛选,得到与所述当前业务平台信息相对应的语料信息。
其中,文本筛选可以基于文本筛选类组件来实现。文本筛选组件,主要是针对业务规则下的文本处理需求。文本筛选类组件包括长度过滤组件,如业务数据的长度过长时,可以使用长度过滤组件来进行长句子过滤。句频过滤组件,如在社交网络中,语料数量是以亿计算的,基于句频组件可以抽取出出现次数较多的句子。质量过滤组件,如对目标格式数据进行语法校验等来确定句子的质量等。
具体的,数据构建规则中包括文本筛选规则,基于文本筛选规则将句子长度小于预设长度和/或频度大于预设频度的业务数据,从接收到的当前业务数据中提取出来,将提取出来的业务数据作为与当前业务平台所对应的语料信息。这样设置的好处在,可以从所有业务数据中筛选出通用的语句,即有效的语句,并将有效的语句作为语料库中的语句。
在上述技术方案的基础上,数据构建规则还包括风险规避规则,基于封信规避规则,得到与当前业务平台相对应的语料信息包括:基于所述风险规避规则,将所述目标格式数据中包括的敏感信息剔除,得到与所述当前业务平台相对应的语料信息。
其中,敏感信息为预先设置信息,可以将预先设置的敏感信息存储至风险规避组件中。风险规避组件中存储的敏感信息与不同的业务平台相对应。也就是说,用户可以根据实际需求设置风险规避组件中的敏感信息,以在接收到业务数据时,可以根据业务数据所属的业务平台,确定与其相对应的敏感信息,进而基于敏感信息筛选出语料信息。敏感信息可以包括如下至少一种信息,如,转账、汇款、身份证号、银行卡号、住址等信息。风险规避组件中还包括负向情绪识别模型,基于该模型可以判断目标格式业务数据是否为负向情绪的句子,若是负向情绪的句子则可以将其删除。
具体的,基于风险规避组件中存储的敏感信息集合,可以对目标格式数据进行处理,即若目标格式数据中包括敏感信息,则可以将目标格式数据删除,将不包括敏感信息的目标格式数据作为当前业务平台的语料信息。
采用上述数据构建规则,确定当前业务平台的语料信息的好处在于:可以从所有业务数据中筛选出满足预设条件的目标格式数据,提高了确定目标语料信息准确性以及便捷性的技术效果。
还需要说明的是,数据构建规则中还包括更新规则类型组件,可以在该组件中设定与各个业务平台相对应的更新频率,可选的,一周更新一次等,可以基于更新频率更新与各个业务平台相对应的语料库中的语料。
为了清楚的了解数据构建规则,可以结合图6来理解。数据构建规则中包括文本处理组件、风险规避组件、文本筛选组件以及更新规则组件。文本处理主要用于对目标格式数据进行符号处理、特殊文字转换以及文本切割。风险规避组件,用于根据预设敏感信息对目标格式数据进行业务合规检测、敏感信息去除以及负向情绪识别等,基于风险规避组件可以过滤掉部分目标格式数据。文本筛选组件,用于对目标格式数据进行长度过滤,句频过滤以及质量过滤。更新规则组件中包括更新规则,基于更新规则可以对业务平台所对应的语料库中的语料信息进行更新。
S240、获取预先设置的与当前业务平台相对应的特征,确定每条语料信息所对应的特征,并将语料信息和特征绑定存储至目标存储位置。
其中,用户可以预先设置与各个业务平台所对应的特征。在确定目标格式数据后,可以确定目标格式数据所对应的特征。将每条语料信息与相应的特征进行绑定,在绑定完成后可以将语料和特征存储至目标存储位置。
需要说明的是,对于不同的业务平台,所对应的特征存在一定的差异。例如,在电商平台中,目标格式数据所对应的特征可以包括商品类型、商家特征、咨询入口特征、售后咨询入口等特征,参见图7。因此可以确定不同语料对应的特征,并将语料和特征进行绑定,以便从语料库中快速筛选出包括相应特征的语料信息,可以提高确定语料信息的便捷性以及高效性的技术效果。
在本实施例中,确定每条语料信息所对应的特征主要是基于特征层来确定。基于特征层,可以将目标格式数据与特征对应绑定。参见图8,特征层可以确定目标格式数据的特征,并将该特征与目标格式数据关联,即业务数据经过处理后形成合规语料,与各个特征进行一一绑定,生成具备搜索特征的联想语料。可选的,文本使用数据、文本属性数据经过文本特征处理后,确定出与文本相对应的联想特征,基于文本数据所对应的语料和联想特征绑定,得到联想语料。
在本实施例中,将语料信息和特征绑定存储至目标位置,可以是:确定所述语料信息的关键词,将所述关键词、所述语料信息以及对应特征绑定,存储至目标存储位置。
具体的,为了提高搜索效率,可以提取出语料信息的关键词,并将特征词、语料信息以及对应的特征绑定,以便快速的根据特征确定出相应的目标语料信息,提高了确定目标语料的效率。
S250、接收目标用户当前输入的文本信息,并确定所述文本信息所属的目标业务平台。
具体的,用户在业务平台输入文字时,可以将文本信息发送至确定语料信息的系统,该系统可以接收文本信息,并确定该文本信息所对应的目标业务平台。
S260、确定与所述目标业务平台相对应的目标语料库,从与所述目标语料库中确定与所述文本信息相对应的目标语料信息。
具体的,在确定目标业务平台后,可以确定与目标业务平台对应的目标语料库,可以根据文本信息所对应的目标特征,从目标语料库中确定与该文本信息相对应的目标语料信息。
S270、将所述目标语料信息发送至与所述目标用户相对应的目标终端。
具体的,在确定目标语料信息后,可以将目标语料信息发送至与目标用户相对应的终端,以供用户选择。
示例性的,可以确定与文本信息相匹配的三个目标语料信息,并将目标语料信息发送至目标用户所对应的目标终端,用户可以触发目标终端上显示的语料。
本发明实施例的技术方案,基于确定语料的联想系统构建,可以接入各个业务平台,并接收各个业务平台的业务数据,通过对业务数据进行处理,可以确定与各个业务平台相对应的语料库中的语料信息,因此在根据用户当前输入的文字,确定目标语料时,可以从相应的语料库中确定出目标语料,提高了确定出的目标语料与目标用户和目标业务平台之间的匹配度,从而提高了用户体验的技术效果。
本申请技术方案中,提出了一种应用于输入联想功能的通用组件化系统框架,可以用于各类有高效文本输入需求的业务系统中。该框架实现了一种快速、简易的输入联想接入方式,能够针对不同的业务应用实现全流程、可配置的联想服务。通过抽象出六层系统框架结构,并且在每一层实现了多种组件,可以让业务自定义的组合,最终满足业务需求。将业务特征与文本内容相绑定,配合多种查询方式,实现了准确高效的联想功能。
实施例三
图9为本发明实施例三提供的一种确定目标语料的装置结构示意图,该装置包括:目标业务平台确定模块910、目标语料信息确定模块920和目标语料信息发送模块930。
其中,目标业务平台确定模块910,用于接收目标用户当前输入的文本信息,并确定所述文本信息所属的目标业务平台;目标语料信息确定模块920,用于确定与所述目标业务平台相对应的目标语料库,从与所述目标语料库中确定与所述文本信息相对应的目标语料信息;目标语料信息发送模块930,用于将所述目标预料信息发送至与所述目标用户相对应的目标终端。
在上述各技术方案的基础上,所述目标语料信息确定模块,还用于:根据所述目标业务平台的标识信息,确定与所述标识信息所对应的目标语料库;
调取预先确定的与所述目标业务平台相对应的至少一个特征的权重值,基于所述权重值以及所述文本信息所对应的目标特征,从与所述目标业务平台相对应的语料库中,确定与所述文本信息相对应的目标语料信息。
在上述各技术方案的基础上,所述目标语料信息确定模块,还包括:
待选择语料信息确定单元,用于根据所述权重值以及所述目标特征,从所述语料库中确定与所述文本信息相对应的至少一个待选择语料信息;
目标语料信息确定单元,根据各待选择语料信息的热度值,从所述至少一个待选择语料信息中确定预设数量的目标语料信息;所述热度值用于表征语料信息的使用频率。
在上述各技术方案的基础上,所述目标业务平台确定模块,还用于:接收目标用户所属目标业务平台发送的文本信息,并确定接收所述文本信息的目标接口标识,基于所述目标接口标识确定所述文本信息所属的目标业务平台。
在上述各技术方案的基础上,所述待选择语料信息确定单元,还用于:根据所述目标特征、与每个特征对应的权重值,以及与所述目标平台相对应的语料库中各语料信息所对应的特征,确定与所述文本信息相对应的至少一个待选择语料信息。
在上述各技术方案的基础上,所述待选择语料信息确定单元,还用于根据语料库中各语料信息所包括的特征,确定包括所述目标特征的至少一个待确定语料信息;根据每个待确定语料信息所包括的特征,以及每个特征对应的权重值,确定各待确定语料信息与所述目标用户之间的匹配度;基于所述匹配度,从所述至少一个待确定语料信息中确定与所述文本信息相对应的至少一个待选择语料信息。
在上述各技术方案的基础上,所述待选择语料信息确定单元,还用于根据各待选择语料信息的热度值以及匹配度,确定个待选择语料与所述文本信息之间的契合度;基于所述契合度,从所述至少一个待选择语料信息中确定预设数量的目标语料信息。
在上述各技术方案的基础上,所述待选择语料信息确定单元,还用于基于预先训练好的权重评估模型,确定与所述目标业务平台相对应的各个特征的权重值。
在上述各技术方案的基础上,所述装置还包括:语料信息库建立模块,用于建立与各个业务平台相对应的语料库中的语料信息,以在接收到文本信息时,确定所述文本信息所属的目标业务平台,并从与所述目标业务平台对应的语料库中,确定与所述文本信息对应的目标语料信息。
在上述各技术方案的基础上,所述语料信息库建立模块,还用于针对每个业务平台,接收当前业务平台上报的业务数据;所述业务数据包括基础数据和埋点数据;基于预先配置的配置信息,将所述业务数据处理为目标格式数据;基于与所述当前业务平台相对应的数据构建规则,对所述目标格式数据进行处理,得到与所述当前业务平台相对应的语料信息;获取预先设置的与当前业务平台相对应的特征,确定每条语料信息所对应的特征,并将语料信息和特征绑定存储至目标存储位置,以在接收到文本信息时从所述目标存储位置获取目标语料信息。
在上述各技术方案的基础上,所述数据构建规则包括文本筛选规则,所述语料信息库建立模块,还用于将所述目标格式数据按照所述文本筛选规则进行文本内容筛选,得到与所述当前业务平台信息相对应的语料信息。
在上述各技术方案的基础上,所述文本筛选规则包括符号筛选规则和文本长度/频度筛选规则,所述语料信息库建立模块,还用于根据所述符号筛选规则,将所述目标格式数据中包括的预设符号剔除,得到第一语料信息;
根据所述文本长度/频度筛选规则,将所述第一语料信息中的不满足文本长度/频度的内容剔除,得到与所述当前业务平台相对应的语料信息。
在上述各技术方案的基础上,所述数据构建规则包括风险规避规则,所述语料信息库建立模块,还用于基于所述风险规避规则,将所述目标格式数据中包括的敏感信息剔除,得到与所述当前业务平台相对应的语料信息。
在上述各技术方案的基础上,所述语料信息库建立模块,还用于根据预先配置的与所述当前业务平台相对应的特征,确定每条语料信息中所包括的特征,并将语料信息与相应的特征对应存储至目标存储位置。
在上述各技术方案的基础上,所述语料信息库建立模块,还用于确定所述语料信息的关键词,将所述关键词、所述语料信息以及对应特征绑定,存储至目标存储位置。
本发明实施例所提供的确定目标语料的装置可执行本发明任意实施例所提供的确定目标语料的方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明实施例的保护范围。
实施例四
图10为本发明实施例四所提供的一种电子设备的结构示意图。图10示出了适于用来实现本发明实施例实施方式的示例性设备100的框图。图10显示的设备100仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,设备100以通用计算设备的形式表现。设备100的组件可以包括但不限于:一个或者多个处理器或者处理单元1001,系统存储器1002,连接不同系统组件(包括系统存储器1002和处理单元1001)的总线1003。
总线1003表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备100典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备100访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器1002可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)1004和/或高速缓存存储器1005。设备100可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统1006可以用于读写不可移动的、非易失性磁介质(图10未显示,通常称为“硬盘驱动器”)。尽管图10中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线1003相连。存储器1002可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块1007的程序/实用工具1008,可以存储在例如存储器1002中,这样的程序模块1007包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块1007通常执行本发明所描述的实施例中的功能和/或方法。
设备100也可以与一个或多个外部设备1009(例如键盘、指向设备、显示器1010等)通信,还可与一个或者多个使得用户能与该设备100交互的设备通信,和/或与使得该设备100能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1011进行。并且,设备100还可以通过网络适配器1012与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1012通过总线1003与设备100的其它模块通信。应当明白,尽管图10中未示出,可以结合设备100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元1001通过运行存储在系统存储器1002中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的确定目标语料的方法。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行确定目标语料的方法。
该方法包括:
接收目标用户当前输入的文本信息,并确定所述文本信息所属的目标业务平台;
确定与所述目标业务平台相对应的目标语料库,从与所述目标语料库中确定与所述文本信息相对应的目标语料信息;
将所述目标语料信息发送至与所述目标用户相对应的目标终端。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (18)
1.一种确定目标语料的方法,其特征在于,包括:
接收目标用户当前输入的文本信息,并确定所述文本信息所属的目标业务平台;
确定与所述目标业务平台相对应的目标语料库,从与所述目标语料库中确定与所述文本信息相对应的目标语料信息;
将所述目标语料信息发送至与所述目标用户相对应的目标终端。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述目标业务平台相对应的目标语料库,从与所述目标语料库中确定与所述文本信息相对应的目标语料信息,包括:
根据所述目标业务平台的标识信息,确定与所述标识信息所对应的目标语料库;
调取预先确定的与所述目标业务平台相对应的至少一个特征的权重值,基于所述权重值以及所述文本信息所对应的目标特征,从与所述目标业务平台相对应的语料库中,确定与所述文本信息相对应的目标语料信息。
3.根据权利要求2所述的方法,其特征在于,所述基于所述权重值以及所述文本信息所对应的目标特征,从与所述目标业务平台相对应的语料库中,确定与所述文本信息相对应的目标语料信息,包括:
根据所述权重值以及所述目标特征,从所述语料库中确定与所述文本信息相对应的至少一个待选择语料信息;
根据各待选择语料信息的热度值,从所述至少一个待选择语料信息中确定预设数量的目标语料信息;所述热度值用于表征语料信息的使用频率。
4.根据权利要求1所述的方法,其特征在于,所述接收目标用户当前输入的文本信息,并确定所述文本信息所属的目标业务平台,包括:
接收目标用户所属目标业务平台发送的文本信息,并确定接收所述文本信息的目标接口标识,基于所述目标接口标识确定所述文本信息所属的目标业务平台。
5.根据权利要求3所述的方法,其特征在于,所述根据所述权重值以及所述目标特征,从所述语料库中确定与所述文本信息相对应的至少一个待选择语料信息,包括:
根据所述目标特征、与每个特征对应的权重值,以及与所述目标平台相对应的语料库中各语料信息所对应的特征,确定与所述文本信息相对应的至少一个待选择语料信息。
6.根据权利要求5所述的方法,其特征在于,所述根据所述目标特征、与每个特征对应的权重值,以及与所述目标平台相对应的语料库中各语料信息所对应的特征,确定与所述文本信息相对应的至少一个待选择语料信息,包括:
根据语料库中各语料信息所包括的特征,确定包括所述目标特征的至少一个待确定语料信息;
根据每个待确定语料信息所包括的特征,以及每个特征对应的权重值,确定各待确定语料信息与所述目标用户之间的匹配度;
基于所述匹配度,从所述至少一个待确定语料信息中确定与所述文本信息相对应的至少一个待选择语料信息。
7.根据权利要求6所述的方法,其特征在于,所述根据各待选择语料信息的热度值,从所述至少一个待选择语料信息中确定预设数量的目标语料信息,包括:
根据各待选择语料信息的热度值以及匹配度,确定个待选择语料与所述文本信息之间的契合度;
基于所述契合度,从所述至少一个待选择语料信息中确定预设数量的目标语料信息。
8.根据权利要求2所述的方法,其特征在于,所述调取预先确定的与所述目标业务平台相对应的至少一个特征的权重值,包括:
基于预先训练好的权重评估模型,确定与所述目标业务平台相对应的各个特征的权重值。
9.根据权利要求1所述的方法,其特征在于,还包括:
建立与各个业务平台相对应的语料库中的语料信息,以在接收到文本信息时,确定所述文本信息所属的目标业务平台,并从与所述目标业务平台对应的语料库中,确定与所述文本信息对应的目标语料信息。
10.根据权利要求9所述的方法,其特征在于,所述建立与各个业务平台相对应的语料库中的语料信息,包括:
针对每个业务平台,接收当前业务平台上报的业务数据;所述业务数据包括基础数据和埋点数据;
基于预先配置的配置信息,将所述业务数据处理为目标格式数据;
基于与所述当前业务平台相对应的数据构建规则,对所述目标格式数据进行处理,得到与所述当前业务平台相对应的语料信息;
获取预先设置的与当前业务平台相对应的特征,确定每条语料信息所对应的特征,并将语料信息和特征绑定存储至目标存储位置,以在接收到文本信息时从所述目标存储位置获取目标语料信息。
11.根据权利要求10所述的方法,其特征在于,所述数据构建规则包括文本筛选规则,所述基于与所述当前业务平台相对应的数据构建规则,对所述目标格式数据进行处理,得到与所述当前业务平台相对应的语料信息,包括:
将所述目标格式数据按照所述文本筛选规则进行文本内容筛选,得到与所述当前业务平台相对应的语料信息。
12.根据权利要求11所述的方法,其特征在于,所述文本筛选规则包括符号筛选规则和文本长度/频度筛选规则,所述将所述目标格式数据按照所述文本筛选规则进行文本内容筛选,得到与所述当前业务平台信息相对应的语料信息,包括:
根据所述符号筛选规则,将所述目标格式数据中包括的预设符号剔除,得到第一语料信息;
根据所述文本长度/频度筛选规则,将所述第一语料信息中的不满足文本长度/频度的内容剔除,得到与所述当前业务平台相对应的语料信息。
13.根据权利要求10所述的方法,其特征在于,所述数据构建规则包括风险规避规则,所述基于与所述当前业务平台相对应的数据构建规则,对所述目标格式数据进行处理,得到与所述当前业务平台相对应的语料信息,包括:
基于所述风险规避规则,确定不包括敏感信息的目标格式数据,得到与所述当前业务平台相对应的语料信息。
14.根据权利要求10所述的方法,其特征在于,所述获取预先设置的与当前业务平台相对应的特征,确定每条语料信息所对应的特征,并将语料信息和特征绑定存储至目标存储位置,包括:
根据预先配置的与所述当前业务平台相对应的特征,确定每条语料信息中所包括的特征,并将语料信息与相应的特征对应存储至目标存储位置。
15.根据权利要求10所述的方法,其特征在于,所述将语料信息和特征绑定存储至目标存储位置,包括:
确定所述语料信息的关键词,将所述关键词、所述语料信息以及对应特征绑定,存储至目标存储位置。
16.一种确定目标语料的装置,其特征在于,包括:
目标业务平台确定模块,用于接收目标用户当前输入的文本信息,并确定所述文本信息所属的目标业务平台;
目标语料信息确定模块,用于确定与所述目标业务平台相对应的目标语料库,从与所述目标语料库中确定与所述文本信息相对应的目标语料信息;
目标语料信息发送模块,用于将所述目标预料信息发送至与所述目标用户相对应的目标终端。
17.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-15中任一所述的确定目标语料的方法。
18.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-15中任一所述的确定目标语料的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011401239.1A CN113761844A (zh) | 2020-12-02 | 2020-12-02 | 确定目标语料的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011401239.1A CN113761844A (zh) | 2020-12-02 | 2020-12-02 | 确定目标语料的方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113761844A true CN113761844A (zh) | 2021-12-07 |
Family
ID=78786150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011401239.1A Pending CN113761844A (zh) | 2020-12-02 | 2020-12-02 | 确定目标语料的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761844A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063452A (zh) * | 2010-05-31 | 2011-05-18 | 百度在线网络技术(北京)有限公司 | 用于供用户进行文字输入的方法、设备、服务器和系统 |
CN105912138A (zh) * | 2016-04-06 | 2016-08-31 | 百度在线网络技术(北京)有限公司 | 一种短语的输入方法及装置 |
CN109116999A (zh) * | 2018-07-05 | 2019-01-01 | 厦门盈趣科技股份有限公司 | 适用于多应用切换的快捷用语输入方法和系统 |
CN109710941A (zh) * | 2018-12-29 | 2019-05-03 | 上海点融信息科技有限责任公司 | 基于人工智能的用户意图识别方法和装置 |
CN110675863A (zh) * | 2018-07-03 | 2020-01-10 | 上海智臻智能网络科技股份有限公司 | 语音语料生成方法及装置、语音识别方法及装置 |
CN111191111A (zh) * | 2019-06-14 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置及存储介质 |
-
2020
- 2020-12-02 CN CN202011401239.1A patent/CN113761844A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063452A (zh) * | 2010-05-31 | 2011-05-18 | 百度在线网络技术(北京)有限公司 | 用于供用户进行文字输入的方法、设备、服务器和系统 |
CN105912138A (zh) * | 2016-04-06 | 2016-08-31 | 百度在线网络技术(北京)有限公司 | 一种短语的输入方法及装置 |
CN110675863A (zh) * | 2018-07-03 | 2020-01-10 | 上海智臻智能网络科技股份有限公司 | 语音语料生成方法及装置、语音识别方法及装置 |
CN109116999A (zh) * | 2018-07-05 | 2019-01-01 | 厦门盈趣科技股份有限公司 | 适用于多应用切换的快捷用语输入方法和系统 |
CN109710941A (zh) * | 2018-12-29 | 2019-05-03 | 上海点融信息科技有限责任公司 | 基于人工智能的用户意图识别方法和装置 |
CN111191111A (zh) * | 2019-06-14 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111475694B (zh) | 一种数据处理方法、装置、终端及存储介质 | |
CN104346480B (zh) | 信息挖掘方法和装置 | |
CN110321154B (zh) | 一种微服务的接口信息展示方法、装置及电子设备 | |
KR20130126930A (ko) | 텍스트 메시지를 사용하는 스프레드시트와의 상호작용 | |
CN110020358B (zh) | 用于生成动态页面的方法和装置 | |
CN108416041A (zh) | 语音日志分析方法和系统 | |
CN111694561A (zh) | 一种接口管理方法、装置、设备及存储介质 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN110941702A (zh) | 一种法律法规和法条的检索方法及装置、可读存储介质 | |
CN112417274A (zh) | 一种消息推送方法、装置、电子设备及存储介质 | |
US11423219B2 (en) | Generation and population of new application document utilizing historical application documents | |
CN116797195A (zh) | 工单处理方法、装置、计算机设备和计算机可读存储介质 | |
CN113792138B (zh) | 报表生成方法、装置、电子设备及存储介质 | |
CN108846098B (zh) | 一种信息流摘要生成及展示方法 | |
CN117493671A (zh) | 信息处理方法、装置、电子设备及计算机存储介质 | |
CN110929085B (zh) | 基于元语义分解的电力客服留言生成模型样本处理系统及方法 | |
CN112558966A (zh) | 深度模型可视化数据的处理方法、装置及电子设备 | |
CN113761844A (zh) | 确定目标语料的方法、装置、电子设备及存储介质 | |
CN114661289A (zh) | 一种基于知识和数据驱动的微应用开发系统和方法 | |
CN113806556A (zh) | 基于电网数据的知识图谱的构建方法、装置、设备及介质 | |
CN113420042A (zh) | 基于演示文稿的数据统计方法、装置、设备及存储介质 | |
CN112104745A (zh) | 信息配置系统、方法、电子设备及存储介质 | |
CN111695031A (zh) | 基于标签的搜索方法、装置、服务器及存储介质 | |
CN113761886A (zh) | 确定目标任务的方法、装置、电子设备及存储介质 | |
CN114281981B (zh) | 新闻简报的生成方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |