CN109145204A - 画像标签生成和使用方法及系统 - Google Patents

画像标签生成和使用方法及系统 Download PDF

Info

Publication number
CN109145204A
CN109145204A CN201810843888.3A CN201810843888A CN109145204A CN 109145204 A CN109145204 A CN 109145204A CN 201810843888 A CN201810843888 A CN 201810843888A CN 109145204 A CN109145204 A CN 109145204A
Authority
CN
China
Prior art keywords
vocal print
portrait label
print feature
portrait
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810843888.3A
Other languages
English (en)
Other versions
CN109145204B (zh
Inventor
肖通
赵恒艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN201810843888.3A priority Critical patent/CN109145204B/zh
Publication of CN109145204A publication Critical patent/CN109145204A/zh
Application granted granted Critical
Publication of CN109145204B publication Critical patent/CN109145204B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明公开一种画像标签生成和使用方法及系统,方法包括:采集用户数据,其中,所述用户数据至少包括语音交互数据;从所述语音交互数据中解析出第一声纹特征;判断所述第一声纹特征是否与数据库中已知的第二声纹特征匹配;若不匹配,将所述第一声纹特征存入所述数据库中,并基于所述第一声纹特征对所述用户数据进行整合,生成与所述第一声纹特征关联的至少一个第一画像标签;若匹配,则基于所述用户数据更新与所述第二声纹特征关联的至少一个第二画像标签。本申请通过声纹特征作为标准来获取用户的数据信息,从而保证了所获取的用户信息是唯一对应于当前用户的,避免了其他用户所造成的干扰影响。

Description

画像标签生成和使用方法及系统
技术领域
本发明属于用户画像技术领域,尤其涉及画像标签生成和使用方法及系统。
背景技术
相关技术中,类似的语音平台运营公司,会为第三方公司提供技术支持,例如,为第三方智能音箱提供语音服务的技术支持,但是由于权限及隐私问题不可能获取到终端用户所注册的第三方账户,从而也就无法针对性的根据具体用户的历史数据来形成用户画像以更好的优化所提供的技术支持。另一方面,发明人发现:同一个终端产品即便是只有一个终端用户进行了账户注册,但是可能会存在多个人同时通过同一个账户使用同一个终端产品的情况,这时如果按照终端所对应的用户为同一个用户并进行用户数据收集以形成用户画像的话,显然可能会因为多人同时使用一个终端设备而对用户画像的构建造成巨大干扰。
发明内容
本发明实施例提供一种画像标签生成和使用方法及系统,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种画像标签生成方法,包括:
采集用户数据,其中,所述用户数据至少包括语音交互数据;
从所述语音交互数据中解析出第一声纹特征;
判断所述第一声纹特征是否与数据库中已知的第二声纹特征匹配;
若不匹配,将所述第一声纹特征存入所述数据库中,并基于所述第一声纹特征对所述用户数据进行整合,生成与所述第一声纹特征关联的至少一个第一画像标签;
若匹配,则基于所述用户数据更新与所述第二声纹特征关联的至少一个第二画像标签。
第二方面,本发明实施例提供一种画像标签使用方法,包括:
响应于用户的语音交互指令,解析所述语音交互指令得到声纹特征;
基于所述声纹特征,查找与所述声纹特征关联的至少一个画像标签;
向所述用户提供与所述至少一个画像标签相关的服务,其中,所述服务为第三方提供的与画像标签相关的定向服务。
第三方面,本发明实施例提供一种画像标签生成系统,包括:
采集单元,配置为采集用户数据,其中,所述用户数据至少包括语音交互数据;
解析单元,配置为从所述语音交互数据中解析出第一声纹特征;
判断单元,配置为判断所述第一声纹特征是否与数据库中已知的第二声纹特征匹配;
整合单元,配置为若不匹配,将所述第一声纹特征存入所述数据库中,并基于所述第一声纹特征对所述用户数据进行整合,生成与所述第一声纹特征关联的至少一个第一画像标签;
更新单元,配置为若匹配,则基于所述用户数据更新与所述第二声纹特征关联的至少一个第二画像标签。
第四方面,本发明实施例提供一种画像标签使用系统,包括:
指令单元,配置为响应于用户的语音交互指令,解析所述语音交互指令得到声纹特征;
查找单元,配置为基于所述声纹特征,查找与所述声纹特征关联的至少一个画像标签;
服务单元,配置为向所述用户提供与所述至少一个画像标签相关的服务,其中,所述服务为第三方提供的与画像标签相关的定向服务。
第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的方法的步骤。
第六方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的方法的步骤。
本申请通过声纹特征作为标准来获取用户的数据信息,从而保证了所获取的用户信息是唯一对应于当前用户的,避免了其他用户所造成的干扰影响,基于声纹特征进行用户画像,之后再基于声纹特征和用户画像为用户推荐服务信息,可以使得服务更加精准。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种画像标签生成方法的流程图;
图2为本发明一实施例提供的另一种画像标签生成方法的流程图;
图3为本发明一实施例提供的又一种画像标签生成方法的流程图;
图4为本发明一实施例提供的一种画像标签使用方法的流程图;
图5为本发明一实施例提供的一种画像标签生成方法的具体实现图;
图6为本发明一实施例提供的一种画像标签使用场景示意图;
图7为本发明一实施例提供的一种画像标签的分布坐标图;
图8为本发明一实施例提供的一种画像标签生成装置的框图;
图9为本发明一实施例提供的一种画像标签使用装置的框图;
图10是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的画像标签生成方法一实施例的流程图,本实施例的画像标签生成方法可以适用于智能语音交互平台。
如图1所示,在步骤101中,采集用户数据;
在步骤102中,从语音交互数据中解析出第一声纹特征;
在步骤103中,判断第一声纹特征是否与数据库中已知的第二声纹特征匹配;
在步骤104中,若不匹配,将第一声纹特征存入数据库中,并基于第一声纹特征对用户数据进行整合,生成与第一声纹特征关联的至少一个第一画像标签;
在步骤105中,若匹配,则基于用户数据更新与第二声纹特征关联的至少一个第二画像标签。
在本实施例中,对于步骤101,标签生成系统采集用户数据,其中,用户数据至少包括语音交互数据,还可以包括网站、终端、第三方的用户属性信息和用户行为信息等。在步骤102中,标签生成系统从语音交互数据中解析出第一声纹特征,之后,在步骤103中,判断解析出的声纹特征是否与数据库中的第二声纹特征匹配,在数据库中可以以声纹特征为唯一识别码记录与该声纹特征相关的信息,例如该声纹特征所对应的终端的编号,位置信息,用户登录的账号信息,语音交互数据,终端日志、网站日志等。之后,在步骤104中,若第一声纹特征与第二声纹特征不匹配,则说明这个声纹特征以前没有出现过,可以将本次的用户数据整合一下,生成与该第一声纹特征相关联的至少一个第一画像标签;在步骤105中,若匹配,则基于用户数据更新与该第二声纹特征关联的至少一个第二画像标签,其中匹配说明这个声纹特征以前出现过,已经有了相关的记录,则只需要把这次的用户数据整理一下,生成相应的画像标签,然后用于更新已经存在的与该第二声纹特征关联的第二画像标签即可。更新的方式可以有多种,例如将本次的用户数据与之前预定时间内的其他用户数据整合,生成新的第二画像标签,或者也可以将该用户数据先经过对应的画像标签生成算法得到与该用户数据对应的第一画像标签,然后再把第一画像标签和之前的第二画像标签合并生成新的第二画像标签即可,还可以有其他的更新方式,本申请在此没有限制。
本实施例的方法通过将用户的声纹特征来作为区别每一个用户的特征,可以保证即使同一个设备上有多个使用者,也能够将用户画像通过声纹特征精确地对应到每一个使用者,从而可以便于后期为每一个使用者提供更加精准的服务,例如知道某一个使用者的基础属性如职业住址性别之类的,可以为该使用者提供更加简洁的语音对话模式,知道某一个使用者的兴趣爱好,也可以精准地推荐用户更感兴趣的内容等。
进一步参考图2,其示出了本申请的另一种画像标签生成方法一实施例的流程图,本实施例的画像标签生成方法可以适用于智能语音交互平台,是对流程图1中步骤104的进一步限定的步骤。
如图2所示,在步骤201中,若第一声纹特征与第二声纹特征不匹配,在数据库中建立以第一声纹特征为唯一识别码的词条;
在步骤202中,将与第一声纹特征关联的语音交互数据输入至用户画像标签生成引擎中,生成与第一声纹特征关联的至少一个第一画像标签;
在步骤203中,将至少一个第一画像标签写入以第一声纹特征为唯一识别码的词条的属性信息中。
在本实施例中,对于步骤201,若第一声纹特征与第二声纹特征不匹配,则说明数据库中不存在于该声纹特征相关的数据,因此需要新建一条该第一声纹特征的数据,并以该第一声纹特征为唯一识别码,从而之后可以通过查询声纹特征匹配到该第一声纹特征。之后,对于步骤202,将于该第一声纹特征关联的语音交互数据输入至用户画像标签引擎中,输出与该第一声纹特征关联的至少一个画像标签,其中,用户画像标签生成引擎中包括数据与画像标签的映射规则,例如,如果用户经常用语音搜索“最近有什么好看的电影”“最近有什么好听的歌”则可以初步判断用户是一个电影爱好者、音乐爱好者,则可以为用户增加“电影”“音乐”的画像标签,即在步骤203中,把这些画像标签写入该第一声纹特征的属性中。
本实施例的方法通过使用画像标签生成引擎将用户的语音交互数据转化成画像标签,之后与该第一声纹特征关联地存储,从而可以使得搜索声纹特征就能知道与该声纹特征对应的画像标签。
进一步参考图3,其示出了本申请的又一种画像标签生成方法一实施例的流程图,本实施例的画像标签生成方法可以适用于智能语音交互平台,是对流程图1中步骤105的进一步限定的步骤。
在步骤301中,若第一声纹特征与第二声纹特征匹配,将语音交互数据输入至用户画像标签生成引擎中,生成至少一个第一画像标签;
在步骤302中,比较第一画像标签与第二画像标签中相同画像标签下的语义是否冲突;
在步骤303中,若冲突,则使用第一画像标签中相应的画像标签替换第二画像标签中语义冲突的画像标签以更新第二画像标签;
在步骤304,若不冲突,则将第一画像标签并入第二画像标签中以更新第二画像标签。
在本实施例中,对于步骤301,若第一声纹特征和第二声纹特征匹配,将语音交互数据输入至用户画像标签生成引擎中,生成至少一个第一画像标签。之后,对于步骤302,比较第一画像标签与第二画像标签中相同画像标签下的寓意是否冲突,例如:“爱好运动”和“不爱动”可以都是位于一个大的画像标签“爱好”之下,但是这两个是完全相反的语义,是存在冲突的,说明其中肯定有一个是有问题的,按照步骤303,若冲突,可以使用第一画像标签中的响应的画像标签替换第二画像标签中语义存在冲突的画像标签从而对第二画像标签进行一个纠正。另一方面,对于步骤304,若不冲突,则将第一画像标签并入第二画像标签中以完善第二画像标签,例如,第一画像标签可以为“爱好古装剧”,第二画像标签可以为“爱好影视剧音乐”,这两个标签并不存在冲突,则可以将这两合并都列入新的第二画像标签中。
本实施例的方法,通过在匹配的情况下,对画像标签进行整合,可以使得画像标签能够更加精确地对用户进行画像,并且可以使用替代的方式排除掉一些存在冲突的画像,从而避免画像标签之间彼此矛盾。进一步地,对于画像标签中相似的画像标签也可以采用合并成一个上位画像标签的方式从而精简画像标签,本申请在此没有限制。
在一些可选的实施例中,画像标签还可以根据变化频率和准确度分为静态模糊标签、静态准确标签、动态模糊标签和动态准确标签;进而若不冲突,则将第一画像标签并入第二画像标签中以更新第二画像标签包括:当用户数据对应的第一画像标签与第二画像标签中相同画像标签语义不冲突且准确度不同时,保留其中准确度高的画像标签。从而对于不冲突但是准确度不一致的画像标签可以保留其中准确度更高的一个,留下来的画像标签由于准确度更高,所以能够更好地反映真实的用户的属性。进一步的,对于准确度,可以通过约定各种途径获取的数据对应的画像标签具有不同的准确度初始值,之后当通过其他数据再次得到某一画像标签,则该画像标签的准确度增加预定数值,从而使得各画像标签的准确度不一致,之后在更新时只保留其中准确度较高的预定数量的画像标签,从而能够对用户属性进行更加精准的描述。
请参考图4,其示出了本申请的一种画像标签使用方法一实施例的流程图,本实施例的画像标签生成方法可以适用于与智能语音交互平台对应的终端设备中。
在步骤401中,响应于用户的语音交互指令,解析语音交互指令得到声纹特征;
在步骤402中,基于声纹特征,查找与声纹特征关联的至少一个画像标签;
在步骤403中,向用户提供与至少一个画像标签相关的服务。
在本实施例中,对于步骤401,终端接收到用户的语音交互指令之后,解析该语音交互指令得到相应的声纹特征。之后,在步骤402中,基于该声纹特征,查找与该声纹特征关联的至少一个画像标签,之后在步骤403中,向用户提供与该画像标签关联的服务,其中,服务为第三方提供的与画像标签相关的定向服务。例如,第三方可能会针对某些画像标签的用户进行相应的推荐,如针对20到30岁的皮肤偏干性的女性,推荐一款补水的面膜。
本实施例的方法,通过在收到用户的语音交互指令时,解析该指令得到声纹特征,继而查询到相关的画像标签,向该用户提供与该画像标签相关的服务,可以使得向用户提供的服务更加精准,使用户更容易接受。
在一些可选的实施例中,画像标签具有准确度属性,向用户提供与至少一个画像标签相关的服务,其中,服务为第三方提供的与画像标签相关的定向服务包括:向用户提供与至少一个准确度高于阈值的画像标签相关的服务;响应于用户对服务的点击,更新与服务相关的至少一个画像标签的准确度。从而可以通过用户对服务的反馈来优化画像标签,使得画像标签的准确度更高,更能表现用户的真实状态。
下面对现有技术可能采用的解决方案进行一下简单的说明,以使本领域技术人员更好地理解本申请的方案。
目前市面上还没见到一个成熟的基于语音日志的用户画像产品,市面上有一些模糊的用户画像的应用,但没有形成产品化和规模化。尤其是基于语音日志的用户画像几乎没有。
各方采用的技术手段大体类似,但是原始素材不尽相同,比如有的使用的终端的属性日志,有的用的是动态操作日志,我们会更多的采用语音交互日志。
这些相似技术的缺陷在于原始日志的收集困难,已经收集到的也不够全面。比如某些产品只能收集到用户在页面中的浏览行为,它不知道用户的真实意图是什么。它也不知道更多的其他来源的日志信息。范围有限,深度有限。
这些缺陷主要是内容采集层面,技术算法层面,技术应用层面,以及测试更新模型层面导致的。
本行业中,要解决以上的缺陷,大多数会采集更多的用户日志信息。比如用户在页面中的浏览信息,比如用户的账号信息,比如用户的第三方注册信息,以及用户的第三方浏览信息。
但是这些信息之间是有壁垒的,也有数据孤岛,所以各方并不一定能够全面搜集到这些信息。
为什么不容易想到本申请的方案,主要原因是语音行业是有行业门槛的,市面上做语音的本来没几家,能将这个应用起来的更少,将其转化为用户画像产品级的更少。
本申请的方案会更多的结合传统的日志信息,以及独有的语音交互日志,两部分结合进行解决上述的问题。
传统的日志信息,我们会收集到用户的这样几类信息:网站上的用户属性数据,网站上的用户行为数据,终端设备中的行为信息,终端设备中的基础属性信息,第三方的属性数据,第三方的行为数据等等这些信息。
语音交互日志信息,我们会收集用户的这样几类信息:终端设备上的本地语音交互日志,终端产生的云端语音交互日志,云端API信息调取日志等等信息。
这两部分日志信息,我们做充分融合和算法整合后,会生成用户的个性化推荐结果,供使用方调取使用,可以达到群体个性化画像和个体个性化画像两个层级。
图5示出了本发明一实施例提供的一种画像标签生成方法的具体实现图;图6示出了本发明一实施例提供的一种画像标签使用场景示意图。
如图5所示,用户通过网站、终端设备使用智能语音交互平台,或者通过合作方或者第三方来源间接地使用平台的资源,都会产生各种日志信息,通过收集这些信息,如通过网站日志可以获得网站行为数据、网站属性数据,通过终端设备的日志可以获得行为日志如本地技能的数据,还能获得基础信息,例如通过车载终端可以获得车型、车速、GPS等信息,通过合作方或第三方也能获得相关的行为和属性信息。之后将这些数据上报,拉取路径和规则,存储在基础日志存储系统中,之后经过基础日志应用分发层得到最终的用户画像。
如图6所示,需求方和调用方可以通过用户ID和日志系统调用需要的用户数据,例如可以通过开放的标签来进行调用,平台通过统一的规范化接口将需求方需要的参数和标签对应的画像结果提供给需求方使用,需求方可以定向的将自己的服务投放给某些标签对应的用户群,之后还可以配合平台进行画像准确度的评测和完善迭代机制。
具体的,第一步,要采集各个来源的日志信息,做好埋点和数据收集工作,必要的时候需要告知开发者和用户这些隐私信息的采集方式和使用用途。这些基础信息主要包括:网站上的用户属性数据,网站上的用户行为数据,终端设备中的行为信息,终端设备中的基础属性信息,第三方的属性数据,第三方的行为数据,终端设备上的本地语音交互日志,终端产生的云端语音交互日志,云端API信息调取日志等等信息。
第二步,要为上述信息建立合适的数据上报通道,不同数据来源使用的数据上报通道也不一样,需要单独开设或者统一采用一套完整的机制。使用的数据采集方式也不一样,可以采用push,也有采用get的形式来做。根据具体的数据来源不同而区别对待。
第三步,要对收集来的原始日志做必要的基础性的数据清洗工作,并且入库存储,并且做到高可计算性,为将来的数据提取计算做好准备。
第四步,将准备好的日志数据倒入至用户画像的算法引擎之中,由算法引擎匹配出用户的特征信息。这一部分中,画像核心算法引擎主要包括两部分,一部分是规则定义的内容,即告知何人满足何种条件下是何特征,比如“什么样的情况下,判断此人是老师”“满足什么条件时,可以判断这个人比较喜欢古典音乐”,诸如此类,会有详细的定义规则。用户画像算法会基于此种规则进行匹配,训练算法模型,进而获知某个用户的个性化特性。这些个性化特征会复合叠加到某用户的属性上,即一个用户可以拥有多种画像标签,以此最终对用户进行精准画像和定位。
第五步,业务需求方,根据自己的业务特征和需求,来标签库中调取其想要的符合某些用户特征的群体,主要输入参数是用户的ID或者特征描述。由画像系统提供统一的API接口对外调用。当业务方输入必要的参数后,会得到其想要的目标群体的用户特征。然后业务方可以根据自己的需求进行灵活使用,比如对这些用户做精准运营,或者精准的广告投放等措施,或者获知到自己的业务的群体特征的基本情况是如何的等等。
第六步,必要的情况下,业务方也需要配合做用户使用反馈和算法模型测试工作,此步骤可以帮助完善用户画像的引擎精准度和高可用性,该步骤是选择性增加的。
能直接达到的效果就是有助于我们对整个平台中的用户有相对准确精细的了解,知道他们的基本情况分布。也有助于助力平台中的开发者对其自身的终端用户有更加精准细化的了解。本方案还可以有助于产品运营者能够对特定的目标用户进行精准运营和精准的广告推送,能够精确找到特定的对象和群体,了解他们的消费喜好、性格特点、活动区域、兴趣特长、职业特征等基本信息,这些信息将有助于产品运营者更好的做好人群区分。进而影响产品的迭代目标和产品的人群定位。
用户画像的分类可以有两个维度进行分类,分别是动态与静态画像,模糊与准确画像,两种自由组合可以有四个象限。
动态标签是指那些会动态变化的标签,而且频率相对较高,比如同一台设备上的使用人群变化,比如个人的兴趣偏好,比如活动区域范围,比如语音交互行为特征
静态标签是指那些相对变化频率比较小或者基本不会变的标签,比如用户的籍贯,性别,年龄段,家庭成员,社交偏好,车辆型号,消费水平等内容等。
准确标签是指那些比较明确能获知的用户信息,准确性比较高的。比如用户的性别,年龄,城市,活跃时间,活跃次数,语音交互内容,语音请求的技能等。
模糊标签是指那些相对不容易获取和分析的标签,有时需进行模糊匹配分析才能获知,区别于准确标签而言。比如用户的职业,兴趣喜好,情绪变化等。
根据以上原则,我们均可以将用户标签按照四种象限进行区分分布,具体可以参考图7中所示的象限坐标。
请参考图8,其示出了本发明一实施例提供的一种画像标签生成系统800,包括采集单元810、解析单元820、判断单元830、整合单元840和更新单元850。
其中,采集单元810,配置为采集用户数据,其中,用户数据至少包括语音交互数据;解析单元820,配置为从语音交互数据中解析出第一声纹特征;判断单元830,配置为判断第一声纹特征是否与数据库中已知的第二声纹特征匹配;整合单元840,配置为若不匹配,将第一声纹特征存入数据库中,并基于第一声纹特征对用户数据进行整合,生成与第一声纹特征关联的至少一个第一画像标签;以及更新单元850,配置为若匹配,则基于用户数据更新与第二声纹特征关联的至少一个第二画像标签。
在一些可选的实施例中,整合单元840进一步配置为:若所述第一声纹特征与所述第二声纹特征不匹配,在所述数据库中建立以所述第一声纹特征为唯一识别码的词条;将与所述第一声纹特征关联的语音交互数据输入至用户画像标签生成引擎中,生成与所述第一声纹特征关联的至少一个第一画像标签,其中,所述用户画像标签生成引擎中包括数据与画像标签的映射规则;将所述至少一个第一画像标签写入以所述第一声纹特征为唯一识别码的词条的属性信息中。
在一些可选的实施例中,更新单元850进一步配置为:若所述第一声纹特征与所述第二声纹特征匹配,将所述语音交互数据输入至用户画像标签生成引擎中,生成至少一个第一画像标签;比较所述第一画像标签与所述第二画像标签中相同画像标签下的语义是否冲突;若冲突,则使用所述第一画像标签中相应的画像标签替换所述第二画像标签中语义冲突的画像标签以更新所述第二画像标签;若不冲突,则将所述第一画像标签并入所述第二画像标签中以更新所述第二画像标签。
请参考图9,其示出了本发明一实施例提供的一种画像标签使用系统,包括指令单元910、查找单元920和服务单元930。
其中,指令单元910,配置为响应于用户的语音交互指令,解析语音交互指令得到声纹特征;查找单元920,配置为基于声纹特征,查找与声纹特征关联的至少一个画像标签;以及服务单元930,配置为向用户提供与至少一个画像标签相关的服务,其中,服务为第三方提供的与画像标签相关的定向服务。
在一些可选的实施例中,画像标签具有准确度属性,服务单元930进一步配置为:向所述用户提供与所述至少一个准确度高于阈值的画像标签相关的服务;响应于用户对所述服务的点击,更新与所述服务相关的至少一个画像标签的准确度。
应当理解,图8和图9中记载的诸模块与参考图1、图2、图3和图4中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图8和图9中的诸模块,在此不再赘述。
值得注意的是,本公开的实施例中的模块并不用于限制本公开的方案,例如服务单元可以描述为向用户提供与至少一个画像标签相关的服务的单元。另外,还可以通过硬件处理器来实现相关功能模块,例如服务单元也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的画像标签生成和使用方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
采集用户数据,其中,所述用户数据至少包括语音交互数据;
从所述语音交互数据中解析出第一声纹特征;
判断所述第一声纹特征是否与数据库中已知的第二声纹特征匹配;
若不匹配,将所述第一声纹特征存入所述数据库中,并基于所述第一声纹特征对所述用户数据进行整合,生成与所述第一声纹特征关联的至少一个第一画像标签;
若匹配,则基于所述用户数据更新与所述第二声纹特征关联的至少一个第二画像标签。
作为另一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
响应于用户的语音交互指令,解析所述语音交互指令得到声纹特征;
基于所述声纹特征,查找与所述声纹特征关联的至少一个画像标签;
向所述用户提供与所述至少一个画像标签相关的服务,其中,所述服务为第三方提供的与画像标签相关的定向服务。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的画像标签生成方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的画像标签生成方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据画像标签生成装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至画像标签生成装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项画像标签生成方法。
图10是本发明实施例提供的电子设备的结构示意图,如图10所示,该设备包括:一个或多个处理器1010以及存储器1020,图10中以一个处理器1010为例。画像标签生成方法的设备还可以包括:输入装置1030和输出装置1040。处理器1010、存储器1020、输入装置1030和输出装置1040可以通过总线或者其他方式连接,图10中以通过总线连接为例。存储器1020为上述的非易失性计算机可读存储介质。处理器1010通过运行存储在存储器1020中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例画像标签生成方法。输入装置1030可接收输入的数字或字符信息,以及产生与信息投放装置的用户设置以及功能控制有关的键信号输入。输出装置1040可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于智能语音对话平台中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
采集用户数据,其中,所述用户数据至少包括语音交互数据;
从所述语音交互数据中解析出第一声纹特征;
判断所述第一声纹特征是否与数据库中已知的第二声纹特征匹配;
若不匹配,将所述第一声纹特征存入所述数据库中,并基于所述第一声纹特征对所述用户数据进行整合,生成与所述第一声纹特征关联的至少一个第一画像标签;
若匹配,则基于所述用户数据更新与所述第二声纹特征关联的至少一个第二画像标签。
作为一种实施方式,上述电子设备应用于与智能语音对话平台对应的终端中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
响应于用户的语音交互指令,解析所述语音交互指令得到声纹特征;
基于所述声纹特征,查找与所述声纹特征关联的至少一个画像标签;
向所述用户提供与所述至少一个画像标签相关的服务,其中,所述服务为第三方提供的与画像标签相关的定向服务。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种画像标签生成方法,包括:
采集用户数据,其中,所述用户数据至少包括语音交互数据;
从所述语音交互数据中解析出第一声纹特征;
判断所述第一声纹特征是否与数据库中已知的第二声纹特征匹配;
若不匹配,将所述第一声纹特征存入所述数据库中,并基于所述第一声纹特征对所述用户数据进行整合,生成与所述第一声纹特征关联的至少一个第一画像标签;
若匹配,则基于所述用户数据更新与所述第二声纹特征关联的至少一个第二画像标签。
2.根据权利要求1所述的方法,其中,所述若不匹配,将所述第一声纹特征存入所述数据库中,并基于所述第一声纹特征对所述用户数据进行整合,生成与所述第一声纹特征关联的至少一个第一画像标签包括:
若所述第一声纹特征与所述第二声纹特征不匹配,在所述数据库中建立以所述第一声纹特征为唯一识别码的词条;
将与所述第一声纹特征关联的语音交互数据输入至用户画像标签生成引擎中,生成与所述第一声纹特征关联的至少一个第一画像标签,其中,所述用户画像标签生成引擎中包括数据与画像标签的映射规则;
将所述至少一个第一画像标签写入以所述第一声纹特征为唯一识别码的词条的属性信息中。
3.根据权利要求1所述的方法,所述若匹配,则基于所述用户数据更新与所述第二声纹特征关联的至少一个第二画像标签包括:
若所述第一声纹特征与所述第二声纹特征匹配,将所述语音交互数据输入至用户画像标签生成引擎中,生成至少一个第一画像标签;
比较所述第一画像标签与所述第二画像标签中相同画像标签下的语义是否冲突;
若冲突,则使用所述第一画像标签中相应的画像标签替换所述第二画像标签中语义冲突的画像标签以更新所述第二画像标签;
若不冲突,则将所述第一画像标签并入所述第二画像标签中以更新所述第二画像标签。
4.根据权利要求3所述的方法,画像标签根据变化频率和准确度分为静态模糊标签、静态准确标签、动态模糊标签和动态准确标签;
所述若不冲突,则将所述第一画像标签并入所述第二画像标签中以更新所述第二画像标签包括:
当所述用户数据对应的第一画像标签与所述第二画像标签中相同画像标签语义不冲突且准确度不同时,保留其中准确度高的画像标签。
5.一种画像标签使用方法,包括:
响应于用户的语音交互指令,解析所述语音交互指令得到声纹特征;
基于所述声纹特征,查找与所述声纹特征关联的至少一个画像标签;
向所述用户提供与所述至少一个画像标签相关的服务,其中,所述服务为第三方提供的与画像标签相关的定向服务。
6.根据权利要求5所示的方法,画像标签具有准确度属性,所述向所述用户提供与所述至少一个画像标签相关的服务,其中,所述服务为第三方提供的与画像标签相关的定向服务包括:
向所述用户提供与所述至少一个准确度高于阈值的画像标签相关的服务;
响应于用户对所述服务的点击,更新与所述服务相关的至少一个画像标签的准确度。
7.一种画像标签生成系统,包括:
采集单元,配置为采集用户数据,其中,所述用户数据至少包括语音交互数据;
解析单元,配置为从所述语音交互数据中解析出第一声纹特征;
判断单元,配置为判断所述第一声纹特征是否与数据库中已知的第二声纹特征匹配;
整合单元,配置为若不匹配,将所述第一声纹特征存入所述数据库中,并基于所述第一声纹特征对所述用户数据进行整合,生成与所述第一声纹特征关联的至少一个第一画像标签;
更新单元,配置为若匹配,则基于所述用户数据更新与所述第二声纹特征关联的至少一个第二画像标签。
8.一种画像标签使用系统,包括:
指令单元,配置为响应于用户的语音交互指令,解析所述语音交互指令得到声纹特征;
查找单元,配置为基于所述声纹特征,查找与所述声纹特征关联的至少一个画像标签;
服务单元,配置为向所述用户提供与所述至少一个画像标签相关的服务,其中,所述服务为第三方提供的与画像标签相关的定向服务。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
CN201810843888.3A 2018-07-27 2018-07-27 画像标签生成和使用方法及系统 Active CN109145204B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810843888.3A CN109145204B (zh) 2018-07-27 2018-07-27 画像标签生成和使用方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810843888.3A CN109145204B (zh) 2018-07-27 2018-07-27 画像标签生成和使用方法及系统

Publications (2)

Publication Number Publication Date
CN109145204A true CN109145204A (zh) 2019-01-04
CN109145204B CN109145204B (zh) 2021-01-15

Family

ID=64798898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810843888.3A Active CN109145204B (zh) 2018-07-27 2018-07-27 画像标签生成和使用方法及系统

Country Status (1)

Country Link
CN (1) CN109145204B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754810A (zh) * 2019-02-21 2019-05-14 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及空调
CN109872722A (zh) * 2019-01-17 2019-06-11 珠海格力电器股份有限公司 一种语音交互方法、装置、存储介质及空调
CN110414205A (zh) * 2019-07-31 2019-11-05 中国工商银行股份有限公司 用于生成用户画像的方法、装置、电子设备及介质
CN110502538A (zh) * 2019-07-05 2019-11-26 中国平安人寿保险股份有限公司 画像标签生成逻辑映射的方法、系统、设备及存储介质
CN110968789A (zh) * 2019-12-04 2020-04-07 掌阅科技股份有限公司 电子书推送方法、电子设备及计算机存储介质
CN111897977A (zh) * 2020-06-09 2020-11-06 惠州市德赛西威汽车电子股份有限公司 一种搭载在儿童座椅上的智能语音娱乐系统及方法
CN112163081A (zh) * 2020-10-14 2021-01-01 网易(杭州)网络有限公司 标签确定方法、装置、介质及电子设备
CN112233660A (zh) * 2020-10-14 2021-01-15 广州欢网科技有限责任公司 用户画像扩充方法、装置、控制器和用户画像获取系统
CN112328849A (zh) * 2020-11-02 2021-02-05 腾讯科技(深圳)有限公司 用户画像的构建方法、基于用户画像的对话方法及装置
CN112633976A (zh) * 2020-12-21 2021-04-09 高晓惠 基于大数据和云业务的数据处理方法及云业务服务器
CN113239229A (zh) * 2021-06-17 2021-08-10 张鹏涛 一种智能筛选数据处理方法、系统及云平台
CN113409797A (zh) * 2020-03-16 2021-09-17 阿里巴巴集团控股有限公司 语音处理方法和系统、及语音交互设备和方法
CN117034260A (zh) * 2023-10-08 2023-11-10 深圳安天网络安全技术有限公司 一种事件判定信息的生成方法、装置、介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016077681A1 (en) * 2014-11-14 2016-05-19 Koobecafe, Llc System and method for voice and icon tagging
CN106446045A (zh) * 2016-08-31 2017-02-22 上海交通大学 基于对话交互的用户画像的构建方法及系统
CN106708983A (zh) * 2016-12-09 2017-05-24 竹间智能科技(上海)有限公司 基于对话交互信息构建用户画像的系统及方法
CN107124653A (zh) * 2017-05-16 2017-09-01 四川长虹电器股份有限公司 电视用户画像的构建方法
CN108075892A (zh) * 2016-11-09 2018-05-25 阿里巴巴集团控股有限公司 一种语音处理的方法、装置和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016077681A1 (en) * 2014-11-14 2016-05-19 Koobecafe, Llc System and method for voice and icon tagging
CN106446045A (zh) * 2016-08-31 2017-02-22 上海交通大学 基于对话交互的用户画像的构建方法及系统
CN108075892A (zh) * 2016-11-09 2018-05-25 阿里巴巴集团控股有限公司 一种语音处理的方法、装置和设备
CN106708983A (zh) * 2016-12-09 2017-05-24 竹间智能科技(上海)有限公司 基于对话交互信息构建用户画像的系统及方法
CN107124653A (zh) * 2017-05-16 2017-09-01 四川长虹电器股份有限公司 电视用户画像的构建方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872722A (zh) * 2019-01-17 2019-06-11 珠海格力电器股份有限公司 一种语音交互方法、装置、存储介质及空调
CN109754810A (zh) * 2019-02-21 2019-05-14 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及空调
CN110502538A (zh) * 2019-07-05 2019-11-26 中国平安人寿保险股份有限公司 画像标签生成逻辑映射的方法、系统、设备及存储介质
CN110502538B (zh) * 2019-07-05 2023-10-13 中国平安人寿保险股份有限公司 画像标签生成逻辑映射的方法、系统、设备及存储介质
CN110414205A (zh) * 2019-07-31 2019-11-05 中国工商银行股份有限公司 用于生成用户画像的方法、装置、电子设备及介质
CN110968789A (zh) * 2019-12-04 2020-04-07 掌阅科技股份有限公司 电子书推送方法、电子设备及计算机存储介质
CN110968789B (zh) * 2019-12-04 2023-05-23 掌阅科技股份有限公司 电子书推送方法、电子设备及计算机存储介质
CN113409797A (zh) * 2020-03-16 2021-09-17 阿里巴巴集团控股有限公司 语音处理方法和系统、及语音交互设备和方法
CN111897977A (zh) * 2020-06-09 2020-11-06 惠州市德赛西威汽车电子股份有限公司 一种搭载在儿童座椅上的智能语音娱乐系统及方法
CN112233660A (zh) * 2020-10-14 2021-01-15 广州欢网科技有限责任公司 用户画像扩充方法、装置、控制器和用户画像获取系统
CN112163081A (zh) * 2020-10-14 2021-01-01 网易(杭州)网络有限公司 标签确定方法、装置、介质及电子设备
CN112328849A (zh) * 2020-11-02 2021-02-05 腾讯科技(深圳)有限公司 用户画像的构建方法、基于用户画像的对话方法及装置
CN112328849B (zh) * 2020-11-02 2024-05-07 腾讯科技(深圳)有限公司 用户画像的构建方法、基于用户画像的对话方法及装置
CN112633976A (zh) * 2020-12-21 2021-04-09 高晓惠 基于大数据和云业务的数据处理方法及云业务服务器
CN112633976B (zh) * 2020-12-21 2021-08-17 广东德生科技股份有限公司 基于大数据和云业务的数据处理方法及云业务服务器
CN113239229A (zh) * 2021-06-17 2021-08-10 张鹏涛 一种智能筛选数据处理方法、系统及云平台
CN117034260A (zh) * 2023-10-08 2023-11-10 深圳安天网络安全技术有限公司 一种事件判定信息的生成方法、装置、介质及电子设备
CN117034260B (zh) * 2023-10-08 2024-01-26 深圳安天网络安全技术有限公司 一种事件判定信息的生成方法、装置、介质及电子设备

Also Published As

Publication number Publication date
CN109145204B (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN109145204A (zh) 画像标签生成和使用方法及系统
US11868732B2 (en) System for minimizing repetition in intelligent virtual assistant conversations
JP6828124B2 (ja) 選択的センサポーリング
CN105654950B (zh) 自适应语音反馈方法和装置
CN109829039B (zh) 智能聊天方法、装置、计算机设备及存储介质
CN107886949B (zh) 一种内容推荐方法及装置
DE112016000292B4 (de) Verfahren und Vorrichtung zur die Privatsphäre bewahrenden Trainingskorpusauswahl
US11003863B2 (en) Interactive dialog training and communication system using artificial intelligence
US8150886B2 (en) Multiple database entity model generation using entity models
CN105701088B (zh) 从机器对话切换到人工对话的方法和装置
US20170337261A1 (en) Decision Making and Planning/Prediction System for Human Intention Resolution
CN103346957B (zh) 一种根据联系人消息改变联系人头像表情的系统及方法
CN109242514A (zh) 客户标签推荐方法、装置和系统
CN105677927B (zh) 用于提供搜索结果的方法和装置
CN104813311A (zh) 用于多人的虚拟代理推荐的系统和方法
Arteaga et al. Design of information system architecture for the recommendation of tourist sites in the city of Manta, Ecuador through a Chatbot
DE102012022733A1 (de) Mit einem Suchmaschinendienst kombiniertes Werbesystem und Verfahren zu dessen Durchführung
CN111966689B (zh) 应用知识库构建方法及装置
CN108897853A (zh) 生成推送信息的方法和装置
CN107609047A (zh) 应用推荐方法、装置、移动设备及存储介质
Kreutzer et al. Fields of application of artificial intelligence—customer service, marketing and sales
Zhang et al. Which platform should I choose? Factors influencing consumers’ channel transfer intention from web-based to mobile library service
CN114600081A (zh) 经由动态更新自然语言处理与应用交互
US11809969B2 (en) Dynamically integrating interactive machine learning multi-models
US20220308987A1 (en) Debugging applications for delivery via an application delivery server

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee before: AI SPEECH Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and system for generating and using portrait labels

Effective date of registration: 20230726

Granted publication date: 20210115

Pledgee: CITIC Bank Limited by Share Ltd. Suzhou branch

Pledgor: Sipic Technology Co.,Ltd.

Registration number: Y2023980049433