CN115481626A - 行为相似度的确定方法、装置、存储介质及电子装置 - Google Patents
行为相似度的确定方法、装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN115481626A CN115481626A CN202210886118.3A CN202210886118A CN115481626A CN 115481626 A CN115481626 A CN 115481626A CN 202210886118 A CN202210886118 A CN 202210886118A CN 115481626 A CN115481626 A CN 115481626A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- data
- determining
- vocabularies
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种行为相似度的确定方法、装置、存储介质及电子装置,涉及智慧家庭技术领域,该行为相似度的确定方法包括:对获取到的智能设备与目标对象的语音交互数据进行解析,得到语音交互数据的分词结果,其中,目标对象至少包括:第一对象和第二对象;根据分词结果得到第一词汇表与第二词汇表,其中,第一词汇表包括分词结果中的所有词汇,第二词汇表包括第一词汇数据和第二词汇数据,其中,第一词汇数据表示所有词汇中与第一对象对应的词汇,第二词汇数据表示所有词汇中与第二对象对应的词汇;根据第一词汇表和第二词汇表确定第一对象与第二对象之间的行为相似度,采用上述技术方案,解决了如何确定出不同用户之间的行为相似度的问题。
Description
技术领域
本申请涉及智慧家庭技术领域,具体而言,涉及一种行为相似度的确定方法、装置、存储介质及电子装置。
背景技术
目前,智能家电领域中,用户画像(家庭画像)作为描绘刻画用户家庭状况的重要机能一直都被认为是理解用户环节的关键。然而由于家电本身在市场环境与应用环境中的局限性,通常没有合适的手段收集准确的用户画像信息。这对于实现根据用户画像信息比较用户之间的相似度这一重要目标有着很大的限制。
不过伴随着家电智能化的进程不断加快,出现了一些用户相似度的度量方法,这些方法是基于用户与标准产品的互动数据实现的,这些互动数据包括用户购买电视机、电脑、手机、服装、鞋帽等产品时的用户数据,具有如尺寸、颜色、重量、产地、材质等的工业属性,这些工业属性多为数字或标准的枚举值,具备较好的数据特性。因此,相关技术中,可以利用余弦相似度等度量方法对这些互动数据的数据特性进行度量。但是这种方法具有很大的局限性,只能对与标准产品互动的用户的相似度进行度量,并不能真正实现对所有用户的相似度的度量。因此,相关技术中,存在如何确定出不同用户之间的行为相似度的问题。
针对相关技术中,如何确定出不同用户之间的行为相似度的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种行为相似度的确定方法、装置、存储介质及电子装置,以至少解决相关技术中,如何确定出不同用户之间的行为相似度的问题。
根据本申请实施例的一个实施例,提供了一种行为相似度的确定方法,包括:对获取到的智能设备与目标对象的语音交互数据进行解析,得到所述语音交互数据的分词结果,其中,所述目标对象至少包括:第一对象和第二对象;根据所述分词结果得到第一词汇表与第二词汇表,其中,所述第一词汇表包括所述分词结果中的所有词汇,所述第二词汇表包括第一词汇数据和第二词汇数据,其中,所述第一词汇数据表示所述所有词汇中与所述第一对象对应的词汇,所述第二词汇数据表示所述所有词汇中与所述第二对象对应的词汇;根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度。
在一个示例性实施例中,对获取到的智能设备与目标对象的语音交互数据进行解析,得到所述语音交互数据的分词结果,包括:确定用于分类的词汇列表,所述词汇列表至少包括:第三词汇表和第四词汇表,其中,所述第三词汇表包括停用词汇类型下的停用词,所述第四词汇表包括特定词汇类型下的特定词;根据所述第三词汇表对所述语音交互数据进行筛选,得到不包含所述停用词的筛选结果;在所述筛选结果中获取与所述第四词汇表中的特定词相匹配的词汇数据,并将所述与所述第四词汇表中的特定词相匹配的词汇数据确定为所述语音交互数据的分词结果。
在一个示例性实施例中,根据所述分词结果得到第一词汇表与第二词汇表,包括:对所述分词结果进行去重操作,根据去重后的分词结果生成所述第一词汇表;按照所述目标对象的身份信息将所述第一词汇表中的词汇进行分类,分别得到不同身份信息对应的词汇数据;其中,所述目标对象的身份信息至少包括:所述第一对象的身份信息和所述第二对象的身份信息;基于所述不同身份信息对应的词汇数据得到所述第二词汇表。
在一个示例性实施例中,根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度,包括:通过所述第一词汇表得到标准词汇矩阵;其中,所述标准词汇矩阵用于表示所述第一词汇表中的任两个词汇之间同时出现的概率;从所述第一词汇数据中确定出第一词汇,从所述第二词汇数据中确定出第二词汇;在所述标准词汇矩阵中查找所述第一词汇和所述第二词汇同时出现的第一概率;在查找成功的情况下,将所述第一概率确定为所述第一对象与所述第二对象之间的行为相似度。
在一个示例性实施例中,通过所述第一词汇表得到标准词汇矩阵,包括:使用投票算法构建所述第一词汇表中的词汇的上邻接矩阵,其中,所述上邻接矩阵中的每一元素值表示所述第一词汇表中的每一词汇与其他词汇同时出现的次数;对所述上邻接矩阵中的每一元素值进行取倒数处理,得到所述第一词汇表对应的邻接距离矩阵;将所述邻接距离矩阵确定为所述标准词汇矩阵。
在一个示例性实施例中,在对所述上邻接矩阵中的每一元素值进行取倒数处理,得到所述第一词汇表对应的邻接距离矩阵之前,所述方法还包括:依次对所述第一词汇表的每一词汇与其他词汇同时出现的次数进行计算,得到计算结果;根据所述计算结果更新所述上邻接矩阵中的每一元素值,直至所述上邻接矩阵中的所有元素值不为空;确定更新后的上邻接矩阵。
在一个示例性实施例中,根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度之后,所述方法还包括:从所述第一对象与所述第二对象之间的行为相似度中确定出所述第一对象与所述第二对象在同一设备类型下的行为相似度;在确定所述行为相似度大于预设阈值的情况下,根据所述第一对象对所述智能设备的使用数据与所述第二对象对所述智能设备的使用数据生成所述同一设备类型下的行为场景模板,其中,所述行为场景模板用于面向所述第一对象和/或所述第二对象提供所述智能设备的服务数据。
根据本申请实施例的另一个实施例,还提供了一种行为相似度的确定装置,包括:解析模块,用于对获取到的智能设备与目标对象的语音交互数据进行解析,得到所述语音交互数据的分词结果,其中,所述目标对象至少包括:第一对象和第二对象;得到模块,用于根据所述分词结果得到第一词汇表与第二词汇表,其中,所述第一词汇表包括所述分词结果中的所有词汇,所述第二词汇表包括第一词汇数据和第二词汇数据,其中,所述第一词汇数据表示所述所有词汇中与所述第一对象对应的词汇,所述第二词汇数据表示所述所有词汇中与所述第二对象对应的词汇;确定模块,用于根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述行为相似度的确定方法。
根据本申请实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的行为相似度的确定方法。
在本申请实施例中,通过对获取到的智能设备与目标对象的语音交互数据进行解析,得到所述语音交互数据的分词结果,其中,所述目标对象至少包括:第一对象和第二对象;根据所述分词结果得到第一词汇表与第二词汇表,其中,所述第一词汇表包括所述分词结果中的所有词汇,所述第二词汇表包括第一词汇数据和第二词汇数据,其中,所述第一词汇数据表示所述所有词汇中与所述第一对象对应的词汇,所述第二词汇数据表示所述所有词汇中与所述第二对象对应的词汇;根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度;采用上述技术方案,解决了如何确定出不同用户之间的行为相似度的问题,进而能够确定出不同用户之间的行为相似度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例的一种行为相似度的确定方法的硬件环境示意图;
图2是根据本申请实施例的行为相似度的确定方法的流程图;
图3是根据本申请实施例的行为相似度的确定方法的示意图;
图4是根据本申请实施例的行为相似度的确定方法的流程示意图;
图5是根据本申请实施例的邻接矩阵的示意图;
图6是根据本申请实施例的完整邻接矩阵的示意图;
图7是根据本申请实施例的相似性邻接表的示意图;
图8是根据本申请实施例的一种行为相似度的确定装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种行为相似度的确定方法。该行为相似度的确定方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地,在本实施例中,上述行为相似度的确定方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
在本实施例中提供了一种行为相似度的确定方法,应用于上述计算机终端,图2是根据本申请实施例的行为相似度的确定方法的流程图,该流程包括如下步骤:
步骤S202,对获取到的智能设备与目标对象的语音交互数据进行解析,得到所述语音交互数据的分词结果,其中,所述目标对象至少包括:第一对象和第二对象;
需要说明的是,上述目标对象表示与智能设备进行语音交互的对象,可以理解为人,也可以理解为机器人,本申请对此不作限制。
其中,上述语音交互数据可以是智能设备主动发送的,也可以是智能设备响应云端的数据获取请求被动发送的。在一个实施例中,在家庭用户使用语音操控时通过智能设备主动发送,例如在用户直接要求空调、冰箱、洗衣机、热水器等家电进行开关或其他控制操作,或者间接通过智能音箱的收音功能操作这些家电时,通过家电设备主动发送语音交互信息。通过智能音箱等家电收集到的丰富的语音信息,为数据分析部门了解并分析用户之间的差异提供了重要的数据。
步骤S204,根据所述分词结果得到第一词汇表与第二词汇表,其中,所述第一词汇表包括所述分词结果中的所有词汇,所述第二词汇表包括第一词汇数据和第二词汇数据,其中,所述第一词汇数据表示所述所有词汇中与所述第一对象对应的词汇,所述第二词汇数据表示所述所有词汇中与所述第二对象对应的词汇;
其中,对于根据所述分词结果得到第一词汇表和第二词汇表的顺序,可以是同时得到第一词汇表和第二词汇表,也可以是先得到第一词汇表,后得到第二词汇表,或者是先得到第二词汇表,后得到第一词汇表,本申请对此不做限制。
步骤S206,根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度。
通过上述步骤,对获取到的智能设备与至少包括第一对象和第二对象的目标对象的语音交互数据进行解析,得到所述语音交互数据的分词结果;根据所述分词结果得到包括所述分词结果中的所有词汇的第一词汇表与包括第一词汇数据和第二词汇数据的第二词汇表,其中,所述第一词汇数据表示所述所有词汇中与所述第一对象对应的词汇,所述第二词汇数据表示所述所有词汇中与所述第二对象对应的词汇;根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度,解决了相关技术中,如何确定出不同用户之间的行为相似度的问题,进而能够确定出不同用户之间的行为相似度。
在一个示例性实施例中,为了更好的理解上述步骤S202中如何对获取到的智能设备与目标对象的语音交互数据进行解析,得到所述语音交互数据的分词结果,提出了以下技术方案:确定用于分类的词汇列表,所述词汇列表至少包括:第三词汇表和第四词汇表,其中,所述第三词汇表包括停用词汇类型下的停用词,所述第四词汇表包括特定词汇类型下的特定词;根据所述第三词汇表对所述语音交互数据进行筛选,得到不包含所述停用词的筛选结果;在所述筛选结果中获取与所述第四词汇表中的特定词相匹配的词汇数据,并将所述与所述第四词汇表中的特定词相匹配的词汇数据确定为所述语音交互数据的分词结果。
需要说明的是,上述停用词汇类型下的停用词可以包括没有语义的虚词或者过渡词,例如,虚词可以包括得”、“地”、“的”、“着”、“了”、“过”等,过渡词可以包括“小优”、“没事”、“可以”等。
上述特定词汇类型下的特定词可以包括预先设置的具有特殊含义的专有名词。
在一个示例性实施例中,进一步对根据所述分词结果得到第一词汇表与第二词汇表的过程进行说明,具体包括:对所述分词结果进行去重操作,根据去重后的分词结果生成所述第一词汇表;按照所述目标对象的身份信息将所述第一词汇表中的词汇进行分类,分别得到不同身份信息对应的词汇数据;其中,所述目标对象的身份信息至少包括:所述第一对象的身份信息和所述第二对象的身份信息;基于所述不同身份信息对应的词汇数据得到所述第二词汇表。
其中,在其他实施例中,还可以单独对第一词汇表进行去重操作,或者单独对第二词汇表进行去重操作,即,可以将去重操作的顺序调整至生成第一词汇表之后,得到第二词汇表之前,或者调整至得到第二词汇表之后,本申请对此不作限制。
通过上述实施例,通过对分词结果进行去重操作得到第一词汇表和第二词汇表,可以得到没有重复词汇的第一词汇表和第二词汇表,减小了第一词汇表和第二词汇表的数据重复率,提高了根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度时的准确度。
在一个示例性实施例中,通过以下方案对根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度的过程进行说明,具体步骤包括:通过所述第一词汇表得到标准词汇矩阵;其中,所述标准词汇矩阵用于表示所述第一词汇表中的任两个词汇之间同时出现的概率;从所述第一词汇数据中确定出第一词汇,从所述第二词汇数据中确定出第二词汇;在所述标准词汇矩阵中查找所述第一词汇和所述第二词汇同时出现的第一概率;在查找成功的情况下,将所述第一概率确定为所述第一对象与所述第二对象之间的行为相似度。
需要说明的是,所述第一词汇和所述第二词汇同时出现的第一概率可以包括所述第一词汇和所述第二词汇同时出现在同一句子中的概率,也可以包括所述第一词汇和所述第二词汇同时出现在同一段落中的概率,但不限于此。
进一步的,将所述第一概率确定为所述第一对象与所述第二对象之间的行为相似度可以包括:在从所述标准词汇矩阵中查找出多个所述第一词汇和所述第二词汇同时出现的第一概率的情况下,可以取多个所述第一概率的均值,或者取多个所述第一概率的最大值,或者取多个所述第一概率的最小值作为所述第一对象与所述第二对象之间的行为相似度。
在一个实施例中,在查找失败的情况下,说明在标准词汇矩阵中不存在同时出现的所述第一词汇和所述第二词汇,即,说明所述第一词汇和所述第二词汇为同一个词,那么可以将所述第一概率确定为所述第一对象与所述第二对象之间的行为相似度设置为零。
在一个示例性实施例中,提供了一种通过所述第一词汇表得到标准词汇矩阵的技术方案,具体的:使用投票算法构建所述第一词汇表中的词汇的上邻接矩阵,其中,所述上邻接矩阵中的每一元素值表示所述第一词汇表中的每一词汇与其他词汇同时出现的次数;对所述上邻接矩阵中的每一元素值进行取倒数处理,得到所述第一词汇表对应的邻接距离矩阵;将所述邻接距离矩阵确定为所述标准词汇矩阵。
需要说明的是,使用投票算法构建所述第一词汇表中的词汇的上邻接矩阵包括:以所述第一词汇表中的每一词汇分别为矩阵的行的元素和矩阵的列的元素构建出所述第一词汇表的词汇的词汇邻接矩阵,由于本申请并不限制词汇的出现顺序,因此,基于第一词汇表的词汇得到的词汇邻接矩阵是一个对称矩阵,可以将此词汇邻接矩阵的上三角矩阵设置为上邻接矩阵,从而实现压缩存储,减小无效数据的计算过程,提高了所述第一对象与所述第二对象之间的行为相似度的计算效率。
在一个示例性实施例中,在对所述上邻接矩阵中的每一元素值进行取倒数处理,得到所述第一词汇表对应的邻接距离矩阵之前,还可以通过其他技术方案确定上邻接矩阵,具体如下:依次对所述第一词汇表的每一词汇与其他词汇同时出现的次数进行计算,得到计算结果;根据所述计算结果更新所述上邻接矩阵中的每一元素值,直至所述上邻接矩阵中的所有元素值不为空;确定更新后的上邻接矩阵。
在一个示例性实施例中,在根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度之后,还可以从所述第一对象与所述第二对象之间的行为相似度中确定出所述第一对象与所述第二对象在同一设备类型下的行为相似度;在确定所述行为相似度大于预设阈值的情况下,根据所述第一对象对所述智能设备的使用数据与所述第二对象对所述智能设备的使用数据生成所述同一设备类型下的行为场景模板,其中,所述行为场景模板用于面向所述第一对象和/或所述第二对象提供所述智能设备的服务数据。
为了更好的理解上述行为相似度的确定方法的过程,以下再结合可选实施例对上述行为相似度的确定的实现方法流程进行说明,但不用于限定本申请实施例的技术方案。
在本实施例中提供了一种行为相似度的确定方法,图3是根据本申请实施例的行为相似度的确定方法的示意图,如图3所示,具体如下步骤:
步骤S301:获取用户语音日志(相当于上述语音交互数据);
其中,用户语音日志的获取来源可以包括智能音箱,每一条语音日志都是基于用户语音的ASR(Automatic Speech Recognition,自动语音识别技术)的识别结果,其核心内容格式表示为:(User_id,CreateTime,Content)。
以下示意性给出7条用户语音日志示例,User_id即用户的编号,CreateTime 即该日志创建的事件,Content即用户语音的内容,具体如下:
(34099370,2021-07-01 00:00:02,黑子是黑色的吗);
(34099370,2021-07-01 00:00:06,小优小优);
(34099370,2021-07-01 00:00:46,听周杰伦的告白气球);
(34099370,2021-07-01 00:02:47,上海有什么景点推荐吗);
(34099370,2021-07-01 00:07:20,背诵李白的诗);
(34099370,2021-07-01 00:41:37,我想听体育新闻);
(34099370,2021-07-01 00:43:53,北京今天车辆限行情况)。
步骤S302:确定分词算法;
在一个实施例中,还可以基于分词算法,采用python开发环境中常用的中文分词工具“jieba”作为分词软件包,通过以下几个子步骤完成分词工作。
步骤S1:确定停用词:向停用词列表加入“得”、“地”、“的”、“着”、“了”、“过”等汉语虚词,并加入“小优”、“没事”、“可以”等海尔优家智能家居环境常用词汇作为停用词。
步骤S2:确定专有名词:向专有名词列表加入专有名词。
步骤S3:使用“停用词”和“专有名词”两列表对用户语音日志语句进行分词:将“停用词”从日志中去除,将“专有名词”作为整体从句子中以独立词汇的形式分出。具体算法使用HMM(隐马尔科夫模型)的方法进行最大似然路径求解。
步骤S4:输出“词汇全表”和“用户词汇表”:“词汇全表”即全局性的不重复的词汇列表。“用户词汇表”即以每个用户为单位的不重复的词汇列表。
步骤S303:根据分词算法从用户语音日志中解析出词汇全表(相当于上述第一词汇表);
需要说明的是,词汇全表可以理解为包括全局性的不重复的词汇的列表,即,在全局分词的过程中,每发现一个新词汇就可以向这个词汇全表中加入该词汇,从而实现词汇全表的词汇都不重不漏。
其中,词汇全表中的词汇的格式为:Id,Word。
以下示意性给出6条词汇示例,Id即词汇编号,Word即词汇内容。
1,黑子;
2,黑色;
3,周杰伦;
4,气球告白;
5,上海;
6,景点。
步骤S304:根据分词算法从用户语音日志中解析出用户词汇表(相当于上述第二词汇表);
在一个实施例中,示意性给出以一个用户为单位的不重复的词汇列表(即用户词汇表),其中,用户词汇表中的词汇格式为:User_id,Id,Word。User_id即用户的编号,Id即词汇编号,Word即词汇内容。
34099370,1,黑子;
34099370,2,黑色;
34099370,3,周杰伦;
2098296143,1,英文;
2098296143,2,歌曲;
2098296143,3,周杰伦。
需要说明的是,与词汇全表不同,每个用户词汇表仅能包括在同一个用户下的词汇是不重不漏的。
步骤S305:确定投票算法;
步骤S306:确定词汇相关性邻接矩阵(相当于上述标准词汇矩阵);
其中,可以通过以下步骤实现确定词汇相关性邻接矩阵:
步骤S1:构建词表相关的上邻接矩阵;
具体地,以矩阵的[x,y]元素表示词汇[wx,wy]的距离。如图4所示,图4 中的矩阵下部用na表示其不可用状态,上部的空白表示距离即上邻接矩阵。对角线上的[wx,wx]元素所在的元素值表示一个词汇和其自己的距离,在本算法中我们也标称其为na。
步骤S2:投票;
通过投票算法用来计算词汇两两之间的距离,当一个句子s1在分词后会形成w1,w2,w3,...,wn个词汇。当w1~wn的词汇出现在同一条日志中,即将这n个词两两进行投票,具体做法是将w1~wn的共n-1个邻接点坐标加1。 (空白视作0)。
步骤S3:循环处理得到完整邻接矩阵;
对于日志中的每个句子都做上述步骤中的投票处理,最终得到完整的邻接矩阵,如图5所示,完整的邻接矩阵中的上邻接矩阵的元素值均得到计算。
步骤S4:得到邻接距离矩阵(即词汇相关性邻接矩阵);
图5是根据本申请实施例的邻接矩阵的示意图,在一个实施例中,邻接距离矩阵如图5所示。进一步的,对于图5中的邻接矩阵,我们考虑使用距离矩阵来表示,即对于其中的上邻接矩阵的每个元素所在的元素值+1再取倒数,也就是对于每个元素来说,其元素值变化如下:
[wx,wy]=1/([wx,wy]+1)。
步骤S5:经过上述步骤S4后,得到图6的矩阵,图6是根据本申请实施例的完整邻接矩阵的示意图。在图6所示的两两词汇间距的距离矩阵中,如果确定两个词汇从来没有出现在一个句子中,那么这两个词汇之间的距离为1.00,如果确定两个词汇同时出现在一个句子中,其出现的概率越大,这两个词汇之间的距离就越小。
步骤S307:根据相似性算法确定用户相似度。
获取用户A对应的用户词汇表,表示为a2,a3...an,并获取用户B的用户词汇表,表示为b1,b2,b3...bm。其中,n,m为自然数。
图7是根据本申请实施例的相似性邻接表的示意图,如图7所示,给出了构建的用户A和用户B的相似性邻接表(n×m矩阵)的示意图,其中[ax,by]元素的元素值可以通过从图6所示的词汇相关性邻接矩阵查找得到。其中,如果ax 和by元素是相等的(同一个词),则将[ax,by]元素的元素值置为0。
进一步的,A和B两用户的相似度取n×m个元素的平均值。
通过上述方案,可以以用户所说话语的分词进行投票的方法来度量相似度的方法。相关领域中,虽然可以使用基于用户购买商品的行为特征来度量用户的相似度,而这种度量方式对于商品本身标准化的要求是较为苛刻的,无法应用于智能家居场景。因此,智能家居场景需要采用更为适合自己的算法来完成类似的应用需求。本申请的技术方案对用户控制网器时的语言数据进行分析,由于自然语言自身的特点,词汇之间出现的相关性是有着自我表达的特征的,鉴于这种特性,我们对词汇之间同时出现的概率进行投票从而求得词汇之间的相关性,并以此种相关性来判断用户之间的相似性,本申请的方案具有计算准确的优点,得到了不同用户之间的相似度。
进一步的,本申请还可以通过分析包括智能音箱在内的收音网器的语言信息 (即上述语音交互数据),利用人类自然语言中的相关性来对词汇和词汇、物体和物体、人与人等关系进行相互标注,并通过分词算法、投票算法等一系列算法量化计算不同用户下的词汇之间的距离,以根据这些词汇所组成的语句在智能家居环境中共同出现的场合来加强其之间的相关性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等) 执行本申请各个实施例的方法。
图8是根据本申请实施例的一种行为相似度的确定装置的结构框图;如图8 所示,包括:
解析模块82,用于对获取到的智能设备与目标对象的语音交互数据进行解析,得到所述语音交互数据的分词结果,其中,所述目标对象至少包括:第一对象和第二对象;
需要说明的是,上述目标对象表示与智能设备进行语音交互的对象,可以理解为人,也可以理解为机器人,本申请对此不作限制。
其中,上述语音交互数据可以是智能设备主动发送的,也可以是智能设备响应云端的数据获取请求被动发送的。
得到模块84,用于根据所述分词结果得到第一词汇表与第二词汇表,其中,所述第一词汇表包括所述分词结果中的所有词汇,所述第二词汇表包括第一词汇数据和第二词汇数据,其中,所述第一词汇数据表示所述所有词汇中与所述第一对象对应的词汇,所述第二词汇数据表示所述所有词汇中与所述第二对象对应的词汇;
其中,对于根据所述分词结果得到第一词汇表和第二词汇表的顺序,可以是同时得到第一词汇表和第二词汇表,也可以是先得到第一词汇表,后得到第二词汇表,或者是先得到第二词汇表,后得到第一词汇表,本申请对此不做限制。
确定模块86,用于根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度。
通过上述装置,对获取到的智能设备与至少包括:第一对象和第二对象的目标对象的语音交互数据进行解析,得到所述语音交互数据的分词结果;根据所述分词结果得到包括所述分词结果中的所有词汇的第一词汇表与包括第一词汇数据和第二词汇数据的第二词汇表,其中,所述第一词汇数据表示所述所有词汇中与所述第一对象对应的词汇,所述第二词汇数据表示所述所有词汇中与所述第二对象对应的词汇;根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度,解决了相关技术中,如何确定出不同用户之间的行为相似度的问题,进而能够确定出不同用户之间的行为相似度。
在一个示例性实施例中,上述解析模块82还用于确定用于分类的词汇列表,所述词汇列表至少包括:第三词汇表和第四词汇表,其中,所述第三词汇表包括停用词汇类型下的停用词,所述第四词汇表包括特定词汇类型下的特定词;根据所述第三词汇表对所述语音交互数据进行筛选,得到不包含所述停用词的筛选结果;在所述筛选结果中获取与所述第四词汇表中的特定词相匹配的词汇数据,并将所述与所述第四词汇表中的特定词相匹配的词汇数据确定为所述语音交互数据的分词结果。
需要说明的是,上述停用词汇类型下的停用词可以包括没有语义的虚词或者过渡词,例如,虚词可以包括得”、“地”、“的”、“着”、“了”、“过”等,过渡词可以包括“小优”、“没事”、“可以”等。
上述特定词汇类型下的特定词可以包括预先设置的具有特殊含义的专有名词。
在一个示例性实施例中,上述得到模块84还用于对所述分词结果进行去重操作,根据去重后的分词结果生成所述第一词汇表;按照所述目标对象的身份信息将所述第一词汇表中的词汇进行分类,分别得到不同身份信息对应的词汇数据;其中,所述目标对象的身份信息至少包括:所述第一对象的身份信息和所述第二对象的身份信息;基于所述不同身份信息对应的词汇数据得到所述第二词汇表。
其中,在其他实施例中,还可以单独对第一词汇表进行去重操作,或者单独对第二词汇表进行去重操作,即,可以将去重操作的顺序调整至生成第一词汇表之后,得到第二词汇表之前,或者调整至得到第二词汇表之后,本申请对此不作限制。
通过上述实施例,通过对分词结果进行去重操作得到第一词汇表和第二词汇表,可以得到没有重复词汇的第一词汇表和第二词汇表,减小了第一词汇表和第二词汇表的数据重复率,提高了根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度时的准确度。
在一个示例性实施例中,上述确定模块86还用于通过所述第一词汇表得到标准词汇矩阵;其中,所述标准词汇矩阵用于表示所述第一词汇表中的任两个词汇之间同时出现的概率;从所述第一词汇数据中确定出第一词汇,从所述第二词汇数据中确定出第二词汇;在所述标准词汇矩阵中查找所述第一词汇和所述第二词汇同时出现的第一概率;在查找成功的情况下,将所述第一概率确定为所述第一对象与所述第二对象之间的行为相似度。
需要说明的是,所述第一词汇和所述第二词汇同时出现的第一概率可以包括所述第一词汇和所述第二词汇同时出现在同一句子中的概率,也可以包括所述第一词汇和所述第二词汇同时出现在同一段落中的概率,但不限于此。
进一步的,上述确定模块86还用于在从所述标准词汇矩阵中查找出多个所述第一词汇和所述第二词汇同时出现的第一概率的情况下,可以取多个所述第一概率的均值,或者取多个所述第一概率的最大值,或者取多个所述第一概率的最小值作为所述第一对象与所述第二对象之间的行为相似度。
在一个实施例中,上述确定模块86还用于在查找失败的情况下,说明在标准词汇矩阵中不存在同时出现的所述第一词汇和所述第二词汇,即,说明所述第一词汇和所述第二词汇为同一个词,那么可以将所述第一概率确定为所述第一对象与所述第二对象之间的行为相似度设置为零。
在一个示例性实施例中,上述确定模块86还用于使用投票算法构建所述第一词汇表中的词汇的上邻接矩阵,其中,所述上邻接矩阵中的每一元素值表示所述第一词汇表中的每一词汇与其他词汇同时出现的次数;对所述上邻接矩阵中的每一元素值进行取倒数处理,得到所述第一词汇表对应的邻接距离矩阵;将所述邻接距离矩阵确定为所述标准词汇矩阵。
需要说明的是,上述确定模块86还用于以所述第一词汇表中的每一词汇分别为矩阵的行的元素和矩阵的列的元素构建出所述第一词汇表的词汇的词汇邻接矩阵,由于本申请并不限制词汇的出现顺序,因此,基于第一词汇表的词汇得到的词汇邻接矩阵是一个对称矩阵,可以将此词汇邻接矩阵的上三角矩阵设置为上邻接矩阵,从而实现压缩存储,减小无效数据的计算过程,提高了所述第一对象与所述第二对象之间的行为相似度的计算效率。
在一个示例性实施例中,在对所述上邻接矩阵中的每一元素值进行取倒数处理,得到所述第一词汇表对应的邻接距离矩阵之前,上述确定模块86还用于依次对所述第一词汇表的每一词汇与其他词汇同时出现的次数进行计算,得到计算结果;根据所述计算结果更新所述上邻接矩阵中的每一元素值,直至所述上邻接矩阵中的所有元素值不为空;确定更新后的上邻接矩阵。
在一个示例性实施例中,上述行为相似度的确定装置还包括生成模块,用于根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度之后,从所述第一对象与所述第二对象之间的行为相似度中确定出所述第一对象与所述第二对象在同一设备类型下的行为相似度;在确定所述行为相似度大于预设阈值的情况下,根据所述第一对象对所述智能设备的使用数据与所述第二对象对所述智能设备的使用数据生成所述同一设备类型下的行为场景模板,其中,所述行为场景模板用于面向所述第一对象和/或所述第二对象提供所述智能设备的服务数据。
本申请的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项的方法。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,对获取到的智能设备与目标对象的语音交互数据进行解析,得到所述语音交互数据的分词结果,其中,所述目标对象至少包括:第一对象和第二对象;
S2,根据所述分词结果得到第一词汇表与第二词汇表,其中,所述第一词汇表包括所述分词结果中的所有词汇,所述第二词汇表包括第一词汇数据和第二词汇数据,其中,所述第一词汇数据表示所述所有词汇中与所述第一对象对应的词汇,所述第二词汇数据表示所述所有词汇中与所述第二对象对应的词汇;
S3,根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度。
本申请的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,对获取到的智能设备与目标对象的语音交互数据进行解析,得到所述语音交互数据的分词结果,其中,所述目标对象至少包括:第一对象和第二对象;
S2,根据所述分词结果得到第一词汇表与第二词汇表,其中,所述第一词汇表包括所述分词结果中的所有词汇,所述第二词汇表包括第一词汇数据和第二词汇数据,其中,所述第一词汇数据表示所述所有词汇中与所述第一对象对应的词汇,所述第二词汇数据表示所述所有词汇中与所述第二对象对应的词汇;
S3,根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种行为相似度的确定方法,其特征在于,包括:
对获取到的智能设备与目标对象的语音交互数据进行解析,得到所述语音交互数据的分词结果,其中,所述目标对象至少包括:第一对象和第二对象;根据所述分词结果得到第一词汇表与第二词汇表,其中,所述第一词汇表包括所述分词结果中的所有词汇,所述第二词汇表包括第一词汇数据和第二词汇数据,其中,所述第一词汇数据表示所述所有词汇中与所述第一对象对应的词汇,所述第二词汇数据表示所述所有词汇中与所述第二对象对应的词汇;
根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度。
2.根据权利要求1所述的行为相似度的确定方法,其特征在于,对获取到的智能设备与目标对象的语音交互数据进行解析,得到所述语音交互数据的分词结果,包括:
确定用于分类的词汇列表,所述词汇列表至少包括:第三词汇表和第四词汇表,其中,所述第三词汇表包括停用词汇类型下的停用词,所述第四词汇表包括特定词汇类型下的特定词;
根据所述第三词汇表对所述语音交互数据进行筛选,得到不包含所述停用词的筛选结果;
在所述筛选结果中获取与所述第四词汇表中的特定词相匹配的词汇数据,并将所述与所述第四词汇表中的特定词相匹配的词汇数据确定为所述语音交互数据的分词结果。
3.根据权利要求1所述的行为相似度的确定方法,其特征在于,根据所述分词结果得到第一词汇表与第二词汇表,包括:
对所述分词结果进行去重操作,根据去重后的分词结果生成所述第一词汇表;
按照所述目标对象的身份信息将所述第一词汇表中的词汇进行分类,分别得到不同身份信息对应的词汇数据;其中,所述目标对象的身份信息至少包括:所述第一对象的身份信息和所述第二对象的身份信息;
基于所述不同身份信息对应的词汇数据得到所述第二词汇表。
4.根据权利要求1所述的行为相似度的确定方法,其特征在于,根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度,包括:
通过所述第一词汇表得到标准词汇矩阵;其中,所述标准词汇矩阵用于表示所述第一词汇表中的任两个词汇之间同时出现的概率;
从所述第一词汇数据中确定出第一词汇,从所述第二词汇数据中确定出第二词汇;
在所述标准词汇矩阵中查找所述第一词汇和所述第二词汇同时出现的第一概率;
在查找成功的情况下,将所述第一概率确定为所述第一对象与所述第二对象之间的行为相似度。
5.根据权利要求4所述的行为相似度的确定方法,其特征在于,通过所述第一词汇表得到标准词汇矩阵,包括:
使用投票算法构建所述第一词汇表中的词汇的上邻接矩阵,其中,所述上邻接矩阵中的每一元素值表示所述第一词汇表中的每一词汇与其他词汇同时出现的次数;
对所述上邻接矩阵中的每一元素值进行取倒数处理,得到所述第一词汇表对应的邻接距离矩阵;
将所述邻接距离矩阵确定为所述标准词汇矩阵。
6.根据权利要求5所述的行为相似度的确定方法,其特征在于,在对所述上邻接矩阵中的每一元素值进行取倒数处理,得到所述第一词汇表对应的邻接距离矩阵之前,所述方法还包括:
依次对所述第一词汇表的每一词汇与其他词汇同时出现的次数进行计算,得到计算结果;
根据所述计算结果更新所述上邻接矩阵中的每一元素值,直至所述上邻接矩阵中的所有元素值不为空;
确定更新后的上邻接矩阵。
7.根据权利要求1所述的行为相似度的确定方法,其特征在于,根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度之后,所述方法还包括:
从所述第一对象与所述第二对象之间的行为相似度中确定出所述第一对象与所述第二对象在同一设备类型下的行为相似度;
在确定所述行为相似度大于预设阈值的情况下,根据所述第一对象对所述智能设备的使用数据与所述第二对象对所述智能设备的使用数据生成所述同一设备类型下的行为场景模板,其中,所述行为场景模板用于面向所述第一对象和/或所述第二对象提供所述智能设备的服务数据。
8.一种行为相似度的确定装置,其特征在于,包括:
解析模块,用于对获取到的智能设备与目标对象的语音交互数据进行解析,得到所述语音交互数据的分词结果,其中,所述目标对象至少包括:第一对象和第二对象;
得到模块,用于根据所述分词结果得到第一词汇表与第二词汇表,其中,所述第一词汇表包括所述分词结果中的所有词汇,所述第二词汇表包括第一词汇数据和第二词汇数据,其中,所述第一词汇数据表示所述所有词汇中与所述第一对象对应的词汇,所述第二词汇数据表示所述所有词汇中与所述第二对象对应的词汇;
确定模块,用于根据所述第一词汇表和所述第二词汇表确定所述第一对象与所述第二对象之间的行为相似度。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210886118.3A CN115481626A (zh) | 2022-07-26 | 2022-07-26 | 行为相似度的确定方法、装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210886118.3A CN115481626A (zh) | 2022-07-26 | 2022-07-26 | 行为相似度的确定方法、装置、存储介质及电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115481626A true CN115481626A (zh) | 2022-12-16 |
Family
ID=84421794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210886118.3A Pending CN115481626A (zh) | 2022-07-26 | 2022-07-26 | 行为相似度的确定方法、装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115481626A (zh) |
-
2022
- 2022-07-26 CN CN202210886118.3A patent/CN115481626A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11164568B2 (en) | Speech recognition method and apparatus, and storage medium | |
JP7343568B2 (ja) | 機械学習のためのハイパーパラメータの識別および適用 | |
US11816078B2 (en) | Automatic entity resolution with rules detection and generation system | |
CN105979376A (zh) | 一种推荐方法和装置 | |
US11907659B2 (en) | Item recall method and system, electronic device and readable storage medium | |
CN111179935B (zh) | 一种语音质检的方法和设备 | |
CN110209809B (zh) | 文本聚类方法和装置、存储介质及电子装置 | |
CN113314119B (zh) | 语音识别智能家居控制方法及装置 | |
CN108920649B (zh) | 一种信息推荐方法、装置、设备和介质 | |
CN107507028A (zh) | 用户偏好确定方法、装置、设备及存储介质 | |
CN105574089A (zh) | 知识图谱的生成方法及装置、对象对比方法及装置 | |
US20160086097A1 (en) | Automatic Discovery of Message Ordering Invariants in Heterogeneous Logs | |
CN114676689A (zh) | 语句文本的识别方法和装置、存储介质及电子装置 | |
KR101931624B1 (ko) | 패션 분야의 트렌드 분석방법 및 이를 포함하는 저장매체 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN110348581B (zh) | 用户特征群中用户特征寻优方法、装置、介质及电子设备 | |
CN110019832B (zh) | 语言模型的获取方法和装置 | |
CN115481626A (zh) | 行为相似度的确定方法、装置、存储介质及电子装置 | |
CN114861678A (zh) | 时间信息的确定方法和装置、存储介质及电子装置 | |
CN116127066A (zh) | 文本聚类方法、文本聚类装置、电子设备及存储介质 | |
CN114722234A (zh) | 基于人工智能的音乐推荐方法、装置、存储介质 | |
CN113064982A (zh) | 一种问答库生成方法及相关设备 | |
CN111325575A (zh) | 问题信息推荐方法、装置、计算机设备及存储介质 | |
CN115171702A (zh) | 数字孪生声纹特征处理方法、存储介质及电子装置 | |
CN114818709A (zh) | 数据表字段名称的获取方法和装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |