CN113673224B - 识别热门词汇的方法、装置、计算机设备及可读存储介质 - Google Patents

识别热门词汇的方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN113673224B
CN113673224B CN202110955294.3A CN202110955294A CN113673224B CN 113673224 B CN113673224 B CN 113673224B CN 202110955294 A CN202110955294 A CN 202110955294A CN 113673224 B CN113673224 B CN 113673224B
Authority
CN
China
Prior art keywords
vocabulary
time
probability
state
time slice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110955294.3A
Other languages
English (en)
Other versions
CN113673224A (zh
Inventor
唐弘胤
陈达遥
焦岩策
孙兴武
张富峥
王仲远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202110955294.3A priority Critical patent/CN113673224B/zh
Publication of CN113673224A publication Critical patent/CN113673224A/zh
Application granted granted Critical
Publication of CN113673224B publication Critical patent/CN113673224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了识别热门词汇的方法、装置、计算机设备及可读存储介质,属于计算机技术领域。方法包括:获取多个第一词汇中的各个第一词汇的第一次数,任一第一词汇的第一次数为任一第一词汇在第一时间片内出现的次数。对于任一第一词汇,将任一第一词汇的第一次数输入任一第一词汇对应的第一识别模型,得到第一识别模型输出的任一第一词汇的状态,任一第一词汇的状态包括次数正常状态或者次数增加状态。基于第二词汇的第一次数,从第二词汇中确定第一时间片内的热门词汇,第二词汇包括多个第一词汇中状态为次数增加状态的第一词汇。本申请避免了周期性词汇的干扰,提高了热门词汇的识别准确率。

Description

识别热门词汇的方法、装置、计算机设备及可读存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种识别热门词汇的方法、装置、计算机设备及可读存储介质。
背景技术
在互联网中,用户可以搜索或发布自己感兴趣的内容。在一段时间内,用户搜索或发布的内容中出现次数较多且具有非周期性的词汇为热门词汇。其中,非周期性是指:不会随着时间变化而周期性频繁出现的词汇。通过在用户搜索或发布的内容中识别出热门词汇,有利于掌握互联网中突发的热门事件或话题。
相关技术中,首先确定需要识别的词汇在当前一段时间内的出现次数,再获取该词汇在过去一段时间内的出现次数。如果相比于该词汇在过去一段时间内的出现次数,该词汇在当前一段时间内的出现次数较高,则识别该词汇为热门词汇。
然而,如果需要识别的词汇具有周期性,而当前一段时间恰好是该词汇周期性频繁出现的时间,则相比于该词汇在过去一段时间内的出现次数,该词汇在当前一段时间内的出现次数较高,按照相关技术提供的方式会识别该词汇为热门词汇。能够看出,按照相关技术提供的方式识别出的热门词汇中可能包括具有周期性的词汇,识别准确率不高。
发明内容
本申请实施例提供了一种识别热门词汇的方法、装置、计算机设备及可读存储介质,以解决相关技术识别准确率不高的问题。所述技术方案如下:
一方面,提供了一种识别热门词汇的方法,所述方法包括:
获取多个第一词汇中的各个第一词汇的第一次数,任一第一词汇的第一次数为所述任一第一词汇在第一时间片内出现的次数;
对于任一第一词汇,将所述任一第一词汇的第一次数输入所述任一第一词汇对应的第一识别模型,得到所述第一识别模型输出的所述任一第一词汇的状态,所述任一第一词汇的状态包括次数正常状态或者次数增加状态,所述次数正常状态用于指示所述第一次数相对于所述任一第一词汇的同期出现次数是正常的,所述次数增加状态用于指示所述第一次数相对于所述任一第一词汇的同期出现次数是增加的,所述任一第一词汇的同期出现次数为所述任一第一词汇在与所述第一时间片等价的其他时间片内出现的次数;
基于第二词汇的第一次数,从所述第二词汇中确定所述第一时间片内的热门词汇,所述第二词汇包括所述多个第一词汇中状态为所述次数增加状态的第一词汇。
在示例性实施例中,所述任一第一词汇对应的第一识别模型用于基于第一模型参数和所述任一第一词汇的第一次数确定所述任一第一词汇的次数分布,基于所述次数分布和贝叶斯法则确定所述第一词汇的概率,基于所述概率输出所述任一第一词汇的状态,所述第一模型参数为所述第一识别模型包括的参数。
在示例性实施例中,所述第一模型参数包括到达率函数,所述到达率函数为基于时间片对第一到达率进行映射的函数,所述到达率函数用于指示所述任一第一词汇在不同时间片内出现的次数的周期性,所述次数分布包括第一泊松分布,所述第一泊松分布为非齐次泊松分布,所述概率包括第一概率,所述第一概率是所述任一第一词汇出现所述第一次数时所述任一第一词汇的状态为所述次数正常状态的概率;
所述第一识别模型用于基于所述第一到达率和所述第一时间片确定所述到达率函数的函数值,基于所述任一第一词汇的第一次数和所述函数值确定所述任一第一词汇的第一泊松分布,基于所述第一泊松分布和所述贝叶斯法则确定所述任一第一词汇的所述第一概率,响应于所述第一概率大于概率阈值则输出所述任一第一词汇的状态为所述次数正常状态,响应于所述第一概率不大于所述概率阈值则输出所述任一第一词汇的状态为所述次数增加状态。
在示例性实施例中,所述第一模型参数包括到达率函数和第二到达率,所述到达率函数为基于时间片对第一到达率进行映射的函数,所述到达率函数用于指示所述任一第一词汇在不同时间片内出现的次数的周期性,所述次数分布包括第一泊松分布和第二泊松分布,所述第一泊松分布为非齐次泊松分布,所述概率包括第一概率和第二概率,所述第一概率是所述任一第一词汇出现所述第一次数时所述任一第一词汇的状态为所述次数正常状态的概率,所述第二概率是所述任一第一词汇出现所述第一次数时所述任一第一词汇的状态为所述次数增加状态的概率;
所述第一识别模型用于基于所述第一到达率和所述第一时间片确定所述到达率函数的函数值,基于所述任一第一词汇的第一次数和所述函数值确定所述任一第一词汇的第一泊松分布,基于所述第一泊松分布和所述贝叶斯法则确定所述任一第一词汇的所述第一概率,基于所述任一第一词汇的第一次数和所述第二到达率确定所述任一第一词汇的第二泊松分布,基于所述第二泊松分布和所述贝叶斯法则确定所述任一第一词汇的所述第二概率,响应于所述第一概率大于所述第二概率则输出所述任一第一词汇的状态为所述次数正常状态,响应于所述第一概率不大于所述第二概率则输出所述任一第一词汇的状态为所述次数增加状态。
在示例性实施例中,所述基于第二词汇的第一次数,从所述第二词汇中确定所述第一时间片内的热门词汇,包括:
对于任一第二词汇,确定所述任一第二词汇的第一次数与所述到达率函数的函数值之间的比值,所述比值用于指示所述任一第二词汇的热门程度;
基于所述第二词汇的比值,从所述第二词汇中确定所述第一时间片内的热门词汇。
在示例性实施例中,所述基于所述第二词汇的比值,从所述第二词汇中确定所述第一时间片内的热门词汇,包括:
对所述第二词汇的比值进行贝叶斯平均,得到更新后的比值;
基于所述第二词汇的更新后的比值,从所述第二词汇中确定所述第一时间片内的热门词汇。
在示例性实施例中,所述对于任一第一词汇,将所述任一第一词汇的第一次数输入所述任一第一词汇对应的第一识别模型之前,所述方法还包括:
获取所述任一第一词汇的多个第二次数,任一第二次数为所述任一第一词汇在一个第二时间片内出现的次数,所述第二时间片早于所述第一时间片;
将所述任一第一词汇的多个第二次数输入第二识别模型,所述第二识别模型用于基于所述任一第一词汇的多个第二次数迭代更新所述第二识别模型包括的第二模型参数,得到包括所述第一模型参数的所述任一第一词汇对应的所述第一识别模型。
在示例性实施例中,所述方法还包括:
对于任一第一词汇,获取所述任一第一词汇的至少一个第三次数,任一第三次数为所述任一第一词汇在一个第三时间片内出现的次数,所述第三时间片晚于所述第一时间片;
响应于所述第三时间片的数量大于数量阈值,将所述任一第一词汇的至少一个第三次数输入所述任一第一词汇对应的第一识别模型,所述第一识别模型用于基于所述任一第一词汇的至少一个第三次数更新所述第一模型参数。
一方面,提供了一种识别热门词汇的装置,所述装置包括:
获取模块,用于获取多个第一词汇中的各个第一词汇的第一次数,任一第一词汇的第一次数为所述任一第一词汇在第一时间片内出现的次数;
输入模块,用于对于任一第一词汇,将所述任一第一词汇的第一次数输入所述任一第一词汇对应的第一识别模型,得到所述第一识别模型输出的所述任一第一词汇的状态,所述任一第一词汇的状态包括次数正常状态或者次数增加状态,所述次数正常状态用于指示所述第一次数相对于所述任一第一词汇的同期出现次数是正常的,所述次数增加状态用于指示所述第一次数相对于所述任一第一词汇的同期出现次数是增加的,所述任一第一词汇的同期出现次数为所述任一第一词汇在与所述第一时间片等价的其他时间片内出现的次数;
确定模块,用于基于第二词汇的第一次数,从所述第二词汇中确定所述第一时间片内的热门词汇,所述第二词汇包括所述多个第一词汇中状态为所述次数增加状态的第一词汇。
在示例性实施例中,所述任一第一词汇对应的第一识别模型用于基于第一模型参数和所述任一第一词汇的第一次数确定所述任一第一词汇的次数分布,基于所述次数分布和贝叶斯法则确定所述第一词汇的概率,基于所述概率输出所述任一第一词汇的状态,所述第一模型参数为所述第一识别模型包括的参数。
在示例性实施例中,所述第一模型参数包括到达率函数,所述到达率函数为基于时间片对第一到达率进行映射的函数,所述到达率函数用于指示所述任一第一词汇在不同时间片内出现的次数的周期性,所述次数分布包括第一泊松分布,所述第一泊松分布为非齐次泊松分布,所述概率包括第一概率,所述第一概率是所述任一第一词汇出现所述第一次数时所述任一第一词汇的状态为所述次数正常状态的概率;所述第一识别模型用于基于所述第一到达率和所述第一时间片确定所述到达率函数的函数值,基于所述任一第一词汇的第一次数和所述函数值确定所述任一第一词汇的第一泊松分布,基于所述第一泊松分布和所述贝叶斯法则确定所述任一第一词汇的所述第一概率,响应于所述第一概率大于概率阈值则输出所述任一第一词汇的状态为所述次数正常状态,响应于所述第一概率不大于所述概率阈值则输出所述任一第一词汇的状态为所述次数增加状态。
在示例性实施例中,所述第一模型参数包括到达率函数和第二到达率,所述到达率函数为基于时间片对第一到达率进行映射的函数,所述到达率函数用于指示所述任一第一词汇在不同时间片内出现的次数的周期性,所述次数分布包括第一泊松分布和第二泊松分布,所述第一泊松分布为非齐次泊松分布,所述概率包括第一概率和第二概率,所述第一概率是所述任一第一词汇出现所述第一次数时所述任一第一词汇的状态为所述次数正常状态的概率,所述第二概率是所述任一第一词汇出现所述第一次数时所述任一第一词汇的状态为所述次数增加状态的概率;所述第一识别模型用于基于所述第一到达率和所述第一时间片确定所述到达率函数的函数值,基于所述任一第一词汇的第一次数和所述函数值确定所述任一第一词汇的第一泊松分布,基于所述第一泊松分布和所述贝叶斯法则确定所述任一第一词汇的所述第一概率,基于所述任一第一词汇的第一次数和所述第二到达率确定所述任一第一词汇的第二泊松分布,基于所述第二泊松分布和所述贝叶斯法则确定所述任一第一词汇的所述第二概率,响应于所述第一概率大于所述第二概率则输出所述任一第一词汇的状态为所述次数正常状态,响应于所述第一概率不大于所述第二概率则输出所述任一第一词汇的状态为所述次数增加状态。
在示例性实施例中,所述确定模块,用于对于任一第二词汇,确定所述任一第二词汇的第一次数与所述到达率函数的函数值之间的比值,所述比值用于指示所述任一第二词汇的热门程度;基于所述第二词汇的比值,从所述第二词汇中确定所述第一时间片内的热门词汇。
在示例性实施例中,所述确定模块,用于对所述第二词汇的比值进行贝叶斯平均,得到更新后的比值;基于所述第二词汇的更新后的比值,从所述第二词汇中确定所述第一时间片内的热门词汇。
在示例性实施例中,所述装置还包括:训练模块,用于获取所述任一第一词汇的多个第二次数,任一第二次数为所述任一第一词汇在一个第二时间片内出现的次数,所述第二时间片早于所述第一时间片;将所述任一第一词汇的多个第二次数输入第二识别模型,所述第二识别模型用于基于所述任一第一词汇的多个第二次数迭代更新所述第二识别模型包括的第二模型参数,得到包括所述第一模型参数的所述任一第一词汇对应的所述第一识别模型。
在示例性实施例中,所述装置还包括:更新模块,用于对于任一第一词汇,获取所述任一第一词汇的至少一个第三次数,任一第三次数为所述任一第一词汇在一个第三时间片内出现的次数,所述第三时间片晚于所述第一时间片;响应于所述第三时间片的数量大于数量阈值,将所述任一第一词汇的至少一个第三次数输入所述任一第一词汇对应的第一识别模型,所述第一识别模型用于基于所述任一第一词汇的至少一个第三次数更新所述第一模型参数。
一方面,提供了一种计算机设备,所述计算机设备包括存储器及处理器;所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以使计算机设备实现本申请的任一种示例性实施例所提供的识别热门词汇的方法。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以使计算机实现本申请的任一种示例性实施例所提供的识别热门词汇的方法。
另一方面,提供了一种计算机程序或计算机程序产品,所述计算机程序或计算机程序产品包括:计算机指令,所述计算机指令被计算机执行时,使得所述计算机实现本申请的任一种示例性实施例所提供的识别热门词汇的方法。
本申请实施例所提供的技术方案带来的有益效果至少包括:
本申请实施例通过第一识别模型识别第一词汇的状态,得到在第一时间片内处于次数增长状态的第二词汇,相比于在与第一时间片等价的其他时间片内的同期出现次数,第二词汇在当前的第一时间片内出现的次数更多。由于本实施例将词汇在等价的时间片内出现的次数进行对比,避免了当前的第一时间片为某个词汇周期性频繁出现的时间而对识别过程造成的干扰。也就是说,本实施例能够避免具有周期性的词汇的干扰,所识别出的热门词汇中不包括具有周期性的词汇,从而识别准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的实施环境的示意图;
图2是本申请实施例提供的识别热门词汇的方法的流程图;
图3是本申请实施例提供的识别热门词汇的流程示意图;
图4是本申请实施例提供的训练得到第一识别模型的流程示意图;
图5是本申请实施例提供的更新第一识别模型的流程示意图;
图6是本申请实施例提供的识别热门词汇的装置的结构示意图;
图7是本申请实施例提供的电子设备的结构示意图;
图8是本申请实施例提供的服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供了一种识别热门词汇的方法,该方法可应用于存储有第一识别模型的计算机设备中。参见图1所示的实施环境,该计算机设备可以是电子设备11或者服务器12。其中,响应于该计算机设备是电子设备11,则电子设备11可以与服务器12进行通信连接,以从服务器12上下载及存储第一识别模型。响应于该计算机设备是服务器12,则服务器12可以通过接受配置等方式获得及存储第一识别模型。能够理解的是,本申请实施例不对计算机设备获得第一识别模型的方式加以限定。
示例性地,电子设备11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如PC(PersonalComputer,个人计算机)、手机、智能手机、PDA(Personal Digital Assistant,个人数字助手)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等。服务器12可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。
本领域技术人员应能理解上述电子设备11和服务器12仅为举例,其他现有的或今后可能出现的电子设备或服务器如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
基于上述图1所示的实施环境,参见图2,本申请实施例提供了一种识别热门词汇的方法,该方法可应用于计算机设备中,计算机设备包括图1所示的电子设备或者服务器。如图2所示,该方法包括如下的步骤。
201,获取多个第一词汇中的各个第一词汇的第一次数,任一第一词汇的第一次数为任一第一词汇在第一时间片内出现的次数。
其中,第一词汇是需要进行识别的词汇,一个第一词汇的第一次数是该第一词汇在第一时间片内出现的次数,在第一时间片内出现是指:用户在第一时间片内搜索或发布的内容中包括该第一词汇。本实施例不对第一时间片的时长加以限定,第一时间片的时长根据经验或者实际需要进行设置即可。例如,第一时间片的时长可以为一小时、一天等等。
示例性地,参见图3,本实施例获取第一时间片内用户搜索或发布的内容,对该内容进行去噪处理及分词处理,从而得到多个词汇,统计多个词汇中的各个词汇在第一时间片内出现的次数。在一些实施方式中,多个第一词汇包括上述多个词汇。在另一些实施方式中,多个第一词汇包括上述多个词汇中在第一时间片内出现的次数不小于次数阈值的词汇,本实施例不对该次数阈值加以限定。通过此种实施方式,能够避免多个第一词汇中包括在第一时间片内出现的次数小于次数阈值的词汇,从而减少了需要识别的第一词汇的数量,有利于缩短识别过程的耗时、提高识别效率。
202,对于任一第一词汇,将任一第一词汇的第一次数输入任一第一词汇对应的第一识别模型,得到第一识别模型输出的任一第一词汇的状态,任一第一词汇的状态包括次数正常状态或者次数增加状态。
其中,次数正常状态用于指示第一次数相对于任一第一词汇的同期出现次数是正常的,次数增加状态用于指示第一次数相对于任一第一词汇的同期出现次数是增加的,任一第一词汇的同期出现次数为任一第一词汇在与第一时间片等价的其他时间片内出现的次数。其中,与第一时间片等价的其他时间片是指:与第一时间片处于不同周期且具有相同位置的时间片。一个时间片的位置是指:该时间片在该时间片所处的周期中的位置。例如,一个周期包括10个时间片,如果一个时间片是10个时间片中的第1个,则该时间片的位置即为10个时间片中的第1个。为便于理解,对与第一时间片等价的其他时间片进行举例说明如下:在第一词汇的第一周期和第二周期中,分别包括10个时间片。响应于第一时间片是第一周期的10个时间片中的第5个,其他时间片是第二周期的10个时间片中的第5个,则第一时间片与其他时间片分别处于不同周期且具有相同位置,第一时间片与其他时间片等价。以第一词汇为“跨年”为例,“跨年”的周期为一年。如果第一时间片为当前年份的12月,则其他时间片为过去年份的12月。对于具有周期性的第一词汇而言,该第一词汇在等价的不同时间片内出现的次数较为类似。换言之,当前的第一时间片为第一词汇的周期性频繁出现的时间,则等价的其他时间片则为第一词汇之前周期性频繁出现过的时间。
也就是说,本实施例中通过对比第一词汇在等价的不同时间片内出现的次数得到第一词汇的状态。如前所述,相关技术中首先确定需要识别的词汇在当前一段时间内的出现次数,再获取该词汇在过去一段时间内的出现次数。如果相比于该词汇在过去一段时间内的出现次数,该词汇在当前一段时间内的出现次数较高,则识别该词汇为热门词汇。因此,相关技术所对比的是词汇在相邻的时间段内出现的次数,而并非是像本实施例一样对比词汇在等价的时间片内出现的次数。相比于相关技术中提供的方案,本实施例能够排除词汇本身所具有的周期性的干扰,避免将具有周期性的词汇识别为热门词汇。
能够理解的是,在调用第一识别模型之前,需要先训练得到该第一识别模型。因此,在示例性实施例中,对于任一第一词汇,将任一第一词汇的第一次数输入任一第一词汇对应的第一识别模型之前,方法还包括:获取任一第一词汇的多个第二次数,任一第二次数为任一第一词汇在一个第二时间片内出现的次数,第二时间片早于第一时间片。将任一第一词汇的多个第二次数输入第二识别模型,第二识别模型用于基于任一第一词汇的多个第二次数迭代更新第二识别模型包括的第二模型参数,得到包括第一模型参数的任一第一词汇对应的第一识别模型。示例性地,参见图4,本实施例获取用户历史搜索或发布的内容,对该内容进行去噪处理及分词处理,从而得到多个第一词汇。将该内容所出现的时间划分为多个第二时间片,统计多个词汇中的各个词汇在第二时间片内出现的次数,得到各个第一词汇在第二时间片内出现的第二次数。
在本实施例中,第一识别模型基于对第二识别模型的训练得到,第一识别模型与第二识别模型具有相同的模型架构,第一识别模型与第二识别模型的区别之处在于:第一识别模型包括的第一模型参数与第二识别模型包括的第二模型参数不同。也就是说,通过第一词汇的多个第二次数对第二识别模型进行的训练,使得第二识别模型中的第二模型参数更新为第一模型参数,从而得到第一识别模型。在示例性实施例中,训练得到第一识别模型包括如下的两种方式。
训练方式一:在该训练方式中,既考虑词汇的状态为次数正常状态的情况,又考虑词汇的状态为次数增加状态的情况。接下来,对模型架构以及训练得到第一识别模型的过程分别进行说明。
首先,对模型架构进行说明。本实施例通过Nt表示一个词汇在一个时间片t内出现的次数,则P(Nt=n)表示一个词汇在一个时间片内出现n次的概率。
假设一个词汇在一个时间片内出现n次时,每次出现均处于次数正常状态,则P(Nt=n)为第一泊松分布,第一泊松分布为非齐次泊松分布,表示为如下的公式(1):
Figure BDA0003220256880000071
在公式(1)中,
Figure BDA0003220256880000072
为次数正常状态下,一个词汇在一个时间片内出现的次数。e为自然常数,λt为到达率函数,λt表示为如下的公式(2):
λt=λ0·δ(dt)·η(dt,ht) (2)
其中,λ0为第一到达率,dt∈{1,2,…,D}为第一时间映射函数,用于将连续的时间映射为D个时间段。δ(·)为具有D种取值的离散函数,D个时间段与δ(·)的D种取值一一对应。ht∈{1,2,…,H}为第二时间映射函数,用于将D个时间段中的各个时间段进一步映射为H个时间片,从而使得时间片总数量为(D×H)。η(·,·)为具有(D×H)种取值的离散函数,(D×H)个时间片与η(·,·)的(D×H)种取值一一对应。
另外,假设一个词汇在一个时间片内出现n次时,有(n-i)次出现时处于次数正常状态,而另外i次出现时处于次数增加状态,则P(Nt=n)表示为如下的公式(3):
Figure BDA0003220256880000073
其中,
Figure BDA0003220256880000074
为次数增加状态下,一个词汇在一个时间片内出现的次数。
Figure BDA0003220256880000075
为第二泊松分布,表示为如下的公式(4):
Figure BDA0003220256880000076
在公式(4)中,e为自然常数,λ1为第二到达率,该第二到达率为常数。
在本申请实施例中,引入隐变量zt来区分一个时间片中的次数正常状态和次数增加状态。示例性地,zt=z∈[0,1],z=0用于指示次数正常状态,z=1用于指示次数增加状态。则综合上述公式(1)和(3)能够得到如下的公式(5):
Figure BDA0003220256880000081
基于公式(5),通过如下的公式(6)来计算一个词汇在一个时间片内出现n次时,该词汇的状态为次数正常状态的概率,以及该词汇的状态为次数增加状态的概率:
Figure BDA0003220256880000082
在公式(6)中,P(Nt=n|zt=z)通过公式(5)计算得到,P(zt=z)为根据经验设置的常数参数。能够理解的是,当z=0时,
Figure BDA0003220256880000083
用于指示一个词汇在一个时间片内出现n次时,该词汇的状态为次数正常状态的概率。当z=1时,
Figure BDA0003220256880000084
用于指示一个词汇在一个时间片内出现n次时,该词汇的状态为次数增加状态的概率。
根据上文说明可知,训练得到第一识别模型的过程,实际上是使得第二识别模型中的第二模型参数更新为第一模型参数的过程。基于以上模型架构,本申请实施例中需要更新的模型参数包括:第一到达率λ0、第二到达率λ1、δ(·)的D种取值以及η(·,·)的(D×H)种取值。
在开始进行训练之前,根据经验设置第二识别模型中的第二模型参数。之后,获取第一词汇在多个第二时间片内的多个第二次数,第二时间片的总数量T为(D×H),则第二次数的数量也为(D×H)。接着,将第一词汇的多个第二次数输入第二模型参数,基于EM算法对第二模型参数进行迭代更新,从而得到第一模型参数。迭代更新包括如下的过程。
按照公式(7)建立数据似然函数:
Figure BDA0003220256880000085
在公式(7)中,γtz为指示变量,γtz包括γt1和γt0。当z=0时,γt1=0,γt0=1。当z=1时,γt1=1,γt0=0。另外,nz表示为如下的公式(8):
Figure BDA0003220256880000086
对公式(7)取对数,对数的底数为自然常数e,得到如下的公式(9):
Figure BDA0003220256880000087
参见图4,基于EM(Expectation-maximization,最大期望)算法以及公式(9),得到如下的公式(10),公式(10)为EM算法的目标函数Q:
Figure BDA0003220256880000088
其中,公式(10)由Q=E[P(γ|N)]·log P(N,γ)推导得到。由于z=0时γt0=1,z=1时γt1=1,因而无论z的取值为0还是1,γtz恒等于1。因此,zt=z等同于γtz=1。则P(γtz=1|Nt=n)=P(zt=z|Nt=n)。结合公式(6)可知
Figure BDA0003220256880000089
因而有
Figure BDA00032202568800000810
由于γtz恒等于1,因而公式(10)中的
Figure BDA00032202568800000811
Figure BDA0003220256880000091
Figure BDA0003220256880000092
代入公式(10),得到如下的公式(11):
Figure BDA0003220256880000093
针对各个需要更新的模型参数,基于公式(11)计算各个模型参数的偏导数并令偏导数为0,则可以得到模型参数的更新公式,模型参数的更新公式用于将第二模型参数更新为第一模型参数。其中,由于公式(11)中的P(zt=z)为根据经验设置的常数参数,因而针对
Figure BDA0003220256880000094
计算偏导数的结果为0,在计算偏导数的过程中忽略
Figure BDA0003220256880000095
Figure BDA0003220256880000096
即可。也就是说,本实施例仅针对公式(11)中的
Figure BDA0003220256880000097
计算偏导数,在计算偏导数过程中,将z=0和z=1展开,且z=0时
Figure BDA0003220256880000098
z=1时
Figure BDA0003220256880000099
针对第一到达率λ0,按照公式(12)计算公式(11)相对于λ0的偏导数:
Figure BDA00032202568800000910
其中,公式(12)中的δt即为上文公式(2)中的δ(dt),公式(12)中的ηt即为上文公式(2)中的η(dt,ht),后文其他公式中的δt和ηt同理,后文不再进行赘述。
令公式(12)为0,则能够推导得出如下的公式(13):
Figure BDA00032202568800000911
在公式(13)中,
Figure BDA00032202568800000912
根据公式(3)计算得到,P(Nt=n|z=1)根据公式(3)计算得到。将第一词汇在多个第二时间片内的多个第二次数代入公式(13)进行迭代计算,便能够计算得到第一到达率λ0
针对第二到达率λ1,按照公式(14)计算公式(11)相对于λ1的偏导数:
Figure BDA00032202568800000913
令公式(14)为0,则能够推导得出如下的公式(15):
Figure BDA0003220256880000101
公式(15)中,
Figure BDA0003220256880000102
根据公式(1)计算得到,P(Nt=n|z=1)根据公式(3)和(5)计算得到。将第一词汇在多个第二时间片内的多个第二次数代入公式(13)进行迭代计算,便能够计算得到第二到达率λ1
针对δ(·)的D种取值,按照公式(16)进行计算:
Figure BDA0003220256880000103
以多个第二时间片的时间之和为一周,D=7且H=24为例,则一周被划分为7天,每天中包括24个时间片,一周中共包括144个时间片。则,在计算第一天的δ1时,使用第一词汇在第一天的24个时间片内的24个第二次数,第二次数即为上文获取的第一词汇在第二时间片内的次数。在计算第二天的δ2时,使用第一词汇在第二天的24个时间片内的24个第二次数。以此类推,在计算第七天的δ7时,使用第一词汇在第七天的24个时间片内的24个第二次数。
针对η(·,·)的(D×H)种取值,按照公式(17)进行计算:
Figure BDA0003220256880000104
仍以多个第二时间片的时间之和为一周,D=7且H=24为例,则一周被划分为7天,每天中包括24个时间片,一周中共包括144个时间片。则,在计算第一个时间片的η1,1时,使用第一词汇在第一天的第一个时间片内的第二次数,数,第二次数即为上文获取的第一词汇在第二时间片内的次数。在计算第二个时间片的第一个时间片的η1,2时,使用第一词汇在第一天的第二个时间片内的第二次数。以此类推,在计算最后一个时间片的η7,24时,使用第一词汇在第七天的第24个时间片内的第二次数。
训练方式二:在训练方式二中,仅考虑词汇的状态为次数正常状态的情况。
由于训练方式二中仅考虑词汇的状态为次数正常状态的情况,因而不再需要计算第二到达率λ1,仅需计算第一到达率λ0、δ(·)的D种取值以及η(·,·)的(D×H)种取值。并且,由于本实施例中z=0用于指示次数正常状态,z=1用于指示次数增加状态,因而在计算第一到达率λ0、δ(·)的D种取值以及η(·,·)的(D×H)种取值的过程中,仅需考虑与z=0相关的项,而无需考虑与z=1相关的项。计算过程参见如下说明。
针对第一到达率λ0,忽略公式(13)中与z=1相关的项,得到如下的公式(18):
Figure BDA0003220256880000105
针对δ(·)的D种取值,忽略公式(16)中与z=1相关的项,得到如下的公式(19):
Figure BDA0003220256880000111
针对η(·,·)的(D×H)种取值,忽略公式(17)中与z=1相关的项,得到如下的公式(20):
Figure BDA0003220256880000112
以上对训练得到第一识别模型的过程进行了说明。参见图3,本实施例需要进一步确定第一词汇的状态。接下来,对第一识别模型输出第一词汇的状态的方式进行说明。在示例性实施例中,任一第一词汇对应的第一识别模型用于基于第一模型参数和任一第一词汇的第一次数确定任一第一词汇的次数分布,基于次数分布和贝叶斯法则确定第一词汇的概率。本实施例基于概率输出任一第一词汇的状态,第一模型参数为第一识别模型包括的参数。在示例性实施例中,第一识别模型可以通过如下两种方式中的任意一种方式输出第一词汇的状态。
与训练方式一对应的输出方式一:第一模型参数包括到达率函数和第二到达率,到达率函数为基于时间片对第一到达率进行映射的函数,到达率函数用于指示任一第一词汇在不同时间片内出现的次数的周期性,次数分布包括第一泊松分布和第二泊松分布,第一泊松分布为非齐次泊松分布,概率包括第一概率和第二概率,第一概率是任一第一词汇出现第一次数时任一第一词汇的状态为次数正常状态的概率,第二概率是任一第一词汇出现第一次数时任一第一词汇的状态为次数增加状态的概率。其中,第一识别模型用于基于第一到达率和第一时间片确定到达率函数的函数值,基于任一第一词汇的第一次数和函数值确定任一第一词汇的第一泊松分布,基于第一泊松分布和贝叶斯法则确定任一第一词汇的第一概率,基于任一第一词汇的第一次数和第二到达率确定任一第一词汇的第二泊松分布,基于第二泊松分布和贝叶斯法则确定任一第一词汇的第二概率,响应于第一概率大于第二概率则输出任一第一词汇的状态为次数正常状态,响应于第一概率不大于第二概率则输出任一第一词汇的状态为次数增加状态。
首先,确定第一时间片对应的d(t)以及h(t)。例如,以D=7且H=24为例,响应于第一时间片为周一的12:00-13:00,则确定第一时间片对应的d(t)=1,第一时间片对应的h(t)=13。之后,通过公式(2)确定到达率函数的函数值λt,再将到达率函数的函数值λt以及第一时间片的第一次数n代入公式(1),得到第一泊松分布
Figure BDA0003220256880000113
接着,将第一泊松分布
Figure BDA0003220256880000114
代入公式(6),得到第一概率
Figure BDA0003220256880000115
另外,将第一时间片的第一次数n代入公式(3),得到第二泊松分布
Figure BDA0003220256880000116
之后,将第二泊松分布
Figure BDA0003220256880000117
代入公式(6),得到第二概率
Figure BDA0003220256880000118
之后,通过对比第一概率
Figure BDA0003220256880000119
和第二概率
Figure BDA00032202568800001110
确定第一词汇的状态。响应于第一概率
Figure BDA00032202568800001111
大于第二概率
Figure BDA00032202568800001112
则说明第一词汇出现n次时,该第一词汇的状态为次数正常状态的概率大于次数增加状态的概率,因而将第一词汇的状态确定为次数正常状态。反之,响应于第一概率
Figure BDA00032202568800001113
不大于第二概率
Figure BDA00032202568800001114
则将第一词汇的状态确定为次数增加状态。
与训练方式二对应的输出方式二:第一模型参数包括到达率函数,到达率函数为基于时间片对第一到达率进行映射的函数,到达率函数用于指示任一第一词汇在不同时间片内出现的次数的周期性,次数分布包括第一泊松分布,第一泊松分布为非齐次泊松分布,概率包括第一概率,第一概率是任一第一词汇出现第一次数时任一第一词汇的状态为次数正常状态的概率。其中,第一识别模型用于基于第一到达率和第一时间片确定到达率函数的函数值,基于任一第一词汇的第一次数和函数值确定任一第一词汇的第一泊松分布,基于第一泊松分布和贝叶斯法则确定任一第一词汇的第一概率,响应于第一概率大于概率阈值则输出任一第一词汇的状态为次数正常状态,响应于第一概率不大于概率阈值则输出任一第一词汇的状态为次数增加状态。
其中,确定第一概率
Figure BDA0003220256880000121
的方式参见输出方式一中的说明,此处不再进行赘述。在第一概率
Figure BDA0003220256880000122
大于概率阈值的情况下,认为第一词汇出现n次时,该第一词汇的状态为次数正常状态的概率足够大,因而确认第一词汇的状态为次数正常状态。反之,在第一概率
Figure BDA0003220256880000123
不大于概率阈值的情况下,确认第一词汇的状态为次数增加状态。本实施例不对概率阈值加以限定,概率阈值基于经验设置即可。
203,基于第二词汇的第一次数,从第二词汇中确定第一时间片内的热门词汇,第二词汇包括多个第一词汇中状态为次数增加状态的第一词汇。
示例性地,本实施例直接将第二词汇确定为第一时间片内的热门词汇。或者,在第二词汇的数量为多个的情况下,本实施例进一步比较多个第二词汇的热门程度,按照热门程度将多个第二词汇中的部分第二词汇确定为第一时间片内的热门词汇。
在示例性实施例中,参见图3,基于第二词汇的第一次数,从第二词汇中确定第一时间片内的热门词汇,包括:对于任一第二词汇,确定任一第二词汇的第一次数与到达率函数的函数值之间的比值,比值用于指示任一第二词汇的热门程度。基于第二词汇的比值,从第二词汇中确定第一时间片内的热门词汇。
其中,到达率函数的函数值即为
Figure BDA0003220256880000124
的期望
Figure BDA0003220256880000125
确定比值的过程参见如下的公式(21):
Figure BDA0003220256880000126
在公式(18)中,S′为用于指示热门程度的比值,n为第一词汇的第一次数。相关技术中,直接将词汇在当前时间片内出现的次数与历史时间片内出现的次数进行比较,但一个词汇在历史时间片内出现的次数可能已经是词汇处于次数增加状态时的次数,因而按照相关技术进行比较会影响识别准确率。而在本实施例中,基于
Figure BDA0003220256880000127
的期望确定用于指示热门程度的比值。由于
Figure BDA0003220256880000128
是通过训练过程得到的、次数正常状态下一个词汇在一个时间片内出现n次的概率,因而避免了词汇处于次数增加状态的影响,提高了识别准确率。
在确定比值之后,基于比值对第二词汇进行排序。示例性地,本实施例按照比值从大到小的顺序进行排序,得到第一序列,第一时间片内的热门词汇包括第一序列中前参考数量个第二词汇。或者,本实施例按照比值从小到大的顺序进行排序,得到第二序列,第一时间片内的热门词汇包括第二序列中后参考数量个第二词汇。其中,本实施例不对参考数量加以限定,参考数量根据实际需求确定即可。
在示例性实施例中,基于第二词汇的比值,从第二词汇中确定第一时间片内的热门词汇,包括:对第二词汇的比值进行贝叶斯平均,得到更新后的比值。基于第二词汇的更新后的比值,从第二词汇中确定第一时间片内的热门词汇。
其中,进行贝叶斯平均的作用在于:避免第二词汇的第一次数较少而影响识别的准确率。进行贝叶斯参见如下的公式(22):
Figure BDA0003220256880000131
Figure BDA0003220256880000132
其中,S为更新后的比值,∑wS′为各个第二词汇的比值之和,∑wn为各个第二词汇的第一次数之和,W为第二词汇的数量。
在示例性实施例中,参见图5,方法还包括:对于任一第一词汇,获取任一第一词汇的至少一个第三次数,任一第三次数为任一第一词汇在一个第三时间片内出现的次数,第三时间片晚于第一时间片。响应于第三时间片的数量大于数量阈值,将任一第一词汇的至少一个第三次数输入任一第一词汇对应的第一识别模型,第一识别模型用于基于任一第一词汇的至少一个第三次数更新第一模型参数。
其中,响应于第三时间片的数量大于数量阈值,则说明已积累了足够的第三次数,因而可以基于第一词汇在第三时间片内的第三次数对第一词汇对应的第一识别模型进行更新,以便于保证了第一识别模型的时效性,也即是使得第一识别模型可以更好的对当前时间片的热门词汇进行识别。对第一识别模型进行更新的过程参见上文训练方式一和训练方式二中的说明,此处不再进行赘述。
综上所述,本申请实施例通过第一识别模型识别第一词汇的状态,得到在第一时间片内处于次数增长状态的第二词汇,相比于在与第一时间片等价的其他时间片内的同期出现次数,第二词汇在当前的第一时间片内出现的次数更多。由于本实施例将词汇在等价的时间片内出现的次数进行对比,避免了当前的第一时间片为某个词汇周期性频繁出现的时间而对识别过程造成的干扰。也就是说,本实施例能够避免具有周期性的词汇的干扰,所识别出的热门词汇中不包括具有周期性的词汇,从而提高了识别准确率。
本申请实施例提供了一种识别热门词汇的装置,参见图6,该装置包括:
获取模块601,用于获取多个第一词汇中的各个第一词汇的第一次数,任一第一词汇的第一次数为任一第一词汇在第一时间片内出现的次数;
输入模块602,用于对于任一第一词汇,将任一第一词汇的第一次数输入任一第一词汇对应的第一识别模型,得到第一识别模型输出的任一第一词汇的状态,任一第一词汇的状态包括次数正常状态或者次数增加状态,次数正常状态用于指示第一次数相对于任一第一词汇的同期出现次数是正常的,次数增加状态用于指示第一次数相对于任一第一词汇的同期出现次数是增加的,任一第一词汇的同期出现次数为任一第一词汇在与第一时间片等价的其他时间片内出现的次数;
确定模块603,用于基于第二词汇的第一次数,从第二词汇中确定第一时间片内的热门词汇,第二词汇包括多个第一词汇中状态为次数增加状态的第一词汇。
在示例性实施例中,任一第一词汇对应的第一识别模型用于基于第一模型参数和任一第一词汇的第一次数确定任一第一词汇的次数分布,基于次数分布和贝叶斯法则确定第一词汇的概率,基于概率输出任一第一词汇的状态,第一模型参数为第一识别模型包括的参数。
在示例性实施例中,第一模型参数包括到达率函数,到达率函数为基于时间片对第一到达率进行映射的函数,到达率函数用于指示任一第一词汇在不同时间片内出现的次数的周期性,次数分布包括第一泊松分布,第一泊松分布为非齐次泊松分布,概率包括第一概率,第一概率是任一第一词汇出现第一次数时任一第一词汇的状态为次数正常状态的概率;第一识别模型用于基于第一到达率和第一时间片确定到达率函数的函数值,基于任一第一词汇的第一次数和函数值确定任一第一词汇的第一泊松分布,基于第一泊松分布和贝叶斯法则确定任一第一词汇的第一概率,响应于第一概率大于概率阈值则输出任一第一词汇的状态为次数正常状态,响应于第一概率不大于概率阈值则输出任一第一词汇的状态为次数增加状态。
在示例性实施例中,第一模型参数包括到达率函数和第二到达率,到达率函数为基于时间片对第一到达率进行映射的函数,到达率函数用于指示任一第一词汇在不同时间片内出现的次数的周期性,次数分布包括第一泊松分布和第二泊松分布,第一泊松分布为非齐次泊松分布,概率包括第一概率和第二概率,第一概率是任一第一词汇出现第一次数时任一第一词汇的状态为次数正常状态的概率,第二概率是任一第一词汇出现第一次数时任一第一词汇的状态为次数增加状态的概率;第一识别模型用于基于第一到达率和第一时间片确定到达率函数的函数值,基于任一第一词汇的第一次数和函数值确定任一第一词汇的第一泊松分布,基于第一泊松分布和贝叶斯法则确定任一第一词汇的第一概率,基于任一第一词汇的第一次数和第二到达率确定任一第一词汇的第二泊松分布,基于第二泊松分布和贝叶斯法则确定任一第一词汇的第二概率,响应于第一概率大于第二概率则输出任一第一词汇的状态为次数正常状态,响应于第一概率不大于第二概率则输出任一第一词汇的状态为次数增加状态。
在示例性实施例中,确定模块603,用于对于任一第二词汇,确定任一第二词汇的第一次数与到达率函数的函数值之间的比值,比值用于指示任一第二词汇的热门程度;基于第二词汇的比值,从第二词汇中确定第一时间片内的热门词汇。
在示例性实施例中,确定模块603,用于对第二词汇的比值进行贝叶斯平均,得到更新后的比值;基于第二词汇的更新后的比值,从第二词汇中确定第一时间片内的热门词汇。
在示例性实施例中,装置还包括:训练模块,用于获取任一第一词汇的多个第二次数,任一第二次数为任一第一词汇在一个第二时间片内出现的次数,第二时间片早于第一时间片;将任一第一词汇的多个第二次数输入第二识别模型,第二识别模型用于基于任一第一词汇的多个第二次数迭代更新第二识别模型包括的第二模型参数,得到包括第一模型参数的任一第一词汇对应的第一识别模型。
在示例性实施例中,装置还包括:更新模块,用于对于任一第一词汇,获取任一第一词汇的至少一个第三次数,任一第三次数为任一第一词汇在一个第三时间片内出现的次数,第三时间片晚于第一时间片;响应于第三时间片的数量大于数量阈值,将任一第一词汇的至少一个第三次数输入任一第一词汇对应的第一识别模型,第一识别模型用于基于任一第一词汇的至少一个第三次数更新第一模型参数。
综上所述,本申请实施例通过第一识别模型识别第一词汇的状态,得到在第一时间片内处于次数增长状态的第二词汇,相比于在与第一时间片等价的其他时间片内的同期出现次数,第二词汇在当前的第一时间片内出现的次数更多。由于本实施例将词汇在等价的时间片内出现的次数进行对比,避免了当前的第一时间片为某个词汇周期性频繁出现的时间而对识别过程造成的干扰。也就是说,本实施例能够避免具有周期性的词汇的干扰,所识别出的热门词汇中不包括具有周期性的词汇,从而提高了识别准确率。
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
参见图7,其示出了本申请实施例提供的一种电子设备700的结构示意图。该电子设备700可以是便携式移动电子设备,比如:智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备700还可能被称为用户设备、便携式电子设备、膝上型电子设备、台式电子设备等其他名称。
通常,电子设备700包括有:处理器701和存储器702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)所组成的群组中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏705所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的识别热门词汇的方法。
在一些实施例中,电子设备700还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路704、显示屏705、摄像头组件706、音频电路707、定位组件708和电源709所组成的群组中的至少一种。
外围设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或Wi-Fi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路704还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏705用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置在电子设备700的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在电子设备700的不同表面或呈折叠设计;在另一些实施例中,显示屏705可以是柔性显示屏,设置在电子设备700的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在电子设备的前面板,后置摄像头设置在电子设备的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
定位组件708用于定位电子设备700的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源709用于为电子设备700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,电子设备700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。
加速度传感器711可以检测以电子设备700建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器712可以检测电子设备700的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对电子设备700的3D动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器713可以设置在电子设备700的侧边框和/或显示屏705的下层。当压力传感器713设置在电子设备700的侧边框时,可以检测用户对电子设备700的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时,由处理器701根据用户对显示屏705的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件所组成的群组中的至少一种。
指纹传感器714用于采集用户的指纹,由处理器701根据指纹传感器714采集到的指纹识别用户的身份,或者,由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器701授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置在电子设备700的正面、背面或侧面。当电子设备700上设置有物理按键或厂商Logo时,指纹传感器714可以与物理按键或厂商Logo集成在一起。
光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制显示屏705的显示亮度。具体地,当环境光强度较高时,调高显示屏705的显示亮度;当环境光强度较低时,调低显示屏707的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头组件706的拍摄参数。
接近传感器716,也称距离传感器,通常设置在电子设备700的前面板。接近传感器716用于采集用户与电子设备700的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与电子设备700的正面之间的距离逐渐变小时,由处理器701控制显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与电子设备700的正面之间的距离逐渐变大时,由处理器701控制显示屏705从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图7中示出的结构并不构成对电子设备700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图8为本申请实施例提供的服务器的结构示意图,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或多个CPU(Central Processing Units,处理器)801和一个或多个的存储器802,其中,该一个或多个存储器802中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器801加载并执行以实现上述各个方法实施例提供的识别热门词汇的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例提供了一种计算机设备,计算机设备包括存储器及处理器;存储器中存储有至少一条指令,至少一条指令由处理器加载并执行,以使计算机设备实现本申请的任一种示例性实施例所提供的识别热门词汇的方法。
本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有至少一条指令,指令由处理器加载并执行,以使计算机实现本申请的任一种示例性实施例所提供的识别热门词汇的方法。
本申请实施例提供了一种计算机程序或计算机程序产品,计算机程序或计算机程序产品包括:计算机指令,计算机指令被计算机执行时,使得计算机实现本申请的任一种示例性实施例所提供的识别热门词汇的方法。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种识别热门词汇的方法,其特征在于,所述方法包括:
获取多个第一词汇中的各个第一词汇的第一次数,任一第一词汇的第一次数为所述任一第一词汇在第一时间片内出现的次数;
对于任一第一词汇,将所述任一第一词汇的第一次数输入所述任一第一词汇对应的第一识别模型,得到所述第一识别模型输出的所述任一第一词汇的状态,所述任一第一词汇的状态包括次数正常状态或者次数增加状态,所述次数正常状态用于指示所述第一次数相对于所述任一第一词汇的同期出现次数是正常的,所述次数增加状态用于指示所述第一次数相对于所述任一第一词汇的同期出现次数是增加的,所述任一第一词汇的同期出现次数为所述任一第一词汇在与所述第一时间片等价的其他时间片内出现的次数,所述与所述第一时间片等价的其他时间片为与所述第一时间片处于不同周期且具有相同位置的时间片,任一时间片的位置为所述任一时间片在所述任一时间片所处的周期中的位置;
基于第二词汇的第一次数,从所述第二词汇中确定所述第一时间片内的热门词汇,所述第二词汇包括所述多个第一词汇中状态为所述次数增加状态的第一词汇。
2.根据权利要求1所述的方法,其特征在于,所述任一第一词汇对应的第一识别模型用于基于第一模型参数和所述任一第一词汇的第一次数确定所述任一第一词汇的次数分布,基于所述次数分布和贝叶斯法则确定所述任一第一词汇的概率,基于所述概率输出所述任一第一词汇的状态,所述第一模型参数为所述第一识别模型包括的参数。
3.根据权利要求2所述的方法,其特征在于,所述第一模型参数包括到达率函数,所述到达率函数为基于时间片对第一到达率进行映射的函数,所述到达率函数用于指示所述任一第一词汇在不同时间片内出现的次数的周期性,所述次数分布包括第一泊松分布,所述第一泊松分布为非齐次泊松分布,所述概率包括第一概率,所述第一概率是所述任一第一词汇出现所述第一次数时所述任一第一词汇的状态为所述次数正常状态的概率;
所述第一识别模型用于基于所述第一到达率和所述第一时间片确定所述到达率函数的函数值,基于所述任一第一词汇的第一次数和所述函数值确定所述任一第一词汇的第一泊松分布,基于所述第一泊松分布和所述贝叶斯法则确定所述任一第一词汇的所述第一概率,响应于所述第一概率大于概率阈值则输出所述任一第一词汇的状态为所述次数正常状态,响应于所述第一概率不大于所述概率阈值则输出所述任一第一词汇的状态为所述次数增加状态。
4.根据权利要求2所述的方法,其特征在于,所述第一模型参数包括到达率函数和第二到达率,所述到达率函数为基于时间片对第一到达率进行映射的函数,所述到达率函数用于指示所述任一第一词汇在不同时间片内出现的次数的周期性,所述次数分布包括第一泊松分布和第二泊松分布,所述第一泊松分布为非齐次泊松分布,所述概率包括第一概率和第二概率,所述第一概率是所述任一第一词汇出现所述第一次数时所述任一第一词汇的状态为所述次数正常状态的概率,所述第二概率是所述任一第一词汇出现所述第一次数时所述任一第一词汇的状态为所述次数增加状态的概率;
所述第一识别模型用于基于所述第一到达率和所述第一时间片确定所述到达率函数的函数值,基于所述任一第一词汇的第一次数和所述函数值确定所述任一第一词汇的第一泊松分布,基于所述第一泊松分布和所述贝叶斯法则确定所述任一第一词汇的所述第一概率,基于所述任一第一词汇的第一次数和所述第二到达率确定所述任一第一词汇的第二泊松分布,基于所述第二泊松分布和所述贝叶斯法则确定所述任一第一词汇的所述第二概率,响应于所述第一概率大于所述第二概率则输出所述任一第一词汇的状态为所述次数正常状态,响应于所述第一概率不大于所述第二概率则输出所述任一第一词汇的状态为所述次数增加状态。
5.根据权利要求3或4所述的方法,其特征在于,所述基于第二词汇的第一次数,从所述第二词汇中确定所述第一时间片内的热门词汇,包括:
对于任一第二词汇,确定所述任一第二词汇的第一次数与所述到达率函数的函数值之间的比值,所述比值用于指示所述任一第二词汇的热门程度;
基于所述第二词汇的比值,从所述第二词汇中确定所述第一时间片内的热门词汇。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第二词汇的比值,从所述第二词汇中确定所述第一时间片内的热门词汇,包括:
对所述第二词汇的比值进行贝叶斯平均,得到更新后的比值;
基于所述第二词汇的更新后的比值,从所述第二词汇中确定所述第一时间片内的热门词汇。
7.根据权利要求2-4、6任一所述的方法,其特征在于,所述对于任一第一词汇,将所述任一第一词汇的第一次数输入所述任一第一词汇对应的第一识别模型之前,所述方法还包括:
获取所述任一第一词汇的多个第二次数,任一第二次数为所述任一第一词汇在一个第二时间片内出现的次数,所述第二时间片早于所述第一时间片;
将所述任一第一词汇的多个第二次数输入第二识别模型,所述第二识别模型用于基于所述任一第一词汇的多个第二次数迭代更新所述第二识别模型包括的第二模型参数,得到包括所述第一模型参数的所述任一第一词汇对应的所述第一识别模型。
8.根据权利要求2-4、6任一所述的方法,其特征在于,所述方法还包括:
对于任一第一词汇,获取所述任一第一词汇的至少一个第三次数,任一第三次数为所述任一第一词汇在一个第三时间片内出现的次数,所述第三时间片晚于所述第一时间片;
响应于所述第三时间片的数量大于数量阈值,将所述任一第一词汇的至少一个第三次数输入所述任一第一词汇对应的第一识别模型,所述第一识别模型用于基于所述任一第一词汇的至少一个第三次数更新所述第一模型参数。
9.一种识别热门词汇的装置,其特征在于,所述装置包括:
获取模块,用于获取多个第一词汇中的各个第一词汇的第一次数,任一第一词汇的第一次数为所述任一第一词汇在第一时间片内出现的次数;
输入模块,用于对于任一第一词汇,将所述任一第一词汇的第一次数输入所述任一第一词汇对应的第一识别模型,得到所述第一识别模型输出的所述任一第一词汇的状态,所述任一第一词汇的状态包括次数正常状态或者次数增加状态,所述次数正常状态用于指示所述第一次数相对于所述任一第一词汇的同期出现次数是正常的,所述次数增加状态用于指示所述第一次数相对于所述任一第一词汇的同期出现次数是增加的,所述任一第一词汇的同期出现次数为所述任一第一词汇在与所述第一时间片等价的其他时间片内出现的次数,所述与所述第一时间片等价的其他时间片为与所述第一时间片处于不同周期且具有相同位置的时间片,任一时间片的位置为所述任一时间片在所述任一时间片所处的周期中的位置;
确定模块,用于基于第二词汇的第一次数,从所述第二词汇中确定所述第一时间片内的热门词汇,所述第二词汇包括所述多个第一词汇中状态为所述次数增加状态的第一词汇。
10.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器;所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以使所述计算机设备实现权利要求1-8任一所述的识别热门词汇的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以使计算机实现如权利要求1-8任一所述的识别热门词汇的方法。
CN202110955294.3A 2021-08-19 2021-08-19 识别热门词汇的方法、装置、计算机设备及可读存储介质 Active CN113673224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110955294.3A CN113673224B (zh) 2021-08-19 2021-08-19 识别热门词汇的方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110955294.3A CN113673224B (zh) 2021-08-19 2021-08-19 识别热门词汇的方法、装置、计算机设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113673224A CN113673224A (zh) 2021-11-19
CN113673224B true CN113673224B (zh) 2022-04-05

Family

ID=78544065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110955294.3A Active CN113673224B (zh) 2021-08-19 2021-08-19 识别热门词汇的方法、装置、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113673224B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘系统及方法
CN103729388A (zh) * 2012-10-16 2014-04-16 北京千橡网景科技发展有限公司 用于网络用户发表状态的实时热点检测方法
CN110688846A (zh) * 2018-07-06 2020-01-14 北京京东尚科信息技术有限公司 周期词挖掘方法、系统、电子设备及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10347249B2 (en) * 2016-05-02 2019-07-09 The Regents Of The University Of California Energy-efficient, accelerometer-based hotword detection to launch a voice-control system
TWI643076B (zh) * 2017-10-13 2018-12-01 Yuan Ze University 金融非結構化文本分析系統及其方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729388A (zh) * 2012-10-16 2014-04-16 北京千橡网景科技发展有限公司 用于网络用户发表状态的实时热点检测方法
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘系统及方法
CN110688846A (zh) * 2018-07-06 2020-01-14 北京京东尚科信息技术有限公司 周期词挖掘方法、系统、电子设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hot Topic Detection in Local Areas using Twitter and Wikipedia;Shota Ishikawa et al;《ARCS 2012》;20120621;第1-5页 *
基于灰色理论的网络搜索频度数据分析;李斌 等;《计算机与现代化》;20180930(第9期);第98-104页 *

Also Published As

Publication number Publication date
CN113673224A (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN110083791B (zh) 目标群组检测方法、装置、计算机设备及存储介质
CN111127509B (zh) 目标跟踪方法、装置和计算机可读存储介质
CN111104980B (zh) 确定分类结果的方法、装置、设备及存储介质
CN112084811A (zh) 身份信息的确定方法、装置及存储介质
CN110705614A (zh) 模型训练方法、装置、电子设备及存储介质
CN111159551B (zh) 用户生成内容的显示方法、装置及计算机设备
CN113343709B (zh) 意图识别模型的训练方法、意图识别方法、装置及设备
CN113535039B (zh) 更新页面的方法、装置、电子设备及计算机可读存储介质
CN113673224B (zh) 识别热门词汇的方法、装置、计算机设备及可读存储介质
CN111063372B (zh) 确定音高特征的方法、装置、设备及存储介质
CN111145723B (zh) 转换音频的方法、装置、设备以及存储介质
CN111984738B (zh) 数据关联方法、装置、设备及存储介质
CN109816047B (zh) 提供标签的方法、装置、设备及可读存储介质
CN111898048B (zh) 展示信息的数据调整方法、装置、电子设备及存储介质
CN112214115A (zh) 输入方式的识别方法、装置、电子设备及存储介质
CN112560903A (zh) 图像美学信息的确定方法、装置、设备及存储介质
CN111429106A (zh) 资源转移凭证的处理方法、服务器、电子设备及存储介质
CN112990421A (zh) 优化深度学习网络的运行过程的方法、装置及存储介质
CN112135256A (zh) 移动轨迹的确定方法、装置、设备及可读存储介质
CN112116480A (zh) 虚拟资源确定方法、装置、计算机设备及存储介质
CN112308104A (zh) 异常识别方法、装置及计算机存储介质
CN111061918A (zh) 图数据的处理方法、装置及存储介质
CN111581481B (zh) 搜索词推荐方法、装置、电子设备以及存储介质
CN112579661B (zh) 特异目标对确定方法、装置、计算机设备及存储介质
CN113052408B (zh) 一种社区聚合的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant