CN109976984A - 用户数据的统计方法及装置 - Google Patents
用户数据的统计方法及装置 Download PDFInfo
- Publication number
- CN109976984A CN109976984A CN201711449050.8A CN201711449050A CN109976984A CN 109976984 A CN109976984 A CN 109976984A CN 201711449050 A CN201711449050 A CN 201711449050A CN 109976984 A CN109976984 A CN 109976984A
- Authority
- CN
- China
- Prior art keywords
- keyword
- frequency
- file
- occurrence
- instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3438—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据分析技术领域,尤其涉及用户数据的统计方法及装置,通过接收用户输入的控制指令,从控制指令中提取出关键词,并将预设单位时间内的所有关键词写入一个日志文件;基于所述日志文件内各个所述关键词的出现次数,生成日志统计文件;基于多个所述日志统计文件中的关键词与出现次数的对应关系,计算各个关键词的出现总次数,以对控制指令中的关键词进行计算,从而充分分析控制指令,为后续的用户行为的分析提供充足的数据支持。
Description
技术领域
本发明属于数据分析技术领域,尤其涉及用户数据的统计方法及装置。
背景技术
在现实生活中,为了控制终端设备,用户往往通过各种方式为终端设备下达控制指令,这些控制指令中可能暗含着用户行为习惯以及兴趣爱好的信息。另一方面,用户的行为习惯以及兴趣爱好对商家而言是非常重要的数据,如果一个商家可以准确地把握用户的行为习惯以及兴趣爱好,则可以针对性地为用户推荐用户可能喜欢的产品,或者预先做出一系列操作,从而提高用户感受。
当前,对于控制指令的利用率比较低,终端设备往往只是根据控制指令做出相关的操作,而缺乏对于控制指令更深层次的数据分析。
发明内容
有鉴于此,本发明实施例提供了用户数据的统计方法及装置,以解决现有技术中对于控制指令的利用率较低的问题。
本发明实施例的第一方面提供了一种用户数据的统计方法,包括:
接收用户输入的控制指令;
从所述控制指令中提取出关键词,并将预设单位时间内的所有关键词写入一个日志文件;
计算所述日志文件内各个所述关键词的出现次数,生成关键词与出现次数的对应关系,将全部所述关键词与出现次数的对应关系写入一个日志统计文件。
本发明实施例的第二方面提供了一种用户数据的统计装置,包括:
接收模块,用于接收用户输入的控制指令;
提取模块,用于从所述控制指令中提取出关键词,并将预设单位时间内的所有关键词写入一个日志文件;
第一计算模块,用于计算所述日志文件内各个所述关键词的出现次数,生成关键词与出现次数的对应关系,将全部所述关键词与出现次数的对应关系写入一个日志统计文件。
本发明实施例的第三方面提供了一种用户数据的统计终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如下用户数据的统计方法的步骤:
接收用户输入的控制指令;从所述控制指令中提取出关键词,并将预设单位时间内的所有关键词写入一个日志文件;计算所述日志文件内各个所述关键词的出现次数,生成关键词与出现次数的对应关系,将全部所述关键词与出现次数的对应关系写入一个日志统计文件。
所述用户数据的统计方法还包括:基于多个所述日志统计文件中的关键词与出现次数的对应关系,计算各个关键词的出现总次数。
所述从所述控制指令中提取出关键词,包括:若所述控制指令为按键指令,则根据预设的按键指令与关键词的对应关系,确定所述控制指令对应的关键词;若所述控制指令为字符指令,则首先将所述字符指令拆分为一个以上的指令词语,并基于预设的词组数据库,计算所述指令词语在所述词组数据库中的出现频率,将所述出现频率大于预设频率阈值的指令词语作为所述字符指令对应的关键词;若所述控制指令为语音指令,则首先识别出所述语音指令对应的文字,将所述语音指令对应的文字拆分为一个以上的指令词语,并基于预设的词组数据库,计算所述指令词语在所述词组数据库中的出现频率,将所述出现频率大于预设频率阈值的指令词语作为所述语音指令对应的关键词。
所述计算所述日志文件内各个所述关键词的出现次数,生成关键词与出现次数的对应关系,将全部所述关键词与出现次数的对应关系写入一个日志统计文件,包括:从所述日志文件内逐一选取关键词作为特定关键词;判断所述特定关键词是否已经存在于所述日志统计文件中;若所述特定关键词不存在于所述日志统计文件中,则将所述特定关键词写入所述日志统计文件中,并将所述特定关键词对应的出现次数记为1;若所述特定关键词已存在于所述日志统计文件中,则将所述特定关键词对应的出现次数增加1次,并返回执行所述从所述日志文件内逐一选取关键词作为特定关键词,判断所述特定关键词是否已经存在于所述日志统计文件中的操作。
所述基于多个所述日志统计文件中的关键词与出现次数的对应关系,计算各个关键词的出现总次数,包括:选取预设数量的所述日志统计文件,生成候选日志统计文件集合;从所述候选日志统计文件集合中,提取出全部关键词与出现次数的对应关系;计算相同的关键词的出现次数之和,作为该关键词的出现总次数。
所述用户数据的统计方法,还包括:
将所述关键词与出现总次数的对应关系,根据所述出现总次数由大到小排列,并生成.csv格式的关键词累计统计文件。
本发明实施例的第四方面提供了一种用户数据的统计终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如下用户数据的统计方法的步骤:
接收用户输入的控制指令;从所述控制指令中提取出关键词,并将预设单位时间内的所有关键词写入一个日志文件;计算所述日志文件内各个所述关键词的出现次数,生成关键词与出现次数的对应关系,将全部所述关键词与出现次数的对应关系写入一个日志统计文件。
所述用户数据的统计方法还包括:基于多个所述日志统计文件中的关键词与出现次数的对应关系,计算各个关键词的出现总次数。
所述从所述控制指令中提取出关键词,包括:若所述控制指令为按键指令,则根据预设的按键指令与关键词的对应关系,确定所述控制指令对应的关键词;若所述控制指令为字符指令,则首先将所述字符指令拆分为一个以上的指令词语,并基于预设的词组数据库,计算所述指令词语在所述词组数据库中的出现频率,将所述出现频率大于预设频率阈值的指令词语作为所述字符指令对应的关键词;若所述控制指令为语音指令,则首先识别出所述语音指令对应的文字,将所述语音指令对应的文字拆分为一个以上的指令词语,并基于预设的词组数据库,计算所述指令词语在所述词组数据库中的出现频率,将所述出现频率大于预设频率阈值的指令词语作为所述语音指令对应的关键词。
所述计算所述日志文件内各个所述关键词的出现次数,生成关键词与出现次数的对应关系,将全部所述关键词与出现次数的对应关系写入一个日志统计文件,包括:从所述日志文件内逐一选取关键词作为特定关键词;判断所述特定关键词是否已经存在于所述日志统计文件中;若所述特定关键词不存在于所述日志统计文件中,则将所述特定关键词写入所述日志统计文件中,并将所述特定关键词对应的出现次数记为1;若所述特定关键词已存在于所述日志统计文件中,则将所述特定关键词对应的出现次数增加1次,并返回执行所述从所述日志文件内逐一选取关键词作为特定关键词,判断所述特定关键词是否已经存在于所述日志统计文件中的操作。
所述基于多个所述日志统计文件中的关键词与出现次数的对应关系,计算各个关键词的出现总次数,包括:选取预设数量的所述日志统计文件,生成候选日志统计文件集合;从所述候选日志统计文件集合中,提取出全部关键词与出现次数的对应关系;计算相同的关键词的出现次数之和,作为该关键词的出现总次数。
所述用户数据的统计方法,还包括:
将所述关键词与出现总次数的对应关系,根据所述出现总次数由大到小排列,并生成.csv格式的关键词累计统计文件。
本发明实施例与现有技术相比存在的有益效果是:通过接收用户输入的控制指令,从控制指令中提取出关键词,并将预设单位时间内的所有关键词写入一个日志文件;基于所述日志文件内各个所述关键词的出现次数,生成日志统计文件;基于多个所述日志统计文件中的关键词与出现次数的对应关系,计算各个关键词的出现总次数,以对控制指令中的关键词进行计算,从而充分分析控制指令,为后续的用户行为的分析提供充足的数据支持。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的用户数据的统计方法的实现流程图;
图2是本发明实施例提供的用户数据的统计方法S102的具体实现流程图;
图3是本发明实施例提供的用户数据的统计方法S103的具体实现流程图;
图4是本发明实施例提供的用户数据的统计方法S104的具体实现流程图;
图5是本发明实施例提供的用户数据的统计装置的结构框图;
图6是本发明实施例提供的用户数据的统计终端的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
图1示出了本发明实施例一提供的用户数据的统计方法的实现流程,包括步骤S101-S103,详述如下:
步骤S101,接收用户输入的控制指令。
在本发明实施例中,用户可以通过多种方式向终端设备发送控制指令,比如:通过遥控器的按键发送按键指令;通过输入文字向终端设备发送字符指令;或者通过输入语音向终端设备发送语音指令等。终端设备可以同时接收按键指令、字符指令以及语音指令。
示例性地,用户可以通过遥控器的按键向终端设备发送各种控制指令,例如:通过遥控器上的按键向终端设备发送“网页”、“阅读模式”、“体育频段”以及“音乐”等控制指令,以控制终端设备从服务器调取不同类型的内容。用户还可以通过文字输入框向终端设备输入一些文字作为字符指令,这些字符指令可以更加具体地控制智能终端调取更加符合用户需求的内容,例如:用户向终端设备输入:“我想看刘德华的电影”作为控制指令,则智能终端可以在解析这句控制指令后,从服务器调取刘德华的电影;此外,用户还可以更加方便的通过语音向终端设备发送控制指令,例如:向终端设备发出“今天天气怎么样”的控制指令,终端设备在分析该控制指令后,可以从服务端调取本地的天气预报。
在本发明实施例中,终端设备不仅可以根据用户输入的控制指令做出相应的操作,还可以存储一段时间内的控制指令,以作为后续统计用户数据的原始材料。
步骤S102,从所述控制指令中提取出关键词,并将预设单位时间内的所有关键词写入一个日志文件。
在本发明实施例中,由于需要统计控制指令中的关键词的出现次数,所以首先需要从控制指令中提取出关键词。不同的控制指令的类型对应有不同的提取关键词的方法。
作为本发明的一个实施例,如图2所示,上述步骤S102包括:
步骤S1021,判断所述控制指令的类型。
如上文实施例所述,终端设备可以接收多种类型的控制指令,包括:按键指令、字符指令以及语音指令,在本发明实施例中,可以通过接收控制指令所使用的元器件判断接收到的是何种类型的控制指令,例如:通过红外线接收器接收到的控制指令为按键指令;通过文字处理器接收到的控制指令为字符指令;通过语音接收器接收到的控制指令为语音指令。
步骤S1022,若所述控制指令为按键指令,则根据预设的按键指令与关键词的对应关系,确定所述控制指令对应的关键词。
可选地,在本发明实施例中,终端设备内可以预先存储一个按键指令与关键词的对应列表,该列表用于指示按键指令与关键词的对应关系。
示例性地,用户可以通过遥控器发出不同频率的按键指令,终端设备可以根据接收到的频率解析出用户发出的按键指令,并根据按键指令进行相应的操作以及根据按键指令与关键词的对应关系,确定用户输入的按键指令对应的关键词。
步骤S1023,若所述控制指令为字符指令,则首先将所述字符指令拆分为一个以上的指令词语,并基于预设的词组数据库,计算所述指令词语在所述词组数据库中的出现频率,将所述出现频率大于预设频率阈值的指令词语作为所述字符指令对应的关键词。
在本发明实施例中,由于用户输入的字符指令可能不是一个词语,而是包含多个词语的一个句子,所以需要首先通过预设的分词算法将字符指令分为一个以上的指令词语,随后再从这些指令词语中选取出关键词。
可选地,可以通过FudanNLP工具包将字符指令分为一个以上的指令词语。
可选地,在终端设备中预先存储有一个词组数据库,该词组数据库收集了大量的指令词语,值得注意的,很多指令词语在所述词组数据库中反复出现多次。
可选地,由于字符指令包含一个以上的指令词语,所以依次判断各个指令词语在词组数据库中的出现频率,如果一个指令词语的出现频率大于预设频率阈值,则将该指令词语作为所述字符指令对应的关键词。可以理解地,一个字符指令可能对应着多个关键词。
步骤S1024,若所述控制指令为语音指令,则首先识别出所述语音指令对应的文字,将所述语音指令对应的文字拆分为一个以上的指令词语,并基于预设的词组数据库,计算所述指令词语在所述词组数据库中的出现频率,将所述出现频率大于预设频率阈值的指令词语作为所述语音指令对应的关键词。
可选地,可以基于动态时间规整算法将语音指令转换成文字。
可以理解地,当语音指令转换成文字后,剩余的提取关键词的步骤与步骤S1023中从字符指令中提取关键词的步骤相同。
在本发明实施例中,通过判断控制指令的类型,使用不同的方法有针对性地分别从按键指令、字符指令以及语音指令中提取出关键词,为后续的关键词的统计提供数据支持。
值得注意地,不同的控制指令中可能包含相同的关键词,所以为了分析用户的行为或兴趣,需要统计各个关键词的出现次数。具体地,在本步骤中,将预设单位时间内所有控制指令包含的关键词写入一个日志文件,可以理解地,该日志文件中可能存在多个相同的关键词。
步骤S103,计算所述日志文件内各个所述关键词的出现次数,生成关键词与出现次数的对应关系,将全部所述关键词与出现次数的对应关系写入一个日志统计文件。
如上文实施例所述,在一个日志文件中,一个关键词可能出现多次,而关键词的出现次数可以作为分析用户行为和喜好的依据,所以在本发明实施例中,需要进一步地计算出各个关键词的出现次数,以生成关键词与出现次数的对应关系。
作为本发明的一个实施例,如图3所示,上述步骤S103包括:
步骤S1031,从所述日志文件内逐一选取关键词作为特定关键词。
可以理解地,在日志文件中存在单位时间内控制指令包含的所有关键词,而且一个关键词可能出现多次。在本发明实施例中,将日志文件中的关键词逐一选取出来作为特定关键词。
步骤S1032,判断所述日志文件内是否存在未被选取的关键词;
可以理解地,由于在上一个步骤中,从日志文件内逐一选取关键词作为特定关键词,所以在日志文件内可能存在已被选取的关键词以及未被选取的关键词,在本步骤中需要从日志文件内是否存在未被选取的关键词。具体地,如果日志文件内所有的关键词均已被提取做过特定关键词,则日志文件内不存在未被选取的关键词。
步骤S1033,若日志文件内不存在未被选取的关键词,则输出所述日志统计文件。
步骤S1034,若日志文件内存在未被选取的关键词,则判断所述特定关键词是否已经存在于所述日志统计文件中。
在本发明实施例中,存在一个日志统计文件,用于存储关键词与出现次数的对应关系。日志统计文件在初始时,不存在任何的数据,而随着一轮轮的运算过程,逐渐向日志统计文件中添加关键词以及更新与关键词对应的出现次数。
可以理解地,由于一个关键词可能在日志文件中出现多次,所以当前的特定关键词可能已经存在于日志统计文件中;另一方面,当前的特定关键词也可能不存在于日志统计文件中,所以在本步骤中,需要对特定关键词是否已经存在于所述日志统计文件中进行判断。
步骤S1035,若所述特定关键词不存在于所述日志统计文件中,则将所述特定关键词写入所述日志统计文件中,并将所述特定关键词对应的出现次数记为1,并返回执行从所述日志文件内逐一选取关键词作为特定关键词,判断所述日志文件内是否存在未被选取的关键词的操作。
示例性地,假设日志统计文件已经存在3个关键词,分别为:A、B以及C,其中A对应的出现次数为3;B对应的出现次数为5;C对应的出现次数为6,假设当前的特定关键词为D,则由于D不存在于日志统计文件中,则将D在本步骤中写入日志统计本件,并在本步骤中将D对应出现次数记为1。可以理解地,在一轮轮循环计算的过程中,D对应的出现次数可能被更新。
步骤S1036,若所述特定关键词已存在于所述日志统计文件中,则将所述特定关键词对应的出现次数增加1次,并返回执行从所述日志文件内逐一选取关键词作为特定关键词,判断所述日志文件内是否存在未被选取的关键词的操作。
示例性地,如上文示例所述,假设日志统计文件已经存在3个关键词,分别为:A、B以及C,其中A对应的出现次数为3;B对应的出现次数为5;C对应的出现次数为6,假设当前的特定关键词为A,则将A对应的出现次数增加一次,所以更新后的A对应的出现次数为4。
值得注意地,在完成对于关键词对应的出现次数更新后,返回至执行步骤S1031以及步骤S1032。
进一步地,为了更加全面的统计用户数据,本发明实施例提供的用户数据的统计方法,还包括:步骤S104,基于多个所述日志统计文件中的关键词与出现次数的对应关系,计算各个关键词的出现总次数。
在上文实施例中,通过循环累加的方式计算出一个日志统计文件,该日志统计文件包括预设单位时间内的所有关键词及其出现次数的对应关系,在本发明实施例中,需要统计多个预设单位时间内的所有关键词及其出现次数的对应关系,以更全面地体现各个关键词的出现次数。
作为本发明的一个实施例,如图4所示,上述步骤S104包括:
步骤S1041,选取预设数量的所述日志统计文件,生成候选日志统计文件集合。
示例性地,假设预设单位为1天,则一个日志统计文件包括一天内控制指令包含的全部关键词及其出现次数,如果预设数量为5,则在本发明实施例中,需要选取5个最新的日志统计文件,生成候选日志统计文件。
步骤S1042,从所述候选日志统计文件集合中,提取出全部关键词与出现次数的对应关系。
步骤S1043,计算相同的关键词的出现次数之和,作为该关键词的出现总次数。
示例性地,在本发明实施例中,假设一个候选日志统计文件集合是由5个最新的日志统计文件组成的,其中,第一个日志统计文件包括:关键词A、B以及C,其中A对应的出现次数为3;B对应的出现次数为5;C对应的出现次数为6;第二个日志统计文件包括:关键词A、B以及D,其中A对应的出现次数为1;B对应的出现次数为1;D对应的出现次数为2;第三个日志统计文件包括:关键词A、B以及C,其中A对应的出现次数为1;B对应的出现次数为1;C对应的出现次数为1;第四个日志统计文件包括:关键词A、B以及E,其中A对应的出现次数为3;B对应的出现次数为3;E对应的出现次数为6;第五个日志统计文件包括:关键词A、B以及C,其中A对应的出现次数为2;B对应的出现次数为2;C对应的出现次数为2。
则候选日志统计文件集合中关键词及其出现总次数为:A对应的出现总次数为10;B对应的出现总次数为13;C对应的出现总次数为9;D对应的出现总次数为2;E对应的出现总次数为6。
进一步地,将所述关键词与出现总次数的对应关系,根据所述出现总次数由大到小排列,并生成.csv格式的关键词累计统计文件。
如上文示例所述,A对应的出现总次数为10;B对应的出现总次数为13;C对应的出现总次数为9;D对应的出现总次数为2;E对应的出现总次数为6。则根据出现总次数由大到小排列后,关键词累计统计文件为:B:13;A:10;C:9;E:6;D:2。
可选地,关键词累计统计文件的格式可以为.csv格式。
在本发明实施例中,通过接收用户输入的控制指令,从控制指令中提取出关键词,并将预设单位时间内的所有关键词写入一个日志文件;基于所述日志文件内各个所述关键词的出现次数,生成日志统计文件;基于多个所述日志统计文件中的关键词与出现次数的对应关系,计算各个关键词的出现总次数,以对控制指令中的关键词进行计算,从而充分分析控制指令,为后续的用户行为的分析提供充足的数据支持。
对应于上文的用户数据的统计方法,图5示出了本发明实施例提供的用户数据的统计装置的结构框图。
参照图5,该装置包括:
接收模块501,用于接收用户输入的控制指令;
提取模块502,用于从所述控制指令中提取出关键词,并将预设单位时间内的所有关键词写入一个日志文件;
第一计算模块503,用于计算所述日志文件内各个所述关键词的出现次数,生成关键词与出现次数的对应关系,将全部所述关键词与出现次数的对应关系写入一个日志统计文件。
进一步地,该装置还包括:
第二计算模块504,用于基于多个所述日志统计文件中的关键词与出现次数的对应关系,计算各个关键词的出现总次数。
进一步地,所述提取模块502,包括:
第一执行子模块,用于若所述控制指令为按键指令,则根据预设的按键指令与关键词的对应关系,确定所述控制指令对应的关键词;
第二执行子模块,用于若所述控制指令为字符指令,则首先将所述字符指令拆分为一个以上的指令词语,并基于预设的词组数据库,计算所述指令词语在所述词组数据库中的出现频率,将所述出现频率大于预设频率阈值的指令词语作为所述字符指令对应的关键词;
第三执行子模块,用于若所述控制指令为语音指令,则首先识别出所述语音指令对应的文字,将所述语音指令对应的文字拆分为一个以上的指令词语,并基于预设的词组数据库,计算所述指令词语在所述词组数据库中的出现频率,将所述出现频率大于预设频率阈值的指令词语作为所述语音指令对应的关键词。
进一步地,所述第一计算模块,包括:
选取子模块,用于从所述日志文件内逐一选取关键词作为特定关键词;
判断子模块,用于判断所述特定关键词是否已经存在于所述日志统计文件中;
第一计数模块,用于若所述特定关键词不存在于所述日志统计文件中,则将所述特定关键词写入所述日志统计文件中,并将所述特定关键词对应的出现次数记为1;
第二计数模块,用于若所述特定关键词已存在于所述日志统计文件中,则将所述特定关键词对应的出现次数增加1次,并返回执行所述从所述日志文件内逐一选取关键词作为特定关键词,判断所述特定关键词是否已经存在于所述日志统计文件中的操作。
进一步地,所述第二计算模块,具体用于:
选取预设数量的所述日志统计文件,生成候选日志统计文件集合;
从所述候选日志统计文件集合中,提取出全部关键词与出现次数的对应关系;
计算相同的关键词的出现次数之和,作为该关键词的出现总次数。
进一步地,所述装置,还包括:
输出模块,用于将所述关键词与出现总次数的对应关系,根据所述出现总次数由大到小排列,并生成.csv格式的关键词累计统计文件。
在本发明实施例中,通过接收用户输入的控制指令,从控制指令中提取出关键词,并将预设单位时间内的所有关键词写入一个日志文件;基于所述日志文件内各个所述关键词的出现次数,生成日志统计文件;基于多个所述日志统计文件中的关键词与出现次数的对应关系,计算各个关键词的出现总次数,以对控制指令中的关键词进行计算,从而充分分析控制指令,为后续的用户行为的分析提供充足的数据支持。
对应于上文的用户数据的统计方法,图6是本发明一实施例提供的用户数据的统计终端的示意图。如图6所示,该实施例的用户数据的统计装置包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如用户密钥的加密程序。所述处理器60执行所述计算机程序62时实现上述各个用户数据的统计方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图5所示模块501至504的功能。
所述用户数据的统计装置6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述用户数据的统计装置可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是用户数据的统计装置6的示例,并不构成对用户数据的统计装置6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述用户数据的统计装置还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用户数据的统计方法,其特征在于,包括:
接收用户输入的控制指令;
从所述控制指令中提取出关键词,并将预设单位时间内的所有关键词写入一个日志文件;
计算所述日志文件内各个所述关键词的出现次数,生成关键词与出现次数的对应关系,将全部所述关键词与出现次数的对应关系写入一个日志统计文件。
2.如权利要求1所述的用户数据的统计方法,其特征在于,还包括:
基于多个所述日志统计文件中的关键词与出现次数的对应关系,计算各个关键词的出现总次数。
3.如权利要求1所述的用户数据的统计方法,其特征在于,所述从所述控制指令中提取出关键词,包括:
若所述控制指令为按键指令,则根据预设的按键指令与关键词的对应关系,确定所述控制指令对应的关键词;
若所述控制指令为字符指令,则首先将所述字符指令拆分为一个以上的指令词语,并基于预设的词组数据库,计算所述指令词语在所述词组数据库中的出现频率,将所述出现频率大于预设频率阈值的指令词语作为所述字符指令对应的关键词;
若所述控制指令为语音指令,则首先识别出所述语音指令对应的文字,将所述语音指令对应的文字拆分为一个以上的指令词语,并基于预设的词组数据库,计算所述指令词语在所述词组数据库中的出现频率,将所述出现频率大于预设频率阈值的指令词语作为所述语音指令对应的关键词。
4.如权利要求1所述的用户数据的统计方法,其特征在于,所述计算所述日志文件内各个所述关键词的出现次数,生成关键词与出现次数的对应关系,将全部所述关键词与出现次数的对应关系写入一个日志统计文件,包括:
从所述日志文件内逐一选取关键词作为特定关键词;
判断所述日志文件内是否存在未被选取的关键词;
若日志文件内存在未被选取的关键词,则判断所述特定关键词是否已经存在于所述日志统计文件中;
若所述特定关键词不存在于所述日志统计文件中,则将所述特定关键词写入所述日志统计文件中,并将所述特定关键词对应的出现次数记为1,并返回执行从所述日志文件内逐一选取关键词作为特定关键词,判断所述日志文件内是否存在未被选取的关键词的操作;
若所述特定关键词已存在于所述日志统计文件中,则将所述特定关键词对应的出现次数增加1次,并返回执行从所述日志文件内逐一选取关键词作为特定关键词,判断所述日志文件内是否存在未被选取的关键词的操作。
5.如权利要求2所述的用户数据的统计方法,其特征在于,所述基于多个所述日志统计文件中的关键词与出现次数的对应关系,计算各个关键词的出现总次数,包括:
选取预设数量的所述日志统计文件,生成候选日志统计文件集合;
从所述候选日志统计文件集合中,提取出全部关键词与出现次数的对应关系;
计算相同的关键词的出现次数之和,作为该关键词的出现总次数。
6.一种用户数据的统计装置,其特征在于,包括:
接收模块,用于接收用户输入的控制指令;
提取模块,用于从所述控制指令中提取出关键词,并将预设单位时间内的所有关键词写入一个日志文件;
第一计算模块,用于计算所述日志文件内各个所述关键词的出现次数,生成关键词与出现次数的对应关系,将全部所述关键词与出现次数的对应关系写入一个日志统计文件。
7.如权利要求6所述的用户数据的统计装置,其特征在于,所述提取模块,包括:
第一执行子模块,用于若所述控制指令为按键指令,则根据预设的按键指令与关键词的对应关系,确定所述控制指令对应的关键词;
第二执行子模块,用于若所述控制指令为字符指令,则首先将所述字符指令拆分为一个以上的指令词语,并基于预设的词组数据库,计算所述指令词语在所述词组数据库中的出现频率,将所述出现频率大于预设频率阈值的指令词语作为所述字符指令对应的关键词;
第三执行子模块,用于若所述控制指令为语音指令,则首先识别出所述语音指令对应的文字,将所述语音指令对应的文字拆分为一个以上的指令词语,并基于预设的词组数据库,计算所述指令词语在所述词组数据库中的出现频率,将所述出现频率大于预设频率阈值的指令词语作为所述语音指令对应的关键词。
8.如权利要求6所述的用户数据的统计装置,其特征在于,所述第一计算模块,用于包括:
选取子模块,用于从所述日志文件内逐一选取关键词作为特定关键词;
判断子模块,用于判断所述特定关键词是否已经存在于所述日志统计文件中;
第一计数模块,用于若所述特定关键词不存在于所述日志统计文件中,则将所述特定关键词写入所述日志统计文件中,并将所述特定关键词对应的出现次数记为1;
第二计数模块,用于若所述特定关键词已存在于所述日志统计文件中,则将所述特定关键词对应的出现次数增加1次,并返回执行所述从所述日志文件内逐一选取关键词作为特定关键词,判断所述特定关键词是否已经存在于所述日志统计文件中的操作。
9.一种用户数据的统计终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711449050.8A CN109976984A (zh) | 2017-12-27 | 2017-12-27 | 用户数据的统计方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711449050.8A CN109976984A (zh) | 2017-12-27 | 2017-12-27 | 用户数据的统计方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109976984A true CN109976984A (zh) | 2019-07-05 |
Family
ID=67071694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711449050.8A Pending CN109976984A (zh) | 2017-12-27 | 2017-12-27 | 用户数据的统计方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109976984A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347900A (zh) * | 2019-07-10 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 一种关键词的重要度计算方法、装置、服务器及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164424A (zh) * | 2011-12-13 | 2013-06-19 | 阿里巴巴集团控股有限公司 | 一种时效性词的获取方法和装置 |
CN103324718A (zh) * | 2013-06-25 | 2013-09-25 | 百度在线网络技术(北京)有限公司 | 基于海量搜索日志挖掘话题脉络的方法和系统 |
CN106776542A (zh) * | 2016-11-23 | 2017-05-31 | 北京小米移动软件有限公司 | 用户反馈信息的关键词处理方法、装置及服务器 |
CN106782526A (zh) * | 2016-12-12 | 2017-05-31 | 深圳Tcl数字技术有限公司 | 语音控制方法和装置 |
-
2017
- 2017-12-27 CN CN201711449050.8A patent/CN109976984A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164424A (zh) * | 2011-12-13 | 2013-06-19 | 阿里巴巴集团控股有限公司 | 一种时效性词的获取方法和装置 |
CN103324718A (zh) * | 2013-06-25 | 2013-09-25 | 百度在线网络技术(北京)有限公司 | 基于海量搜索日志挖掘话题脉络的方法和系统 |
CN106776542A (zh) * | 2016-11-23 | 2017-05-31 | 北京小米移动软件有限公司 | 用户反馈信息的关键词处理方法、装置及服务器 |
CN106782526A (zh) * | 2016-12-12 | 2017-05-31 | 深圳Tcl数字技术有限公司 | 语音控制方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347900A (zh) * | 2019-07-10 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 一种关键词的重要度计算方法、装置、服务器及介质 |
CN110347900B (zh) * | 2019-07-10 | 2022-12-27 | 腾讯科技(深圳)有限公司 | 一种关键词的重要度计算方法、装置、服务器及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018205389A1 (zh) | 语音识别方法、系统、电子装置及介质 | |
US11556572B2 (en) | Systems and methods for coverage analysis of textual queries | |
WO2017075017A1 (en) | Automatic conversation creator for news | |
US20200019612A1 (en) | Topic kernelization for real-time conversation data | |
JP2022018095A (ja) | マルチモーダル事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体 | |
CN104574192A (zh) | 在多个社交网络中识别同一用户的方法及装置 | |
CN107733984A (zh) | 一种推送锁屏信息的方法、终端及计算机可读存储介质 | |
CN109918662A (zh) | 一种电子资源的标签确定方法、装置和可读介质 | |
Rieger et al. | RollingLDA: An update algorithm of Latent Dirichlet Allocation to construct consistent time series from textual data | |
CN110209809B (zh) | 文本聚类方法和装置、存储介质及电子装置 | |
CN109492217A (zh) | 一种基于机器学习的分词方法及终端设备 | |
CN106844550B (zh) | 一种虚拟化平台操作推荐方法及装置 | |
CN114579104A (zh) | 数据分析场景的生成方法、装置、设备及存储介质 | |
CN110209875A (zh) | 用户内容画像确定方法、访问对象推荐方法和相关装置 | |
CN111563198B (zh) | 一种物料召回方法、装置、设备及存储介质 | |
US10699078B2 (en) | Comment-centered news reader | |
CN115730555A (zh) | 一种芯片布局方法、装置、设备及存储介质 | |
CN109976984A (zh) | 用户数据的统计方法及装置 | |
CN117055851A (zh) | 一种软件架构恢复方法、装置、电子设备及存储介质 | |
CN117113087A (zh) | 模型训练方法、装置、电子设备以及存储介质 | |
CN111930944A (zh) | 文件标签分类方法及装置 | |
EP4307136A1 (en) | Sorting method and apparatus for search results, and electronic device and storage medium | |
CN110347934A (zh) | 一种文本数据过滤方法、装置及介质 | |
US20230032208A1 (en) | Augmenting data sets for machine learning models | |
CN111414455B (zh) | 舆情分析方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190705 |
|
RJ01 | Rejection of invention patent application after publication |