CN102822821A - 推定装置、推定方法及程序 - Google Patents
推定装置、推定方法及程序 Download PDFInfo
- Publication number
- CN102822821A CN102822821A CN2011800158325A CN201180015832A CN102822821A CN 102822821 A CN102822821 A CN 102822821A CN 2011800158325 A CN2011800158325 A CN 2011800158325A CN 201180015832 A CN201180015832 A CN 201180015832A CN 102822821 A CN102822821 A CN 102822821A
- Authority
- CN
- China
- Prior art keywords
- blog
- label
- program
- broadcasting station
- text line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/16—Analogue secrecy systems; Analogue subscription systems
- H04N7/173—Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/44—Browsing; Visualisation therefor
- G06F16/447—Temporal browsing, e.g. timeline
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/489—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
- H04N21/4828—End-user interface for program selection for searching program descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
标签抽取部(103)经由网络收集包括文字列和写入该文字列的时刻信息在内的博客,抽取在该文字列中出现的标签,将博客与抽取的标签建立对应而存储在标签出现数据库(104)中。暂定广播电台推定部(106)以出现在博客的文字列中的特征词为基础,推定对在博客中提及的节目进行广播的广播电台,作为暂定广播电台,与博客建立对应而存储在博客数据库(102)中。广播电台确定部(107)在标签出现数据库(104)中存储的、在规定的时刻范围内被写入的博客的文字列中出现的标签的个数超过了规定的阈值时,参照博客数据库(102)而对文字列中包含标签的博客所提及的节目的暂定广播电台进行累计,确定对该节目进行广播的广播电台。
Description
技术领域
本发明涉及推定装置、推定方法及程序,尤其是涉及使用收集的博客的特征词,来推定广播博客提及的节目的广播电台或其节目的技术。
背景技术
由于因特网或博客的广泛普及,极其普通的用户在自己的博客网站中实时地实况叙述广播中的电视节目等逐渐流行。尤其是能够投稿、阅览140字左右的短评论的这种微博,出于能够从手机投稿的简便性,这种节目的实况叙述的利用急速发展。另外,本说明书中的“博客”定义为个人向网站投稿的评论或记事。
从这种背景出发,存在通过将用户当前收听收看的电视节目的节目信息向用户展现,而进行与该节目关联的博客记事或评论的制作支援的发明等(参照专利文献1)。
另外,作为相反的途径,也逐渐考虑了根据博客记事的内容来推定实况叙述的是哪个节目的方法。关于这种博客提及的节目的推定,作为使用了字幕文本的方法,列举有“字幕テキストの利用によるブログで引用されたテレビ番組の推定(基于字幕文本的利用的在博客中引用的电视节目的推定)”(参照非专利文献1)。这是从EPG(ElectricProgram Guide:电子节目向导)或字幕文本中抽取特征词,与博客内的单词进行比较,由此来决定电视台制约、频道制约,进而根据时态特征词来抽取时间制约,进行记分,推定博客所提及的节目。
【在先技术文献】
【专利文献】
【专利文献1】日本特开2008-124861号公报
【非专利文献】
【非专利文献1】
及川孝德外4名,“字幕テキストの利用によるブログで引用されたテレビ番組の推定”[online][平成23年9月9日检索],因特网<URL:http://db-event.jpn.org/deim2010/proceedings/files/D6-4.pdf>
另一方面,现实的博客主(写博客的人)不是仅将电视节目进行365天实况叙述,而是将自己的平时的生活的一个片断或书籍的感想等混杂记载于1个博客网站中。作为这种博客主的行为模式,作为这样混杂的各个内容的附笺,确立了标注标签名的方法。例如,分成日常、书籍、电视等类别而标注#dairy、#books、#tv等标签。而且,对于经常收听收看的节目,也经常标注固有的标签。例如,以连续剧A→#rendoraA等的省略语为基准的情况很多。
然而,在上述的提案方法中,关于未附带字幕文本的节目,虽然未从最初开始处理(即使评价也全部除外),但现实情况是一半的节目未附带字幕文本,不实用。而且,对于收音机等原本不存在字幕文本的广播而言,难以适用。
而且,现实的字幕文本是遵照剧本或广播逻辑规定的正确的日语。另一方面,用户边观看电视边向博客输入时,容易变成使用较多省略语、俗语、标签的非正式的日语。尤其是演员名或节目名等容易形成为省略语,因此无法得到如愿的推定精度。作为解决这种情况的已知的技术,也考虑了通过制作正确的日语与省略语、俗语、标签的近义词词典来提高推定精度的方法,但对日益出现的未知的单词的近义词词典进行维护会导致高成本。
另外,作为博客主的行为模式,标注标签的情况的确较多,但该标签并不是广播电台指定的标签,而是自然而然决定的,出现频率也存在变动,难以与节目信息结合。
发明内容
因此,本发明目的在于不用从EPG或字幕文本抽取特征词或对近义词词典等进行维护,就能够高精度地推定博客等的社会化媒体所提及的节目。
为了实现上述目的,本发明的一个方式是推定装置。该装置包括:标签抽取部,经由网络收集包括个人向网站写入的文字列和写入该文字列的时刻信息在内的博客,抽取在所述博客的文字列中出现的标签,将所述博客与抽取的标签建立对应而存储在标签出现数据库中;暂定广播电台推定部,以出现在所述博客的文字列中的特征词为基础,推定对在所述博客中提及的节目进行广播的广播电台,将推定到的广播电台作为暂定广播电台,与所述博客建立对应而存储在博客数据库中;广播电台确定部,在所述标签出现数据库中存储的博客亦即在规定的时刻范围内被写入的博客的文字列中出现的标签的个数超过了规定的阈值时,参照所述博客数据库而对文字列中包含所述标签的博客所提及的节目的暂定广播电台进行累计,以累计结果为基础,确定对所述博客所提及的节目进行广播的广播电台。
本发明的另一形态是推定方法。该方法使处理器执行如下步骤:经由网络收集包括个人向网站写入的文字列和写入该文字列的时刻信息在内的博客,抽取在所述博客的文字列中出现的标签,将所述博客与抽取的标签建立对应而存储在标签出现数据库中的步骤;以出现在所述博客的文字列中的特征词为基础,推定对在所述博客中提及的节目进行广播的广播电台,将推定到的广播电台作为暂定广播电台,与所述博客建立对应而存储在博客数据库中的步骤;在所述标签出现数据库中存储的博客亦即在规定的时刻范围内被写入的博客的文字列中出现的标签的个数超过了规定的阈值时,参照所述博客数据库而对文字列中包含所述标签的博客所提及的节目的暂定广播电台进行累计,以累计结果为基础,确定对所述博客所提及的节目进行广播的广播电台的步骤。
【发明效果】
根据本发明,能够推定对博客等社会化媒体所提及的节目进行广播的广播电台。
附图说明
图1是本发明的实施方式1的推定装置的框图。
图2是本发明的实施方式1的流程图。
图3是本发明的实施方式1的博客DB数据结构的例子(节目推定前)。
图4是本发明的实施方式1的博客DB数据结构的例子(节目推定后)。
图5是本发明的实施方式1的标签出现DB数据结构的例子。
图6是本发明的实施方式1的标签节目DB数据结构的例子(节目推定前)。
图7是本发明的实施方式1的标签节目DB数据结构的例子(节目推定后)。
图8是本发明的实施方式1的特征词数据的例子。
图9是本发明的实施方式2的推定装置的框图。
图10是本发明的实施方式2的流程图。
具体实施方式
以下,参照附图,详细说明本发明的实施方式。
(实施方式1)
图1是本发明的实施方式1的推定装置的框图。而且,图2是本发明的实施方式1的流程图。
推定装置100的博客收集部101通过因特网等网络200来收集博客记事(S1),向图3所示的博客DB(DataBase;数据库)102登记投稿固有ID、正文、投稿时刻(S2)。另外,在该时刻,由于后述的暂定广播电台或确定广播电台、节目信息(标题、广播电台名、节目详细等)不明,因此保持为空的状态。另外,本说明书中的“博客”以个人向网站投稿(写入)1次的评论或记事为1个单位,包含构成该投稿的评论或记事的文章信息(文字列)和投稿该评论或记事的时刻信息。
在此,投稿固有ID是各个博客记事特有的ID(IDentification)。在本发明中,并不特别限定投稿固有ID的格式。而且,关于收集博客记事的博客网站也并未特别限定。
接下来,标签抽取部103从博客的正文抽取任意标签(S3)。在本实施例中,将如#rendoraA这种从“#”开始的字母数字作为标签提取,但关于该标签的格式,在本发明中并未特别限定,按照预先决定的规则,能够机械性地自动抽取,只要是博客固有的格式(由HTML标签中的特定的格式包围的文本等)或按照用户的行为模式的格式即可,可以为任何格式。
接下来,标签抽取部103将抽取的标签与博客的投稿固有ID及投稿时刻建立对应而登记在标签出现DB104中(S4)。标签出现DB104具有图5所示的数据结构。另外,在图5中,示出了推定后述的暂定的广播电台名时使用的特征词数据除外的例子。
此外,标签抽取部103判断抽取的标签是否为还未登记到表示标签与从该标签推定出的节目信息建立了关联的标签节目DB 105中的新的标签(S5),若为新的标签,则登记到标签节目DB105中(S6)。标签节目DB105具有图6所示的数据结构。另外,在该时刻下,由于确定时刻(决定了标签与节目信息建立关联的时刻)、节目信息及后述的确定广播电台不明,因此为空。
另一方面,暂定广播电台推定部106根据博客收集部101收集到的博客的正文来推定暂定的广播电台(S7),并将推定到的暂定广播电台暂时保存在博客DB102中(S8)。
在本发明的实施方式中,在该暂定广播电台的推定中使用图8例示的按照每个广播电台预先准备的特征词数据。该特征词数据是博客正文中出现的用词,未必限定为上述的标签。在特征词数据中预定了优先度得分。例如,在图3的投稿固有ID=06565406541中,由于仅与博客正文的“B电视台”这样的文字列进行匹配,因此将“广播电台B”推定为暂定广播电台。该方法无需现有技术那样对EPG或字幕文本进行词素解析而抽取特征词,从而能够大幅度抑制推定花费的计算成本。
为了提高推定暂定广播电台的精度,也可以如图8所示那样按照每个特征词数据来进行优先度的打分,暂时保持于博客DB102的暂定广播电台,在一个博客正文与多个广播电台的特征词数据匹配时(例如“快观看广播电台A的卫星广播”这样的博客正文与广播电台A和广播电台A的卫星广播这两者匹配),按照每个广播电台进行合计,将暂定总得分最高的广播电台推定为暂定广播电台。该优先度得分也与特征词同样地是预定的值,是面向各广播电台一次设定的静态数据。匹配的暂定总得分暂时保存于博客DB102的规定的栏。
该阶段的暂定广播电台只不过是暂定的广播电台,匹配的暂定广播电台也可以为多个,或者也可以是一个也未匹配而暂定广播电台不明。例如,在图3的投稿固有ID=06565406567中,由于无法从博客正文推定广播电台,因此对应的暂定广播电台的栏保持为「?(不明)」的状态。
接下来,如图5所示,广播电台确定部107定期地通过预定的规定的时刻范围Ra(例如10分钟前~当前时刻等)来划分标签出现DB 104,在该时刻范围Ra内,判断任意的标签T是否出现预定的阈值β次(例如50次等)以上(S9),在标签T出现β次以上时,通过后述的方法来确定广播电台。在此,规定的时刻范围Ra是指求出标签与广播电台的对应关系时作为基准的广播电台推定基准时刻范围。而且,阈值β是为了决定标签与广播电台是否建立对应而参照的广播电台决定基准值。
另外,在本实施例中,为了简化说明,说明将上述规定的时刻范围固定为10分钟的例子,但也可以定期地监视时刻,根据当前广播中的节目信息,抽取节目的开始时刻和结束时刻,在当前时刻与结束时刻重合的时刻,决定时刻范围Ra,由此使时刻范围可变。
在此,在当前时刻22:05下,在图5所示的规定的时刻范围Ra(21:55:00‐22:05:00)的区间内,#prog1这一标签T出现了β次以上。
广播电台确定部107以记录在标签出现DB104中的投稿固有ID为基础从博客DB102取得包含#prog1这一标签的最早的投稿时刻(20:50:22)到最晚的投稿时刻(22:02:20)为止的时刻范围Rb内的博客一览表Lb(S 10)。广播电台确定部107接下来从该博客一览表Lb累计暂定广播电台的出现次数而制作排名,将出现次数最多的暂定广播电台确定为#prog1所示的确定广播电台(S11)。
另外,在本实施例中,博客DB102存储博客收集部101收集到的过去1周期间的博客,此前的博客删除。而且,为了简化说明,将包含标签T的最早的投稿时刻直接采用在时刻范围Rb内,但也可以添加最早的时刻与最晚的投稿时刻为相同的日期和时间这样的限制,来应对同一节目在不同的地方台错开日期和时间广播这样的节目编排。
以下表示更多的例子。例如,在时刻范围Rb(20:50:22‐22:05:00)的区间内存在整体包含305件的标签T的投稿,每个暂定广播电台的累计结果为
第1位:广播电台A=296件(总得分485.0)
第2位:广播电台E=6件(总得分8.5)
第3位:广播电台F=1件(总得分2.0)
不明=2件(不明率0.7%)时,
将“广播电台A”作为确定广播电台。通过该方法,能够抑制从一个个博客记事推定的暂定广播电台的变动或误差,能够格外地提高推定精度。
另外,在本实施例中,为了简化说明而必须确定广播电台,但为了进一步提高精度,也可以统计性地判定暂定广播电台的分布,在与放弃条件一致(在此,放弃条件例如是指在第1位和第2位的总计优先度得分几乎没有差别的情况、不明率相对于整体的投稿件数显著增大(例如不明率为30%以上等)的情况)时,判断标签T不是表示特定的广播电台或节目信息的标签,不用于节目信息的推定。
若通过上述的方法将确定广播电台确定,则接下来节目推定部108从节目信息DB109取得与所述时刻范围Rb对应的确定广播电台的全部的节目候补(S12)。在此,节目信息DB109是至少存储广播电台名、广播时间、标题、节目详细等的信息的数据库,但关于这些信息的取得部,在本发明中并未特别限定。可以是经由网络取得的信息,也可以是从广播电波中包含的电子节目数据取得的信息,还可以是通过其他的方法取得的信息。
在前面的例子中,作为与所述时刻范围Rb(20:50:22-22:05:00)对应的广播电台A的节目候补,能得到20:45-21:00广播的“节目5”、21:00-22:00广播的“节目6”、22:00-22:45广播的“节目1”这3个节目。
此外,当以所述博客一览表Lb的投稿时刻为基础,累计各个节目广播时间中的投稿件数时,根据用户实时地实况叙述节目这样的行为模式,如下所示,关于特定的节目的投稿件数变得非常大。
“广播电台名:广播电台A
标题:节目5
广播时间:20:45-21:00
所述博客一览表Lb中的投稿件数:1件”,
“广播电台名:广播电台A
标题:节目6
广播时间:21:00-22:00
所述博客一览表Lb中的投稿件数:5件”,
“广播电台名:广播电台A
标题:节目1
广播时间:22:00-22:45
所述博客一览表Lb中的投稿件数:299件”。
根据该结果,节目推定部108将所述博客一览表Lb中的投稿件数最多的“节目1”推定作为标签#prog1所示的对应节目(S13)。在此,通过抑制与多个节目关联的博客的变动或误差,来提高推定精度。
在能够推定标签T所示的节目的时刻,节目推定部108将从节目信息DB109取得的与“节目1”相关的信息登记在标签节目DB105中作为节目信息,登记当前时刻的22:05作为确定时刻,从而完成标签T与节目信息的关联(S14)。
最后,节目信息改写部110关于所述博客一览表Lb中的节目信息为空的情况,以推定的节目信息为基础,而改写博客DB102的节目信息及确定广播电台(S15)。由此,在S7阶段中的不明的节目信息或错误推定的确定广播电台也成为正确的信息。
例如,图3所示的投稿固有ID=06565406567无法由博客正文推定暂定广播电台,但通过所述方法,如图4所示能确定广播电台。而且,图4及图7同样地表示确定了节目信息的状态。
图4的投稿固有ID=06565406542虽然含有#dairy这样的标签,但无法得到该标签与特定的节目建立了关联的结果,因此能够判别为不是引用节目的博客。
如以上所述,根据实施方式1,能够得到不用从EPG或字幕文本抽取特征词或维护近义词词典等,就能够高精度地推定博客等的社会化媒体所提及的节目这样的效果。
(实施方式2)
图9是本发明的实施方式2的推定装置的框图。而且,图10是本发明的实施方式2的流程图。成为在实施方式1的推定装置100添加了节目信息设定部111的框图结构。
在图10的流程图中,从步骤S1到步骤S4、及从步骤S6到步骤S15与实施例1同样,因此省略说明。
标签抽取部103判断是否为还未登记到表示标签与由该标签推定出的节目信息建立了关联的标签节目DB105中的新的标签(S5),若为新的标签,则登记到标签节目DB105中(S6)。
在是已经登记到标签节目DB105中的标签时,节目信息设定部111判断是否为与该标签建立关联的节目信息(S16),在为节目信息时,判断博客的投稿时刻是否为标签节目DB105中的确定时刻+阈值γ以内(S17),若为范围内则推定为标签表示同一节目信息,对博客DB102的节目信息及广播电台一览表进行改写(S18)。在此,阈值γ是求出标签与节目信息的对应关系时作为基准的节目推定基准时刻范围。
例如,在预定的阈值γ=2小时的情况下,在图3所示的投稿固有ID=06565406721中,虽然根据博客正文与特征词数据的匹配无法得到暂定广播电台,但由于包含标签#prog1,且投稿时刻22:43:20处于标签#prog1的确定时刻22:05:00+阈值γ(2小时)以内,因此通过节目信息设定部111,直接推定为“节目1”。其结果是,如图4所示,设定了投稿固有ID=06565406721的节目信息及广播电台。
确定时刻+阈值γ的限制是在同一节目由不同的广播电台在不同的时间广播时,用于不强制早的关联的节目信息的限制。例如,广播电台F和广播电台G有时将同一节目在不同的时间段进行广播。然而,由于广播电台名不同,因此节目信息并不完全一致。此时,相对于后广播的节目,为了与新的节目信息建立关联而需要这种限制。如此,阈值γ的值只要考虑各台广播的节目信息而通过实验决定即可。
另外,出于同样的考虑,也可以定期地确认标签节目DB105,删除确定时刻为当前时刻-阈值γ以前的标签,由此将标签与节目信息的关联更新为新的关联。
如以上所述,根据实施方式2,设定与节目关联的标签T,但能够得到推定从已知的特征词表无法推定暂定的广播电台的博客文本(即,以往未被活用而被舍弃的博客文本)的节目的效果。
以上,以实施方式为基础说明了本发明。实施方式是例示,上述各结构要素或各处理过程的组合存在各种变形例,而且这样的变形例也属于本发明的范围这一点对于本领域技术人员来说是不言自明的。
(变形例1)
在上述的说明中,说明了广播电台确定部107以记录在标签出现DB104中的投稿固有ID为基础,从博客DB102取得与特定的标签相关的博客一览表Lb,从取得的博客一览表Lb累计暂定广播电台的出现次数而制作排名,将出现次数最多的暂定广播电台确定为该标签表示的确定广播电台的情况。基于广播电台确定部107的标签与广播电台的对应的建立方法并不限定为基于出现次数的最大值的方法。广播电台确定部107在求出确定广播电台时,不仅将出现于博客一览表Lb的暂定广播电台的出现次数进行累计,也可以对该累计结果进一步解析来求出确定广播电台。以下,说明基于广播电台确定部107的标签与广播电台建立对应的另一例。
广播电台确定部107首先算出从博客一览表Lb推定的各暂定广播电台的个数的时序变化。时序变化例如通过以时刻为横轴且以在各时刻从投稿的博客推定的暂定广播电台的个数为纵轴的图表来表现。接下来,广播电台确定部107将算出的时序变化的时间微分算出,将具有微分值的极大值最大的图表的暂定广播电台作为与该标签对应的广播电台。如此求出时序变化的微分值的情况相当于评价博客中的瞬间的气氛热烈。由此,能够将某节目的开始时刻或节目中的受欢迎专题的放映过程中等与节目的进展状况对应的气氛热烈的变化反映在该广播电台的决定中。
(变形例2)
在上述的说明中,说明了节目推定部108将博客一览表Lb中的投稿件数最多的“节目”推定为标签表示的对应节目的情况。节目推定部108将标签与节目建立对应的方法并不限定为基于投稿件数的最大值的方法。以下,说明节目推定部108将标签与节目建立对应的另一例。
节目推定部108也可以对博客一览表Lb中的投稿的节目的个数进行累计,以将该个数以节目的广播时间进行了规格化的规格化节目数为基础,将标签与节目建立对应。更具体而言,节目推定部108将累计的节目的个数除以该节目的广播时间,求出每单位广播时间的节目数。考虑到通常广播时间长的节目与广播时间短的节目相比,向博客投稿的个数增加。例如,考虑到在广播时间为10分钟的节目之后将广播时间为3小时的节目进行广播时,向博客投稿的个数的总和为广播时间为3小时的节目较多。因此,节目推定部108以每单位广播时间的节目数为基础,将标签与节目建立对应,由此能够减少广播时间导致的投稿数的不同,而提高节目推定精度。
【标号说明】
100推定装置,101博客收集部,102博客DB,103标签抽取部,104标签出现DB,105标签节目DB,106暂定广播电台推定部,107广播电台确定部,108节目推定部,109节目信息DB,110节目信息改写部,111节目信息设定部,200网络。
【工业实用性】
本发明涉及推定装置、推定方法以及程序,尤其能够用于使用收集的博客的特征词来推定广播博客所提及的节目的广播电台或其节目的技术。
Claims (6)
1.一种推定装置,其特征在于,包括:
标签抽取部,经由网络收集包括个人向网站写入的文字列和写入该文字列的时刻信息在内的博客,抽取在所述博客的文字列中出现的标签,将所述博客与抽取的标签建立对应而存储在标签出现数据库中;
暂定广播电台推定部,以出现在所述博客的文字列中的特征词为基础,推定对在所述博客中提及的节目进行广播的广播电台,将推定到的广播电台作为暂定广播电台,与所述博客建立对应而存储在博客数据库中;以及
广播电台确定部,在所述标签出现数据库中存储的博客亦即在规定的时刻范围内被写入的博客的文字列中出现的标签的个数超过了规定的阈值时,参照所述博客数据库而对文字列中包含所述标签的博客所提及的节目的暂定广播电台进行累计,以累计结果为基础,确定对所述博客所提及的节目进行广播的广播电台。
2.根据权利要求1所述的推定装置,其特征在于,
还包括节目推定部,参照存储有各广播电台广播的节目的广播时间段的节目信息数据库,在所述广播电台确定部确定的广播电台广播的节目中,以在所述节目的广播时间段中被写入的所述博客的文字列中出现的所述标签的个数为基础,推定所述标签所示的节目,将所述标签与推定出的节目建立对应而存储在标签节目数据库中。
3.根据权利要求2所述的推定装置,其特征在于,
还包括节目信息改写部,该节目信息改写部将存储在所述标签出现数据库中的博客亦即在规定的时刻范围内被写入的博客中的、包含所述节目推定部推定了节目的标签的博客与所述节目及所述广播电台确定部确定了的广播电台建立对应,存储在所述博客数据库中。
4.根据权利要求2或3所述的推定装置,其特征在于,
还包括节目信息设定部,该节目信息设定部在经由网络收集到的博客的文字列中包含所述节目推定部与节目建立了对应的标签时,以所述博客被写入的时刻处于标签的规定的时刻范围的情况为条件,将与所述标签建立了对应的节目及广播所述节目的广播电台与所述博客建立对应,存储在所述博客数据库中。
5.一种推定方法,其特征在于,使处理器执行如下步骤:
经由网络收集包括个人向网站写入的文字列和写入该文字列的时刻信息在内的博客,抽取在所述博客的文字列中出现的标签,将所述博客与抽取的标签建立对应而存储在标签出现数据库中的步骤;
以出现在所述博客的文字列中的特征词为基础,推定对在所述博客中提及的节目进行广播的广播电台,将推定到的广播电台作为暂定广播电台,与所述博客建立对应而存储在博客数据库中的步骤;以及
在所述标签出现数据库中存储的博客亦即在规定的时刻范围内被写入的博客的文字列中出现的标签的个数超过了规定的阈值时,参照所述博客数据库而对文字列中包含所述标签的博客所提及的节目的暂定广播电台进行累计,以累计结果为基础,确定对所述博客所提及的节目进行广播的广播电台的步骤。
6.一种程序,其特征在于,使计算机实现如下功能:
经由网络收集包括个人向网站写入的文字列和写入该文字列的时刻信息在内的博客,抽取在所述博客的文字列中出现的标签,将所述博客与抽取的标签建立对应而存储在标签出现数据库中的功能;
以出现在所述博客的文字列中的特征词为基础,推定对在所述博客中提及的节目进行广播的广播电台,将推定到的广播电台作为暂定广播电台,与所述博客建立对应而存储在博客数据库中的功能;以及
在所述标签出现数据库中存储的博客亦即在规定的时刻范围内被写入的博客的文字列中出现的标签的个数超过了规定的阈值时,参照所述博客数据库而对文字列中包含所述标签的博客所提及的节目的暂定广播电台进行累计,以累计结果为基础,确定对所述博客所提及的节目进行广播的广播电台的功能。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010-261775 | 2010-11-24 | ||
JP2010261775 | 2010-11-24 | ||
JP2011-215271 | 2011-09-29 | ||
JP2011215271A JP2012129982A (ja) | 2010-11-24 | 2011-09-29 | 推定装置、推定方法、並びにプログラム |
PCT/JP2011/005735 WO2012070182A1 (ja) | 2010-11-24 | 2011-10-13 | 推定装置、推定方法、並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102822821A true CN102822821A (zh) | 2012-12-12 |
Family
ID=46145556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011800158325A Pending CN102822821A (zh) | 2010-11-24 | 2011-10-13 | 推定装置、推定方法及程序 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20130013625A1 (zh) |
EP (1) | EP2573688A4 (zh) |
JP (1) | JP2012129982A (zh) |
KR (1) | KR101381138B1 (zh) |
CN (1) | CN102822821A (zh) |
WO (1) | WO2012070182A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5950737B2 (ja) * | 2012-07-18 | 2016-07-13 | 日本放送協会 | 情報抽出装置及びプログラム |
JP5723844B2 (ja) * | 2012-10-01 | 2015-05-27 | シャープ株式会社 | 情報通信システムおよび携帯端末装置 |
RU2595524C2 (ru) * | 2014-09-29 | 2016-08-27 | Общество С Ограниченной Ответственностью "Яндекс" | Устройство и способ обработки содержимого веб-ресурса в браузере |
JP6889323B2 (ja) * | 2019-07-16 | 2021-06-18 | 株式会社 ディー・エヌ・エー | ライブ動画を配信するためのシステム、方法、及びプログラム |
KR20220031551A (ko) | 2019-07-16 | 2022-03-11 | 가부시키가이샤 디에누에 | 라이브 동영상을 배신하기 위한 시스템, 방법, 및 프로그램 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101047827A (zh) * | 2006-03-31 | 2007-10-03 | 富士通株式会社 | 用于采集广播节目信息的电子设备、方法和系统以及存储介质 |
US20080215607A1 (en) * | 2007-03-02 | 2008-09-04 | Umbria, Inc. | Tribe or group-based analysis of social media including generating intelligence from a tribe's weblogs or blogs |
US20090037387A1 (en) * | 2007-08-02 | 2009-02-05 | Alticast Corp. | Method for providing contents and system therefor |
US20100185578A1 (en) * | 2009-01-22 | 2010-07-22 | Nec Laboratories America, Inc. | Social network analysis with prior knowledge and non-negative tensor factorization |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040268403A1 (en) * | 2003-06-26 | 2004-12-30 | Microsoft Corporation | Context-sensitive television tags |
JP4333516B2 (ja) * | 2004-08-05 | 2009-09-16 | ソニー株式会社 | 記録制御装置および方法、並びにプログラム |
US8055715B2 (en) * | 2005-02-01 | 2011-11-08 | i365 MetaLINCS | Thread identification and classification |
JP2008099172A (ja) * | 2006-10-16 | 2008-04-24 | Sony Corp | 記録装置および方法、並びにプログラム |
JP2008124861A (ja) | 2006-11-14 | 2008-05-29 | Funai Electric Co Ltd | テレビジョン放送視聴システム及びテレビジョン放送受信装置 |
US7519658B1 (en) * | 2008-05-02 | 2009-04-14 | International Business Machines Corporation | Automatic blogging during media viewing |
US9165085B2 (en) * | 2009-11-06 | 2015-10-20 | Kipcast Corporation | System and method for publishing aggregated content on mobile devices |
-
2011
- 2011-09-29 JP JP2011215271A patent/JP2012129982A/ja not_active Abandoned
- 2011-10-13 CN CN2011800158325A patent/CN102822821A/zh active Pending
- 2011-10-13 KR KR1020127025031A patent/KR101381138B1/ko active IP Right Grant
- 2011-10-13 EP EP11843976.9A patent/EP2573688A4/en not_active Withdrawn
- 2011-10-13 WO PCT/JP2011/005735 patent/WO2012070182A1/ja active Application Filing
-
2012
- 2012-09-12 US US13/612,161 patent/US20130013625A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101047827A (zh) * | 2006-03-31 | 2007-10-03 | 富士通株式会社 | 用于采集广播节目信息的电子设备、方法和系统以及存储介质 |
US20080215607A1 (en) * | 2007-03-02 | 2008-09-04 | Umbria, Inc. | Tribe or group-based analysis of social media including generating intelligence from a tribe's weblogs or blogs |
US20090037387A1 (en) * | 2007-08-02 | 2009-02-05 | Alticast Corp. | Method for providing contents and system therefor |
US20100185578A1 (en) * | 2009-01-22 | 2010-07-22 | Nec Laboratories America, Inc. | Social network analysis with prior knowledge and non-negative tensor factorization |
Also Published As
Publication number | Publication date |
---|---|
WO2012070182A1 (ja) | 2012-05-31 |
JP2012129982A (ja) | 2012-07-05 |
KR20120133387A (ko) | 2012-12-10 |
EP2573688A4 (en) | 2014-03-19 |
KR101381138B1 (ko) | 2014-04-10 |
EP2573688A1 (en) | 2013-03-27 |
US20130013625A1 (en) | 2013-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106331778B (zh) | 视频推荐方法和装置 | |
CN102822821A (zh) | 推定装置、推定方法及程序 | |
CN109756760B (zh) | 视频标签的生成方法、装置及服务器 | |
CN111159546B (zh) | 事件推送方法、装置、计算机可读存储介质和计算机设备 | |
CN109511015A (zh) | 多媒体资源推荐方法、装置、存储介质及设备 | |
CN103053156B (zh) | 区间制作装置、区间制作方法、及区间制作程序 | |
CN111447505A (zh) | 视频剪辑方法、网络设备及计算机可读存储介质 | |
CN102265276A (zh) | 基于上下文的推荐系统 | |
CN107885745A (zh) | 一种歌曲推荐方法及装置 | |
CN112597280A (zh) | 一种自动发现热点关键词和热点新闻的方法 | |
CN104462339B (zh) | 多媒体文件的推送方法及装置 | |
CN110881131B (zh) | 一种直播回看视频的分类方法及其相关装置 | |
CN110175264A (zh) | 视频用户画像的构建方法、服务器及计算机可读存储介质 | |
CN101156439A (zh) | 管理广播流的时间信息的方法和设备 | |
CN112307318A (zh) | 一种内容发布方法、系统及装置 | |
CN102007764B (zh) | 存储和显示广播内容的方法及其设备 | |
CN102970605A (zh) | 一种节目推荐方法 | |
CN106844679A (zh) | 一种有声书插图展示系统及方法 | |
JP2012150662A (ja) | 番組情報収集装置、映像表示装置、番組情報収集方法 | |
CN110971973A (zh) | 一种视频推送方法、装置及电子设备 | |
CN109525864B (zh) | 一种收视率排名方法及装置 | |
CN110019759A (zh) | 用户分群处理方法、装置、计算机设备和存储介质 | |
CN114385936A (zh) | 媒体内容收藏列表的更新方法、装置、设备及存储介质 | |
JP2018081390A (ja) | 録画装置 | |
JP2008236155A (ja) | 情報処理装置および方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C05 | Deemed withdrawal (patent law before 1993) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20121212 |