CN107169430B - 基于图像处理语义分析的阅读环境音效增强系统及方法 - Google Patents

基于图像处理语义分析的阅读环境音效增强系统及方法 Download PDF

Info

Publication number
CN107169430B
CN107169430B CN201710302291.3A CN201710302291A CN107169430B CN 107169430 B CN107169430 B CN 107169430B CN 201710302291 A CN201710302291 A CN 201710302291A CN 107169430 B CN107169430 B CN 107169430B
Authority
CN
China
Prior art keywords
reading
image
semantic
emotion
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710302291.3A
Other languages
English (en)
Other versions
CN107169430A (zh
Inventor
姚舜杰
楼婺丹
楼云江
陈雨景
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201710302291.3A priority Critical patent/CN107169430B/zh
Priority to PCT/CN2017/087228 priority patent/WO2018201548A1/zh
Priority to US16/469,774 priority patent/US10692480B2/en
Publication of CN107169430A publication Critical patent/CN107169430A/zh
Application granted granted Critical
Publication of CN107169430B publication Critical patent/CN107169430B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06T5/70
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/008Means for controlling the transition from one tone waveform to another
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/021Background music, e.g. for video sequences, elevator music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/085Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process

Abstract

本发明公开了一种基于图像处理和语义分析的阅读环境音效增强系统和方法。其中系统,包括图像获取装置以及处理装置,所述处理装置包括用于分别控制传输单元、存储单元和音频单元执行传输、储存和音频合成的运算单元。所述运算单元包括图像提取模块、文字识别模块、语义分析模块和音频合成模块。其中的方法包括图像提取、文字识别、语义分析、音频合成及音效增强步骤。本发明根据当前阅读的具体内容来选择场景音乐和情绪音乐,并通过音频合成及增强技术生成合适的背景音乐,更大程度上提供阅读者身临其境的阅读感受。

Description

基于图像处理语义分析的阅读环境音效增强系统及方法
技术领域
本发明涉及基于图像处理和语义分析配置阅读背景音乐和音效的系统及方法,尤其涉及一种方法,通过分析处理获取的阅读页面图像,确定阅读页中文本语义的环境及情绪属性,并根据该文本语义选择音乐和音效素材合成阅读背景音乐和音效,以获得阅读环境的音效增强效果。
背景技术
阅读文学作品、杂志、报纸时搭配相应的背景音效和音乐能增强现场体验感、提高阅读效率。利用节奏舒缓的音乐来刺激大脑,可以消除心理压力,使读者注意力集中、同时增强大脑活力。如果播放节奏缓慢的古典音乐,读者的记忆力可以提高百分之五十;如果根据文章内容搭配情景音乐音效,还能够产生印象深刻的阅读体验。
在阅读背景音乐的智能化选择方面,现有的方法是建立一个阅读物库和一个背景音乐库,根据阅读物的总体内容,事先人工确定好对应的背景音乐曲目,建立阅读物和背景音乐曲目的对应关系。一旦读者选择阅读某份阅读物,系统就自动提取对应的背景音乐曲目并予以播放。该系统的缺点首先是阅读物的数量受限,读者不能阅读不在该库的阅读物;其次,系统只能提供数量有限的背景音乐,而不能提供体现环境、场景特征的音效,缺乏阅读的身临其境感;第三,由于音乐曲目只是在总体上与阅读物的内容相匹配,因此在具体章节上会存在该音乐不能适应阅读物情境,甚至与阅读物情境相矛盾的情况。因此,现有的阅读背景音乐系统软硬件产品还存在很大的不足,不能实时识别阅读物的文本并确定阅读内容的实时场景和情绪,不能提供反映阅读内容场景和情绪的音效和音乐,阅读的愉悦感一般,阅读的身临其境感很差。
发明内容
本发明提出一种基于图像处理和语义分析的阅读环境音效增强系统及方法,根据当前阅读的实时内容匹配场景音效和情绪音乐,并通过音频合成及增强技术生成合适的背景音效,更大程度上提高阅读者身临其境的阅读感受。
本发明采用的技术方案一方面为一种基于图像处理和语义分析的阅读环境音效增强系统,包括图像获取装置以及处理装置。图像获取装置用于获取用户的实时阅读内容的图像。处理装置包括传输单元、存储单元和音频单元和用于控制传输单元、存储单元和音频单元分别执行传输、储存和音频合成的运算单元。所述运算单元包括:图像提取模块,用于接收所述图像获取装置的输入信号,然后转换为图像信号;文字识别模块,用于处理该图像信号使之清晰且易于识别,通过该图像信号识别文字,将识别出的文字储存于缓存文本中,在该文本中将文字进行分类;语义分析模块,用于识别分类后的文字语义,分别提取环境语义词及情绪语义词,然后将环境语义词及情绪语义词分别比对背景音乐库,获得环境背景音效和情绪背景音乐;音频合成模块,用于将背景音效和音乐进行音频合成及音效增强。
进一步,其中所述的图像获取装置包括摄像头和/或智能阅读设备的文字截取工具,该文字截取工具包括屏幕截图工具、文字内存读取工具或阅读软件API调用工具。
进一步,其中所述图像获取装置通过一个或多个配件附属在用户的耳机、眼镜或可穿戴设备上。
进一步,其中所述系统还包括设置于所述图像获取装置中的第二运算单元,其中该第二运算单元包括:图像预处理模块,用于对获取的图像执行阅读目标区域的标定以及对阅读目标区域图像进行截取、校正、去噪和二值化处理;传输模块,用于通过无线方式对预处理的图像进行压缩传输。
进一步,其中所述语义分析模块包括:词语切分器,用于调用统计语言模型对语段进行切分,生成多个切分词语,然后为每个切分词语计算权重值和情绪评分值;主题模型求解器,用于通过随机采样方法计算隐含狄利克雷模型(LDA)主题模型的最优解来表示各个切分词语的分类;词语特征提取器,用于对文本串的词语进行特征词分类,提取文本串中的环境词和情绪词。
进一步,其中所述音频合成模块包括:时域记录器,用于根据采集的图像的阅读目标区域的文字变化,记录一个或多个阅读时间节点,并且当累积的情绪评分值超过预设的阈值时记录一个或多个情绪时间节点,每个情绪时间节点与相应的情绪词在文段中的位置对应,然后将所述阅读时间节点和情绪时间节点整合生成时域控制条;混音器,用于根据所述时域控制条,通过包含有衰减因子的饱和器将背景音乐和音效的音频信号在时域上进行叠加。
本发明采用的技术方案另一方面为一种基于图像处理和语义分析的阅读环境音效增强方法,包括以下步骤:
S1、提供一语义知识库,该语义库包含背景语义集,该背景语义集包括环境语义集和情绪语义集,该环境语义集及情绪语义集包含条件词;
S2、接收输入信号,转换图像信息,其中输入的图像信号包括电子设备的屏幕截图或者纸质书籍的页面照片;
S3、处理该图像信号使之清晰且易于识别,通过该图像信号识别文字,将识别出的文字储存于缓存文本中,在该文本中将文字进行分类;
S4、识别分类后的文字语义,分别提取环境语义词及情绪语义词;
S5、该环境语义词及情绪语义词分别比对背景音乐/音效库,获得环境和情绪的背景音乐与音效;
S6、根据背景音乐/音效进行音频合成及音效增强,供音频输出设备播放合成后的音频。
进一步,其中所述步骤S3还包括:处理图像信号,其包括图像校正,去噪处理过程。文字识别包括文字细化,连通域数字化和线段直线化处理。
进一步,其中所述步骤S5还包括:调用统计语言模型对语段进行切分,生成多个切分词语,然后为每个切分词语计算权重值和情绪评分值;通过随机采样方法计算隐含狄利克雷模型(LDA)主题模型的最优解来表示各个切分词语的分类;对文本串的词语进行特征词分类,提取文本串中的环境词和情绪词;使各个切分词语结合条件词匹配对应的音乐素材。
进一步,其中所述步骤S6还包括:根据采集的图像的阅读目标区域的文字变化,记录一个或多个阅读时间节点,并且当累积的情绪评分值超过预设的阈值时记录一个或多个情绪时间节点,每个情绪时间节点与相应的情绪词在文段中的位置对应;将所述阅读时间节点和情绪时间节点整合生成时域控制条;根据所述时域控制条,通过包含有衰减因子的饱和器将背景音乐和音效音乐的音频信号在时域上进行叠加。
本发明的有益效果为:提出的阅读音效增强系统和方法,采用图像识别、文字分类和场景关键词分析的方法,能够根据当前阅读的具体内容来实时匹配场景音效和情绪音乐,并通过音频合成及增强技术生成背景音效,通过音频输出设备予以播放,不仅极具趣味性,还能提供阅读者身临其境的阅读感受,深化对所读内容的理解;并且,结合机器学习的语义识别,以及根据时间采用改进时域叠加混音方式,提高了识别准确度和实时性,解决了阅读和音效同步的问题。
附图说明
图1所示为根据本发明的系统的示意性框图;
图2所示为根据本发明的系统的进一步示意性框图;
图3至5所示为根据本发明的系统的多个具体的实施例;
图6所示为根据本发明的方法的流程图;
图7所示为根据本发明的方法的实施例中的语义知识库框图;
图8所示为根据本发明的方法的实施例中的图像采集及预处理过程的示意图;
图9所示为根据本发明的方法的实施例中的文字识别过程的示意图;
图10所示为根据本发明的方法的实施例中的从词语提取至音频合成的过程的示意图;
图11所示为根据本发明的方法的词语提取过程的具体实施例;
图12和13所示为根据本发明的方法的生成阅读时间节点过程的具体实施例;
图14所示为根据本发明的方法的生成情绪时间节点过程的具体实施例;
图15所示为根据阅读时间节点和情绪时间节点并且基于时域叠加的方式进行音频合成的具体实施例。
具体实施方式
在下文中,将参照附图更详细地解释本发明。
参照图1,在一实施例中,根据本发明的系统可以包括摄像头1、处理装置2、人机交互设备3和配件5。音频输出设备4可以包含在该系统中,也可以是用户自己提供的设备。所述处理装置2包括用于与摄像头1和音频输出设备4通信连接的传输单元21,用于储存数据的存储单元23,用于执行音频合成与音效增强的音频单元24,以及分别与传输单元21、存储单元23和音频单元24连接的运算单元22。优选地,所述传输单元21通过内部传输线路或蓝牙与摄像头1和音频输出设备4通信。所述存储单元23包括RAM、ROM或任何公知的存储设备,用于提供运算内存支持和储存音乐文件。所述音频单元24可以实施为音频解码编码芯片。所述运算单元22可以实施为低功耗型微处理芯片。用户可以通过人机交互设备3输入指令和获知处理装置2的运行信息。所述配件5用于将摄像头1定向至阅读方向,以及用于支撑音频输出设备4。
进一步参照附图2,在存储单元23中储存有语义知识库,包含背景音乐和音效音乐文件的音乐库。运算单元22包括图像提取模块,用于接收摄像头的输入信号,然后转换为图像信号;文字识别模块,用于处理该图像信号使之清晰且易于识别,通过该图像信号识别文字,将识别出的文字储存于缓存文本中,在该文本中将文字进行分类;语义分析模块,用于识别分类后的文字语义,分别提取环境语义词及情绪语义词,然后将环境语义词及情绪语义词分别比对背景音乐库,获得环境背景音乐及情绪背景音乐;和音频合成模块,用于根据背景音乐进行音频合成及音效增强。
图3至5所示为根据本发明的系统的多个具体的实施例。其中阅读介质6可以是纸质媒体、智能手机、电子纸阅读器(比如亚马逊的kindle阅读器)等。这样,所述处理装置2可以设置在阅读器内,或者至少一部分的处理装置2设置在图像获取装置内。比如,可以在图像获取装置中设置第二运算单元,用于对捕获的图像执行阅读目标区域的标定以及对阅读目标区域图像进行截取、校正、去噪和二值化处理。这样经过预处理后的图像可以大幅度地压缩体积,便于通过蓝牙等方式进行无线传输。
参照图6所示的根据本发明的方法的流程图。
S1、提供一语义知识库,该语义库包含背景语义集,该背景语义集包括环境语义集和情绪语义集,该环境语义集及情绪语义集包含条件词;
S2、接收输入信号,转换图像信息,其中输入的图像信号包括电子设备的屏幕截图或者纸质书籍的页面照片;
S3、处理该图像信号使之清晰且易于识别,通过该图像信号识别文字,将识别出的文字储存于缓存文本中,在该文本中将文字进行分类;
S4、识别分类后的文字语义,分别提取环境语义词及情绪语义词;
S5、该环境语义词及情绪语义词分别比对背景音乐库,获得环境背景音乐及情绪背景音乐;
S6、根据背景音乐进行音频合成及音效增强,供音频输出设备播放合成后的音频。
步骤S1“建立语义知识库”具体实现方式如下:
如图7所示,为了设计基于图像处理和语义分析配置的阅读背景音乐系统,对语义知识库中词语代表概念精确的建模和辨识是非常重要的步骤。完整的建模过程应该包括:背景语义集的词语分类,近义词和同义词的分类,音乐素材分类,词语概念匹配对应音乐素材等。
背景语义集包括环境语义集和情绪语义集。环境语义集存储若干环境相关的条件词语,例如,时间、地点、人物、声响以及天气等,可以切实反映当前检测的词语所描述的背景状态。声响可以包括动物叫声、人声鼎沸的背景声等,天气包括打雷、下雨等。情绪语义集存储若干情绪相关的条件词语,例如,高兴、激情、紧张、恐惧等。
近义词和同义词分类即为环境语义集和情绪语义集中词条的近义词及同义词的分类库,扩充匹配范围。近义词和同义词库存储若干词条的同义词及近义词,例如,在环境语义集中,存在一条词条为大海,用于描述当前环境为大海,则在该词条对应的近义词和同义词库中,存储同义词如海里、海上,近义词如海边、海滩等;在情绪语义集中,存在一条词条为高兴,用于描述当前氛围为高兴,则在该词条对应的近义词和同义词库中,存储同义词如开心、愉快,近义词如快乐、欣喜等。
音乐素材分类根据环境语义集和情绪语义集的分类后,按照音乐所表现的特点将素材归类到背景语义集中。
对于实际系统,建立完整的语义知识库是非常困难的。一般分为两个部分:(1)通过建立简化模型来实现对背景语义集的组建;(2)对于未识别的词汇在联网后采用机器学习的方法训练匹配词义,再重新扩充背景语义集。
步骤S2“输入图像信号”具体实现方式如下:
接收输入信号,输入信号为图像信号。其中,图像信号包括电子书阅读设备的图像或纸质书的图像。具体的,电子书阅读设备的图像可以通过屏幕截图的方式获得,纸质书的图像可以通过摄像头采集得到。图片是从摄像机、手机、或者电子阅读设备等获得,经过图片的预处理,如图8所示。预处理的最基本目的有三点:(1)校正图片,使图片行与水平平行。(2)图片二值化处理。(3)尽可能的去掉噪点。
步骤S3“文字识别”具体实现方式如下:
文字识别的流程如图9所示。笔画扫描计算特征码直接影响识别率,是识别程序的核心部分。特征码一旦计算处理,直接查询数据库中特征码对应的文字编码,就可以输出文本文字了。
采用文字几何特征扫描的方式,能够深入挖掘文字的特征。其算法处理流程为:
(1)文字细化,用一个个像素的宽度来表示图片的文字笔画,提取文字的骨架。特征码扫描的第一步骤是将文字进行细化,提取出文字的骨架,即使用用一个像素的宽度来表示图片的文字笔画。细化算法的思想是一层层的剥掉原来的图像边缘冗余的像素,但还要保持图片整体骨架不变,联通性不变。本文采样了相对成熟的Zhang细化算法,该算法首先设定前景色像素为1,背景色像素为0。像素和周边像素的关系如同九宫格所示。定义边界点为P1,而P2-P9为其8领域的8个点。显然临界的边节点具有8领域中至少一个点的像素是0的特征。Zhang细化算法处理后的图片,只剩下用单个像素表示的骨架。
(2)连通域数字化过程,可以认为是将图片上的单像素宽度的文字图片提取出用坐标、方向、以及与邻接点的关系用数值表示处理。
(3)线段直线化。在上面的处理后,已经将图片转化为以段段的线段表示了,由于细化算法等原因,可能原本是一条横线的笔画,中间也会存在几个小波折的线段。为了整合这些小的波折线段,已及更容易制定特征码,把小波折线段调整整合成直线线段。
(4)计算特征码。特征码的计算,指的是用一串数字来表示当前字形的结构。经过线段直线化后,文字的纹理就非常清晰,可以较容易的进行特征码的计算。
步骤S4“语义分析”具体实现方式如下:
语义分析包括文本基本处理和文本语义分析两个部分,分别描述如下:
(1)文本基本处理。拿到一段文本后,通常情况下,首先要做分词。这里采用全切分方法。首先切分出与词库匹配的所有可能的词,再运用统计语言模型决定最优的切分结果。它的优点在于可以解决切分词语中的歧义问题。在一个实例中,对于文本串“深圳市大梅沙海滩”,首先进行词条检索,找到匹配的所有词条(深圳,市,大梅沙,海滩,深圳市,大梅沙,大梅,梅,沙海),以词网格形式表示,接着做路径搜索,基于统计语言模型n-gram找到最优路径,最后可能还需要命名实体识别。“深圳市大梅沙海滩”的语言模型得分,即P(深圳市,大梅沙,海滩)最高,则为最优切分。
文本分词后需要对切分词语后的每个终端计算一个权重,重要的终端应该给与更高的权重。利用有监督机器学习方法来预测权重。这里类似于机器学习的分类任务,对于文本串的每个终端,预测一个[0,1]的得分,得分越大则终端重要性越高。既然是有监督学习,那么就需要训练数据。如果采用人工标注的话,极大耗费人力,所以可以采用训练数据自提取的方法,利用程序从搜索日志里自动挖掘。从海量日志数据里提取隐含的用户对于终端重要性的标注,得到的训练数据将综合亿级用户的“标注结果”,覆盖面更广,且来自于真实搜索数据,训练结果与标注的目标集分布接近,训练数据更精确。
短文本串的核心词提取。对短文本串分词后,利用上面介绍的终端权重方法,获取终端权重后,取一定的阈值,就可以提取出短文本串的核心词。
(2)文本语义分析。对一个文本串进行分词和重要性打分后,可以开始高层的语义分析任务,包括主题模型,文本分类两个部分。主题模型采用Gibbs Sampling方法寻求隐含狄利克雷模型(LDA)主题模型的最优解,其最优解表示词的分类情况。随后在文本分类中,采用训练过的词语特征提取器,对文本串的词语进行特征词分类,将文本串中的环境词和情绪词提取出来。
步骤S5“音乐素材匹配”具体实现方式如下:
采用基于统计特征的方法,分别统计常见的场景描述词语以及常见的情绪描述词语,通过字面匹配的方式,提取文中的关键词。匹配的操作方式可以分为3类:(1)精确匹配,匹配条件是在步骤S4中所提取的关键词与背景语义集中的词条进行匹配,二者字面完全一致时才能通过匹配。(2)短语匹配,匹配条件是步骤S4中所提取的关键词与背景语义集中的近义词和同义词词条进行匹配(颠倒,同义等)才能通过匹配。例如,关键词为“大海”,则以下词语“海面”、“海上”、“海洋”都能跟大海匹配,选择大海为背景的阅读背景音乐。(3)广泛匹配,当使用广泛匹配时,关键词只需高度相关,也可能在筛选的范围之内。例如“鲨鱼”这个词语,就会直接关联到“大海”这个背景词语。
根据步骤S1所搭建的背景语义集及其对应的音乐素材库,可以选出对应的环境音乐素材和情绪音乐素材。
步骤S6“音频合成及音效增强”具体实现方式如下:
音频信号处理的特点如下:(1)音频信号是时间依赖的连续媒体。因此音频处理的时序性要求很高,如果在时间上有25ms的延迟,人就会感到断续。(2)理想的合成声音应是立体声。由于人接收声音有两个通道(左耳、右耳),因此计算机模拟自然声音也应有两个声道,即立体声。(3)由于语音信号不仅仅是声音的载体,同时情感等信息也包含其中,因此对语音信号的处理,要抽取语意等其它信息。
实际应用中,混音方案分为以下几类:(1)时域叠加混音。该类混音方法是直接将多段音频信号在时域上进行叠加,但是数字音频信号存在量化上限和下限的问题,容易造成溢出。(2)溢出检测混音。该方法在时域叠加的基础上,采用饱和器,当检测到信号超过上限时,结果被置为上限,超过下限时结果被置为下限。但是这种做法破坏了语音信号原有的时域特征和连续性,容易出现爆破声和语音不连续的现象。(3)改进的时域叠加方案。该方法在时域叠加混音的基础上,加入了衰减因子,其中n为混叠语音流的数量。该方法可以保证混叠后的语音信号不会溢出。然后在步骤S5选取的音乐素材基础上,采用改进的时域叠加方案进行音频合成。
图11所示为根据本发明的方法的词语提取过程的一个具体实施例。下面以此文章识别的背景词和情绪词来示例性说明本发明的时域控制和音频合成过程。
图12和13所示为根据本发明的方法的生成阅读时间节点过程。图12所示为传统纸质阅读介质的情况,根据阅读对象(在本实施例中为书本)在阅读区域VA的移动情况来判断读者读到文章的哪个位置。图13所示为通过阅读设备内部的程序协议获得阅读位置。这种情况更容易掌握读者的阅读位置。比如可以通过界面SC更直接了解当前阅读到哪里,还可以根据分节符br和结束符号ed来辨别文章位置。
图14所示为根据本发明的方法的生成情绪时间节点。其中根据识别关键词在文章的位置来划分时间节点,还依据每个词的情绪评分累积超过预设阈值来定义情绪折点。然后可以根据阅读时间节点和情绪时间节点并且基于时域叠加的方式进行音频合成。如图15所示。根据不同的情绪,可以寻找音乐素材库,加入对应的音效,比如在惊恐的时候加入鼓击乐以承托紧张气氛。还可以调节EQ来增强高频或低频,以获得更震撼的效果。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作-根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
进一步,该方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims (8)

1.一种基于图像处理和语义分析的阅读环境音效增强系统,其特征在于包括
用于获取用户的阅读图像的图像获取装置,以及
处理装置,所述处理装置包括用于分别控制传输单元、存储单元和音频单元执行传输、储存和音频合成的运算单元,
其中,所述的图像获取装置包括摄像头和/或智能阅读设备的文字截取工具,
其中,所述运算单元包括:
图像提取模块,用于接收所述图像获取装置的输入信号,然后转换为图像信号;
文字识别模块,用于处理该图像信号使之清晰且易于识别,通过该图像信号识别文字,将识别出的文字储存于缓存文本中,在该文本中将文字进行分类;
语义分析模块,用于识别分类后的文字语义,分别提取环境语义词及情绪语义词,然后将环境语义词及情绪语义词分别比对背景音乐库,获得环境背景音乐及情绪背景音乐,所述的语义分析模块包括:词语切分器,用于调用词库和统计语言模型对语段以全切分方式切分多个词语,然后为每个切分的词语计算权重值和情绪评分值;主题模型求解器,用于通过随机采样方法计算隐含狄利克雷模型的主题模型的最优解来表示各个切分词语的分类;和
音频合成模块,用于根据背景音乐进行音频合成及音效增强,所述的音频合成模块包括:
时域记录器,用于根据采集的图像的阅读目标区域的文字变化,记录一个或多个阅读时间节点,并且当累积的情绪评分值超过预设的阈值时记录一个或多个情绪时间节点,每个情绪时间节点与相应的情绪词在文段中的位置对应,然后将所述阅读时间节点和情绪时间节点整合生成时域控制条,其中所述的阅读目标区域的文字变化包括阅读设备的界面的文字中出现的分节符及结束符的变化;
混音器,用于根据所述时域控制条,通过包含有衰减因子的饱和器将背景音乐和音效音乐的音频信号在时域上进行叠加。
2.根据权利要求1所述的基于图像处理和语义分析的阅读环境音效增强系统,其中所述的文字截取工具包括屏幕截图工具、文字内存读取工具或阅读软件应用程序编程接口(API)调用工具。
3.根据权利要求1所述的基于图像处理和语义分析的阅读环境音效增强系统,其中所述图像获取装置通过一个或多个配件附属在用户的耳机、眼镜或可穿戴设备上。
4.根据权利要求3所述的基于图像处理和语义分析的阅读环境音效增强系统,其中所述系统还包括设置于所述图像获取装置中的第二运算单元,其中该第二运算单元包括:
图像预处理模块,用于对捕获的图像执行阅读目标区域的标定以及对阅读目标区域图像进行截取、校正、去噪和二值化处理;
传输模块,用于通过无线方式对预处理的图像进行压缩传输。
5.根据权利要求1所述的基于图像处理和语义分析的阅读环境音效增强系统,其中所述语义分析模块还包括:
词语特征提取器,用于对文本串的词语进行特征词分类,提取文本串中的环境词和情绪词。
6.一种基于图像处理和语义分析的阅读环境音效增强现实方法,其特征在于,包括以下步骤:
S1、提供一语义知识库,该语义知识库包含背景语义集,该背景语义集包括环境语义集和情绪语义集,该环境语义集及情绪语义集包含条件词;
S2、接收输入信号,转换图像信息,其中输入的图像信号包括电子设备的屏幕截图或者纸质书籍的页面照片;
S3、处理该图像信号使之清晰且易于识别,通过该图像信号识别文字,将识别出的文字储存于缓存文本中,在该文本中将文字进行分类;
S4、识别分类后的文字语义,分别提取环境语义词及情绪语义词;
S5、该环境语义词及情绪语义词分别比对背景音乐库,获得环境背景音乐及情绪背景音乐;
S6、根据背景音乐进行音频合成及音效增强,供音频输出设备播放合成后的音频;
其中,所述步骤S5还包括调用词库和统计语言模型对语段以全切分方式切分多个词语,然后为每个切分词语计算权重值和情绪评分值,通过随机采样方法计算隐含狄利克雷模型主题模型的最优解来表示各个切分词语的分类;
其中,所述步骤S6还包括:
根据采集的图像的阅读目标区域的文字变化,记录一个或多个阅读时间节点,并且当累积的情绪评分值超过预设的阈值时记录一个或多个情绪时间节点,每个情绪时间节点与相应的情绪词在文段中的位置对应,其中所述的阅读目标区域的文字变化包括阅读设备的界面的文字中出现的分节符及结束符的变化;
将所述阅读时间节点和情绪时间节点整合生成时域控制条;
根据所述时域控制条,通过包含有衰减因子的饱和器将背景音乐和音效音乐的音频信号在时域上进行叠加。
7.根据权利要求6所述的基于语义分析的阅读环境音效增强现实方法,其中所述步骤S3包括:
处理图像信号包括图像校正,去噪处理过程; 文字识别包括文字细化,连通域数字化和线段直线化处理。
8.根据权利要求6所述的基于图像处理和语义分析的阅读环境音效增强现实方法,其中所述步骤S5还包括:
对文本串的词语进行特征词分类,提取文本串中的环境词和情绪词;
使各个切分词语结合条件词匹配对应的音乐素材。
CN201710302291.3A 2017-05-02 2017-05-02 基于图像处理语义分析的阅读环境音效增强系统及方法 Active CN107169430B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710302291.3A CN107169430B (zh) 2017-05-02 2017-05-02 基于图像处理语义分析的阅读环境音效增强系统及方法
PCT/CN2017/087228 WO2018201548A1 (zh) 2017-05-02 2017-06-06 基于图像处理语义分析的阅读环境音效增强系统及方法
US16/469,774 US10692480B2 (en) 2017-05-02 2017-06-06 System and method of reading environment sound enhancement based on image processing and semantic analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710302291.3A CN107169430B (zh) 2017-05-02 2017-05-02 基于图像处理语义分析的阅读环境音效增强系统及方法

Publications (2)

Publication Number Publication Date
CN107169430A CN107169430A (zh) 2017-09-15
CN107169430B true CN107169430B (zh) 2020-12-01

Family

ID=59814002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710302291.3A Active CN107169430B (zh) 2017-05-02 2017-05-02 基于图像处理语义分析的阅读环境音效增强系统及方法

Country Status (3)

Country Link
US (1) US10692480B2 (zh)
CN (1) CN107169430B (zh)
WO (1) WO2018201548A1 (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169430B (zh) 2017-05-02 2020-12-01 哈尔滨工业大学深圳研究生院 基于图像处理语义分析的阅读环境音效增强系统及方法
CN109599079B (zh) * 2017-09-30 2022-09-23 腾讯科技(深圳)有限公司 一种音乐的生成方法和装置
CN107885855B (zh) * 2017-11-15 2021-07-13 福州掌易通信息技术有限公司 基于智能终端的动态漫画生成方法及系统
CN107967476B (zh) * 2017-12-05 2021-09-10 北京工业大学 一种图像转声音的方法
CN108010512B (zh) * 2017-12-05 2021-04-30 广东小天才科技有限公司 一种音效的获取方法及录音终端
CN108665888A (zh) * 2018-05-11 2018-10-16 西安石油大学 一种将书面符号、图像转换成音频数据的系统及方法
CN109035368A (zh) * 2018-07-03 2018-12-18 百度在线网络技术(北京)有限公司 用于ar场景的信息处理方法、装置、设备及存储介质
CN109065018B (zh) * 2018-08-22 2021-09-10 北京光年无限科技有限公司 一种面向智能机器人的故事数据处理方法及系统
KR102579452B1 (ko) * 2018-09-05 2023-09-15 삼성전자주식회사 영상 표시 장치 및 그 동작방법
CN111104545A (zh) * 2018-10-26 2020-05-05 阿里巴巴集团控股有限公司 背景音乐的配置方法、设备、客户端装置及电子设备
CN111104544A (zh) * 2018-10-29 2020-05-05 阿里巴巴集团控股有限公司 背景音乐的推荐方法、设备、客户端装置及电子设备
CN109473106B (zh) * 2018-11-12 2023-04-28 平安科技(深圳)有限公司 声纹样本采集方法、装置、计算机设备及存储介质
CN109994000B (zh) * 2019-03-28 2021-10-19 掌阅科技股份有限公司 一种伴读方法、电子设备及计算机存储介质
US11210470B2 (en) * 2019-03-28 2021-12-28 Adobe Inc. Automatic text segmentation based on relevant context
KR20190092326A (ko) * 2019-07-18 2019-08-07 엘지전자 주식회사 음성 제공 방법 및 음성 제공 장치를 제어하는 지능형 컴퓨팅 디바이스
CN110853606A (zh) * 2019-11-26 2020-02-28 Oppo广东移动通信有限公司 一种音效配置方法、装置及计算机可读存储介质
CN111416971B (zh) * 2020-03-30 2022-11-15 咪咕视讯科技有限公司 一种控制方法、控制系统、电子设备及可读存储介质
CN113641115A (zh) * 2020-04-27 2021-11-12 青岛海尔空调器有限总公司 智慧阅读场景的环境控制方法及系统
CN111767740A (zh) * 2020-06-23 2020-10-13 北京字节跳动网络技术有限公司 音效添加方法和装置、存储介质和电子设备
CN111782576B (zh) * 2020-07-07 2021-10-15 北京字节跳动网络技术有限公司 背景音乐的生成方法、装置、可读介质、电子设备
CN112040335A (zh) * 2020-08-14 2020-12-04 苏州思萃人工智能研究所有限公司 人工智能音效创作及视频适配的方法与系统
CN112541078A (zh) * 2020-12-10 2021-03-23 平安科技(深圳)有限公司 新闻智能播报方法、装置、设备及存储介质
CN114745349B (zh) * 2021-01-08 2023-12-26 上海博泰悦臻网络技术服务有限公司 一种点评方法、电子设备及计算机可读存储介质
CN113709384A (zh) * 2021-03-04 2021-11-26 腾讯科技(深圳)有限公司 基于深度学习的视频剪辑方法、相关设备及存储介质
WO2022217438A1 (zh) * 2021-04-12 2022-10-20 苏州思萃人工智能研究所有限公司 基于人工智能视频理解的视频音乐适配方法与系统
US20220335974A1 (en) * 2021-04-15 2022-10-20 Artiphon, Inc. Multimedia music creation using visual input
CN113656643A (zh) * 2021-08-20 2021-11-16 珠海九松科技有限公司 一种使用ai分析观影心情的算法
CN114512113B (zh) * 2022-04-11 2023-04-04 科大讯飞(苏州)科技有限公司 一种音频合成方法及相关方法和设备
CN115379256A (zh) * 2022-08-19 2022-11-22 深圳市长丰影像器材有限公司 一种音频调整方法、装置、电子设备和存储介质
CN116504206B (zh) * 2023-03-18 2024-02-20 深圳市狼视天下科技有限公司 一种识别环境并生成音乐的摄像头

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918222A (en) * 1995-03-17 1999-06-29 Kabushiki Kaisha Toshiba Information disclosing apparatus and multi-modal information input/output system
US7996753B1 (en) * 2004-05-10 2011-08-09 Google Inc. Method and system for automatically creating an image advertisement
US8156123B2 (en) * 2004-06-25 2012-04-10 Apple Inc. Method and apparatus for processing metadata
WO2008032329A2 (en) * 2006-09-13 2008-03-20 Alon Atsmon Providing content responsive to multimedia signals
US9666227B2 (en) 2011-07-26 2017-05-30 Booktrack Holdings Limited Soundtrack for electronic text
CN103020082B (zh) * 2011-09-23 2016-10-05 北京北大方正电子有限公司 一种阅读处理系统和方法、服务器、终端设备
US10009644B2 (en) * 2012-12-04 2018-06-26 Interaxon Inc System and method for enhancing content using brain-state data
CN104166689B (zh) * 2014-07-28 2018-04-06 小米科技有限责任公司 电子书籍的呈现方法及装置
US10298876B2 (en) * 2014-11-07 2019-05-21 Sony Corporation Information processing system, control method, and storage medium
CN104991708B (zh) 2015-07-22 2018-04-10 北京奇虎科技有限公司 电子阅读设备及其阅读场景自适应配置方法
CN105335455A (zh) * 2015-08-28 2016-02-17 广东小天才科技有限公司 一种阅读文字的方法及装置
US20180032305A1 (en) * 2016-07-29 2018-02-01 Paul Charles Cameron Systems and methods for automatic-creation of soundtracks for text
CN106341549A (zh) * 2016-10-14 2017-01-18 努比亚技术有限公司 一种移动终端有声阅读装置及方法
EP3577651A1 (en) * 2017-02-06 2019-12-11 Kodak Alaris Inc. Method for creating audio tracks for accompanying visual imagery
CN207115329U (zh) * 2017-03-27 2018-03-16 哈尔滨工业大学深圳研究生院 佩戴式的阅读环境音效增强现实系统
CN107169430B (zh) 2017-05-02 2020-12-01 哈尔滨工业大学深圳研究生院 基于图像处理语义分析的阅读环境音效增强系统及方法

Also Published As

Publication number Publication date
CN107169430A (zh) 2017-09-15
US10692480B2 (en) 2020-06-23
WO2018201548A1 (zh) 2018-11-08
US20200135158A1 (en) 2020-04-30

Similar Documents

Publication Publication Date Title
CN107169430B (zh) 基于图像处理语义分析的阅读环境音效增强系统及方法
CN111198958A (zh) 匹配背景音乐的方法、装置及终端
CN104703043A (zh) 一种添加视频特效的方法和装置
CN110517689A (zh) 一种语音数据处理方法、装置及存储介质
CN109660865B (zh) 为视频自动打视频标签的方法及装置、介质和电子设备
CN113850162B (zh) 一种视频审核方法、装置及电子设备
CN114465737B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN103546623A (zh) 用于发送语音信息及其文本描述信息的方法、装置与设备
CN111144360A (zh) 多模信息识别方法、装置、存储介质及电子设备
CN104217718A (zh) 依据环境参数及群体趋向数据的语音识别方法和系统
CN116645624A (zh) 视频内容理解方法和系统、计算机设备、存储介质
CN110910898B (zh) 一种语音信息处理的方法和装置
CN114996506A (zh) 语料生成方法、装置、电子设备和计算机可读存储介质
JPWO2018016143A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN112328830A (zh) 一种基于深度学习的信息定位方法及相关设备
CN114125506B (zh) 语音审核方法及装置
CN110781327B (zh) 图像搜索方法、装置、终端设备及存储介质
CN107180629B (zh) 一种语音采集识别方法与系统
CN115798459A (zh) 音频处理方法、装置、存储介质及电子设备
CN112235183B (zh) 通信消息处理方法、设备及即时通信客户端
KR100348901B1 (ko) 오디오/영상물의 음향적 장면분할방법
KR102148021B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치
CN116561294A (zh) 手语视频的生成方法、装置、计算机设备及存储介质
CN113689633A (zh) 一种景区人机交互方法、装置及系统
CN113762056A (zh) 演唱视频识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant