JP6672399B2 - Electronics - Google Patents

Electronics Download PDF

Info

Publication number
JP6672399B2
JP6672399B2 JP2018152416A JP2018152416A JP6672399B2 JP 6672399 B2 JP6672399 B2 JP 6672399B2 JP 2018152416 A JP2018152416 A JP 2018152416A JP 2018152416 A JP2018152416 A JP 2018152416A JP 6672399 B2 JP6672399 B2 JP 6672399B2
Authority
JP
Japan
Prior art keywords
speaker
utterance section
voice
recording
displayed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018152416A
Other languages
Japanese (ja)
Other versions
JP2018205765A (en
Inventor
隆一 山口
隆一 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dynabook Inc
Original Assignee
Dynabook Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dynabook Inc filed Critical Dynabook Inc
Priority to JP2018152416A priority Critical patent/JP6672399B2/en
Publication of JP2018205765A publication Critical patent/JP2018205765A/en
Application granted granted Critical
Publication of JP6672399B2 publication Critical patent/JP6672399B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明の実施形態は、電子機器に関する。   An embodiment of the present invention relates to an electronic device.

近年、タブレットやスマートフォンなど、バッテリ駆動可能で携行容易な電子機器が広く普及している。この種の電子機器は、表示面に触れることで入力操作を可能とするタッチスクリーンディスプレイを備えていることが一般的である。また、この種の電子機器の多くは、マイクロフォンとスピーカとを備えており、例えば会議での会話を録音・再生するためのレコーダとして利用することができる。   In recent years, battery-driven and portable electronic devices such as tablets and smartphones have become widespread. An electronic device of this type generally includes a touch screen display that enables an input operation by touching a display surface. Many of such electronic devices include a microphone and a speaker, and can be used as, for example, a recorder for recording and playing back a conversation in a conference.

特開2007−256498号公報JP 2007-256498 A

現在、音声を解析して話者を識別する様々な手法が知られている。これらの手法で話者を識別することにより、例えば、会議の議事録を作成するために、その会議での会話を録音した音声を再生する場合等において、誰の発言なのかを視覚的に確認可能とする表示画面を提供することができる。つまり、会議の議事録の作成等を支援すべく、音声を可視化することができる。   At present, various techniques for analyzing a voice to identify a speaker are known. By identifying speakers using these methods, it is possible to visually confirm who is speaking, for example, in the case of playing back a recorded voice of a conversation at that meeting in order to create the minutes of the meeting. A display screen that can be provided can be provided. That is, the audio can be visualized to support the preparation of the minutes of the meeting.

しかしながら、話者の識別は、録音環境等の様々な影響により、100%の精度で実行できるとはいえない。同一人物の音声が複数の人物の音声と識別されたり、逆に、複数の人物の音声が同一人物の音声と識別されたり等が発生し得る。   However, it cannot be said that speaker identification can be performed with 100% accuracy due to various effects such as a recording environment. Voices of the same person may be identified as voices of a plurality of people, and conversely, voices of a plurality of people may be identified as voices of the same person.

本発明が解決しようとする課題は、再生される音声データのデータ量と、現在の再生位置を目視することができ、更に再生中の音声データの話者を認識することができる電子機器を提供することである。   SUMMARY OF THE INVENTION An object of the present invention is to provide an electronic device capable of visually observing a data amount of audio data to be reproduced and a current reproduction position, and further capable of recognizing a speaker of the audio data being reproduced. It is to be.

実施形態によれば、電子機器は、タッチパネルを有するディスプレイと、音声データを記憶する不揮発性メモリと、音声録音再生プログラムを実行して、前記不揮発性メモリに記憶した前記音声データを再生するための再生画面を前記ディスプレイに表示して再生するプロセッサと、を具備する。前記再生画面は、再生される前記音声データのタイムバーを表示する第1の領域と、前記音声データの前記タイムバーの一部の区間であって、発話した話者をそれぞれ識別可能に表示される発話区間バーを表示する第2の領域と、前記第2の領域の再生中の前記発話区間バーに重ねて表示される再生時点を示すラインと、前記音声データの録音の際に識別した複数の話者に対応する話者マークであって、前記発話区間バーの編集操作に用いる前記話者マークが表示される特定エリアと、を有する。前記プロセッサは、前記再生時点を示すラインに位置する前記発話区間バーを再生中に、当該発話区間バーの話者に対応する前記話者マークの近くに発話マークを表示する。 According to the embodiment, the electronic device has a display having a touch panel, a non-volatile memory that stores audio data, and an audio recording / reproducing program for executing the audio recording / reproducing program to reproduce the audio data stored in the non-volatile memory. And a processor for displaying a reproduction screen on the display and reproducing the same. The reproduction screen is a first area for displaying a time bar of the audio data to be reproduced, and a part of the time bar of the audio data, and is displayed so as to be able to identify a speaker who has spoken. A second area for displaying an utterance section bar, a line indicating a reproduction time point superimposed on the utterance section bar being reproduced in the second area, and a plurality of lines identified at the time of recording the audio data. And a specific area in which the speaker mark used for editing the utterance section bar is displayed . The processor displays an utterance mark near the speaker mark corresponding to the speaker of the utterance section bar during reproduction of the utterance section bar located on the line indicating the reproduction time point.

実施形態の電子機器の外観の一例を示す図。FIG. 2 is an exemplary view showing an example of an appearance of the electronic apparatus of the embodiment. 実施形態の電子機器のシステム構成の一例を示す図。FIG. 1 is an exemplary view showing an example of a system configuration of an electronic apparatus according to an embodiment. 実施形態の電子機器上で動作する音声録音再生プログラムの機能構成(機能ブロック)の一例を示す図。FIG. 4 is an exemplary view showing an example of a functional configuration (functional block) of a voice recording / reproducing program which operates on the electronic apparatus of the embodiment. 実施形態の電子機器上で動作する音声録音再生プログラムによって表示される表示画面の一覧を示す図。FIG. 4 is an exemplary view showing a list of display screens displayed by a voice recording / reproducing program which operates on the electronic apparatus of the embodiment. 実施形態の電子機器上で動作する音声録音再生プログラムによって表示されるホーム画面の一例を示す図。FIG. 5 is an exemplary view showing an example of a home screen displayed by a voice recording / reproducing program which operates on the electronic apparatus of the embodiment. 実施形態の電子機器上で動作する音声録音再生プログラムによって表示される録音画面の一例を示す図。FIG. 4 is an exemplary view showing an example of a recording screen displayed by a voice recording / reproducing program which operates on the electronic apparatus of the embodiment. 実施形態の電子機器上で動作する音声録音再生プログラムによって表示される再生画面の一例を示す図。FIG. 4 is an exemplary view showing an example of a playback screen displayed by a voice recording / playback program operating on the electronic apparatus of the embodiment. 実施形態の電子機器で動作する音声録音再生プログラムが話者統合用に提供するユーザインタフェースを説明するための第1の図。FIG. 2 is an exemplary first diagram for describing a user interface provided for speaker integration by a voice recording / reproducing program which operates on the electronic apparatus of the embodiment. 実施形態の電子機器で動作する音声録音再生プログラムが話者統合用に提供するユーザインタフェースを説明するための第2の図。FIG. 2 is an exemplary second diagram for describing a user interface provided for speaker integration by a voice recording / reproducing program that operates on the electronic apparatus of the embodiment. 実施形態の電子機器で動作する音声録音再生プログラムが話者統合用に提供するユーザインタフェースを説明するための第3の図。FIG. 9 is an exemplary third diagram illustrating a user interface provided for speaker integration by the voice recording / reproducing program operating on the electronic apparatus of the embodiment. 実施形態の電子機器で動作する音声録音再生プログラムが話者分割用に提供するユーザインタフェースを説明するための第1の図。FIG. 3 is an exemplary first diagram for describing a user interface provided for speaker division by a voice recording / reproducing program which operates on the electronic apparatus of the embodiment. 実施形態の電子機器で動作する音声録音再生プログラムが話者分割用に提供するユーザインタフェースを説明するための第2の図。FIG. 2 is an exemplary second diagram for describing a user interface provided for speaker division by a voice recording / reproducing program which operates on the electronic apparatus of the embodiment. 実施形態の電子機器で動作する音声録音再生プログラムが話者分割用に提供するユーザインタフェースを説明するための第3の図。FIG. 9 is an exemplary third diagram for describing a user interface provided by the voice recording / reproducing program which operates on the electronic apparatus of the embodiment for speaker division. 実施形態の電子機器の話者統合または話者分割に関する動作手順を示すフローチャート。9 is an exemplary flowchart illustrating an operation procedure regarding speaker integration or speaker division of the electronic apparatus of the embodiment.

以下、実施の形態について図面を参照して説明する。   Hereinafter, embodiments will be described with reference to the drawings.

本実施形態の電子機器は、例えば、タブレット、スマートフォン、PDA(Personal Digital assistant)等として実現し得る。なお、ここでは、本電子機器が、タブレットとして実現される場合を想定する。また、以下に説明する要素や構成は、ハードウェアを用いて実現できるが、マイクロコンピュータ(処理装置、CPU(Central Processing Unit))を用いるソフトウェアによっても実現できる。   The electronic device of the present embodiment can be realized as, for example, a tablet, a smartphone, a PDA (Personal Digital assistant), or the like. Here, it is assumed that the present electronic device is realized as a tablet. The elements and configurations described below can be realized using hardware, but can also be realized using software using a microcomputer (processing device, CPU (Central Processing Unit)).

図1は、タブレット1の外観の一例を示す図である。図1に示すように、タブレット1は、本体ユニット(PC本体)10とタッチスクリーンディスプレイ20とを含む。   FIG. 1 is a diagram illustrating an example of the external appearance of the tablet 1. As shown in FIG. 1, the tablet 1 includes a main unit (PC main body) 10 and a touch screen display 20.

PC本体10の所定の位置には、タッチスクリーンディスプレイ20に面する撮影の対象、例えばユーザやユーザとその背景またはユーザの周囲に位置に位置する物体等の情報を映像(画像情報)として取り込むカメラユニット11が位置する。PC本体10の所定の位置には、また、ユーザまたはユーザとその周囲に居る任意数の人の音声または周辺の音(音響)を取り込む第1および第2のマイクロフォン12R,12Lが位置する。第1および第2のマイクロフォン12R,12Lは、例えばカメラユニット11を仮想的中心とし、カメラユニット11から実質的に等距離に位置する。なお、本実施形態では、マイクロフォンが2つ設けられた形態を例示するが、設けられるマイクロフォンは1つであってもよい。   A camera that captures, as a video (image information), a predetermined position of the PC main body 10 as an image (image information) of an object to be photographed facing the touch screen display 20, for example, a user, a user and its background, or an object located at a position around the user. The unit 11 is located. At predetermined positions of the PC main body 10, first and second microphones 12R and 12L that capture the voice of a user or an arbitrary number of people around the user or surrounding sounds (sounds) are also located. The first and second microphones 12R and 12L are located substantially equidistant from the camera unit 11, for example, with the camera unit 11 as a virtual center. Note that, in the present embodiment, a form in which two microphones are provided is illustrated, but one microphone may be provided.

また、PC本体10の所定の位置には、PC本体10が保持する音声/音響データ(以下、音声データと称する)を再生するスピーカ13R,13Lが位置する。なお、PC本体10の所定の位置には、詳述しないが、電源オンスイッチ(パワーボタン)、ロック機構および認証ユニット等が位置する。パワーボタンは、タブレット1の利用を可能とする(タブレット1を起動する)ための電源のオン/オフを制御する。ロック機構は、例えば持ち運び時のパワーボタンの動作をロックする。認証ユニットは、例えばユーザを認証するために、ユーザの指や手のひらと関連付けられる(生体)情報を読み取る。   Further, speakers 13R and 13L for reproducing voice / sound data (hereinafter referred to as voice data) held by the PC main body 10 are located at predetermined positions of the PC main body 10. Although not described in detail, a power-on switch (power button), a lock mechanism, an authentication unit, and the like are located at predetermined positions of the PC body 10. The power button controls power on / off for enabling use of the tablet 1 (starting up the tablet 1). The lock mechanism locks, for example, the operation of the power button when being carried. The authentication unit reads (biological) information associated with the user's finger or palm, for example, to authenticate the user.

タッチスクリーンディスプレイ20は、液晶表示ユニット(LCD(Liquid Crystal Display)/表示ユニット)21と、タッチパネル(指示入力受けつけユニット)22とを含む。タッチパネル22は、少なくともLCD21の表示面(画面)を覆うように、PC本体10の所定の位置に位置する。   The touch screen display 20 includes a liquid crystal display unit (LCD (Liquid Crystal Display) / display unit) 21 and a touch panel (instruction input receiving unit) 22. The touch panel 22 is located at a predetermined position on the PC body 10 so as to cover at least the display surface (screen) of the LCD 21.

タッチスクリーンディスプレイ20は、外部オブジェクト(タッチペンまたはユーザの手の指等)が接触する表示画面上の指示入力位置(タッチ位置または接触位置)を検知する。タッチスクリーンディスプレイ20は、また、同時に複数の指示入力位置を検知可能なマルチタッチ機能を有する(サポートしている)。なお、外部オブジェクトは、前述の通り、タッチペンやユーザの指等、いずれでもよいが、以降の説明では、ユーザの指を例示して説明を行う。   The touch screen display 20 detects an instruction input position (touch position or contact position) on the display screen where an external object (such as a touch pen or a finger of a user's hand) contacts. The touch screen display 20 also has (supports) a multi-touch function capable of simultaneously detecting a plurality of instruction input positions. As described above, the external object may be any of a touch pen, a user's finger, and the like. However, in the following description, the user's finger will be described as an example.

タッチスクリーンディスプレイ20は、また、タブレット1における各種アプリケーションプログラムの画面や画像(オブジェクト)を表示するメインディスプレイとして使用される。なお、タッチスクリーンディスプレイ20は、PC本体10の起動時に、ユーザが起動しようとする任意のアプリケーションプログラムの実行開始(起動)を外部オブジェクトによる指示入力にて受け付け、任意数の起動されたアプリケーションプログラムについてのアイコンを表示する。また、タッチスクリーンディスプレイ20の表示画面の向きは、横向き(ランドスケープ)と縦向き(ポートレート)との間で切り替えることができ、図1は、ランドスケープ時の起動完了画面の表示の一例を示している。   The touch screen display 20 is used as a main display for displaying screens and images (objects) of various application programs in the tablet 1. Note that, when the PC body 10 is started, the touch screen display 20 receives an execution start (start) of an arbitrary application program to be started by the user by inputting an instruction from an external object, and receives an arbitrary number of started application programs. Display the icon of. The orientation of the display screen of the touch screen display 20 can be switched between landscape (landscape) and portrait (portrait). FIG. 1 shows an example of a display of a startup completion screen at the time of landscape. I have.

図2に、タブレット1のシステム構成の一例を示す。   FIG. 2 shows an example of a system configuration of the tablet 1.

図2に示すように、タブレット1は、CPU101、システムコントローラ102、主メモリ103、グラフィクスコントローラ104、サウンドコントローラ105、BIOS−ROM106、不揮発性メモリ107、EEPROM108、LANコントローラ109、無線LANコントローラ110、バイブレータ111、加速度センサ112、オーディオキャプチャ(ボード)113、エンベデッドコントローラ(EC:Embedded Contoller)114等を備える。   As shown in FIG. 2, the tablet 1 includes a CPU 101, a system controller 102, a main memory 103, a graphics controller 104, a sound controller 105, a BIOS-ROM 106, a nonvolatile memory 107, an EEPROM 108, a LAN controller 109, a wireless LAN controller 110, and a vibrator. 111, an acceleration sensor 112, an audio capture (board) 113, an embedded controller (EC: Embedded Controller) 114, and the like.

CPU101は、PC本体10とタッチスクリーンディスプレイ20の各部の動作を制御する。すなわち、CPU101は、不揮発性メモリ107から主メモリ103にロードされるオペレーティングシステム(OS)201および各種アプリケーションプログラムを実行する。各種アプリケーションプログラムの1つとして、後述する音声録音再生プログラム202が存在する。音声録音再生プログラム202は、OS201の制御下で実行されるソフトウェアである。音声録音再生プログラム202は、例えば1チップマイコン等により構成する音声録音再生プロセッサ121を用いてハードウェアにより実現することもできる。   The CPU 101 controls the operation of each unit of the PC body 10 and the touch screen display 20. That is, the CPU 101 executes the operating system (OS) 201 and various application programs loaded from the nonvolatile memory 107 to the main memory 103. As one of various application programs, there is an audio recording / reproducing program 202 described later. The voice recording / playback program 202 is software executed under the control of the OS 201. The voice recording / reproducing program 202 can also be realized by hardware using a voice recording / reproducing processor 121 constituted by, for example, a one-chip microcomputer or the like.

CPU101は、また、BIOS−ROM106に格納されたBIOSも実行する。BIOSは、ハードウェア制御のためのプログラムである。   The CPU 101 also executes the BIOS stored in the BIOS-ROM 106. The BIOS is a program for controlling hardware.

システムコントローラ102は、CPU101のローカルバスと各種コンポーネントとの間を接続するデバイスである。システムコントローラ102は、主メモリ103をアクセス制御するメモリコントローラも内蔵されている。また、システムコントローラ102は、PCI EXPRESS規格のシリアルバスなどを介してグラフィクスコントローラ104との通信を実行する機能も有している。   The system controller 102 is a device that connects between a local bus of the CPU 101 and various components. The system controller 102 also has a built-in memory controller for controlling access to the main memory 103. Further, the system controller 102 also has a function of executing communication with the graphics controller 104 via a PCI EXPRESS standard serial bus or the like.

システムコントローラ102は、また、不揮発性メモリ107を制御するためのATAコントローラを内蔵している。システムコントローラ102は、さらに、各種USBデバイスを制御するためのUSBコントローラを内蔵している。また、システムコントローラ102は、サウンドコントローラ105およびオーディオキャプチャ113との通信を実行する機能も有している。なお、カメラユニット11が取得(撮影)する画像データ(動画/静止画)は、カメラユニット11において所定のフォーマットに変換され、システムコントローラ102を通じて主メモリ103上で動作する画像処理プログラムに供給される。カメラユニット11からの画像データは、ユーザの要求に応じて起動する、カメラユニット11からの画像データに対応するフォーマットの画像を再生可能な画像処理プログラムにおいて再生され、LCD21に表示される。また、カメラユニット11からの画像データは、例えば不揮発性メモリ107が保持できる。   The system controller 102 also has a built-in ATA controller for controlling the nonvolatile memory 107. The system controller 102 further incorporates a USB controller for controlling various USB devices. Further, the system controller 102 has a function of executing communication with the sound controller 105 and the audio capture 113. The image data (moving image / still image) acquired (photographed) by the camera unit 11 is converted into a predetermined format in the camera unit 11 and supplied to an image processing program operating on the main memory 103 via the system controller 102. . The image data from the camera unit 11 is reproduced by an image processing program that starts in response to a user request and that can reproduce an image in a format corresponding to the image data from the camera unit 11, and is displayed on the LCD 21. The image data from the camera unit 11 can be stored in, for example, the nonvolatile memory 107.

グラフィクスコントローラ104は、PC本体10のタッチスクリーンディスプレイ20のLCD21を制御する表示コントローラである。グラフィクスコントローラ104が生成する表示信号がLCD21に送られ、LCD21は、表示信号に基づいて映像を表示する。LCD21上に位置するタッチパネル22は、LCD21の画面上での表示に対応する入力信号を入力するためのポインティングデバイス(ユーザ操作指示入力機構)である。ユーザは、タッチパネル22により、LCD21の画面に表示されたグラフィカルユーザインタフェース(GUI)等にユーザ操作、即ち指示入力を入力することができ、これによりPC本体10を操作することができる。つまり、ユーザは、タッチパネル22を通じてLCD21が表示する起動アイコンやLCD21が表示するボタンをタッチすることで、起動アイコンやボタンに対応する機能の実行を指示することができる。   The graphics controller 104 is a display controller that controls the LCD 21 of the touch screen display 20 of the PC body 10. A display signal generated by the graphics controller 104 is sent to the LCD 21, and the LCD 21 displays an image based on the display signal. The touch panel 22 located on the LCD 21 is a pointing device (user operation instruction input mechanism) for inputting an input signal corresponding to a display on the screen of the LCD 21. The user can input a user operation to a graphical user interface (GUI) or the like displayed on the screen of the LCD 21 using the touch panel 22, that is, can input an instruction, thereby operating the PC body 10. That is, the user can instruct execution of a function corresponding to the start icon or the button by touching the start icon displayed on the LCD 21 or the button displayed by the LCD 21 through the touch panel 22.

サウンドコントローラ105は、音源デバイスであり、再生対象の音声データをアナログ出力に変換した後、スピーカ13R,13Lに出力する。   The sound controller 105 is a sound source device, converts audio data to be reproduced into an analog output, and outputs the analog output to the speakers 13R and 13L.

LANコントローラ109は、例えばIEEE 802.3規格の有線通信を実行する有線通信デバイスである。無線LANコントローラ110は、例えばIEEE 802.11規格の無線通信を実行する無線通信デバイスである。   The LAN controller 109 is, for example, a wired communication device that performs wired communication according to the IEEE 802.3 standard. The wireless LAN controller 110 is, for example, a wireless communication device that executes wireless communication according to the IEEE 802.11 standard.

バイブレータ111は、PC本体10に対し、必要に応じて振動(バイブレーション)を与える。   The vibrator 111 applies vibration (vibration) to the PC main body 10 as necessary.

加速度センサ112は、タッチスクリーンディスプレイ20の表示画面のポートレートとランドスケープとの間の切り換えのためのPC本体10の回転や、ユーザの指の動きのうちの衝撃の強さ等を検出する。   The acceleration sensor 112 detects the rotation of the PC main body 10 for switching between the portrait and the landscape of the display screen of the touch screen display 20, and the strength of the impact of the movement of the finger of the user.

オーディオキャプチャ113は、マイクロフォン12R(例えばカメラユニット11の右側に位置する)および12L(カメラユニット11の左側に位置する)のそれぞれが取得する音声または音響(オーディオ)をアナログ−デジタル変換し、デジタル信号を出力する。オーディオキャプチャ113は、また、どちらのマイクロフォン12R,12Lへの入力信号のレベルが大きいかを示す情報を、主メモリ103上で動作する音声録音再生プログラム202へ、システムコントローラ102を通じて入力する。オーディオキャプチャ113は、音声録音再生プログラム202において利用可能な所定の前処理の一部または全部を担うことも可能である。   The audio capture 113 performs analog-to-digital conversion of voice or sound (audio) obtained by each of the microphones 12R (for example, located on the right side of the camera unit 11) and 12L (located on the left side of the camera unit 11), and outputs a digital signal. Is output. The audio capture 113 also inputs, via the system controller 102, information indicating which of the microphones 12R and 12L the level of the input signal is higher to the audio recording / reproducing program 202 operating on the main memory 103. The audio capture 113 can also perform some or all of the predetermined preprocessing that can be used in the audio recording / playback program 202.

EC114は、電力管理のためのエンベデッドコントローラを含む1チップマイクロコンピュータである。EC114は、また、ユーザによるパワーボタンの操作に応じたPC本体10の電源のオン/電源オフを制御する。   The EC 114 is a one-chip microcomputer including an embedded controller for power management. The EC 114 also controls on / off of the power of the PC main body 10 according to the operation of the power button by the user.

図3は、このような構成を持つタブレット1上で動作する音声録音再生プログラム202の機能構成(機能ブロック)の一例を示す図である。   FIG. 3 is a diagram showing an example of a functional configuration (functional block) of the audio recording / reproducing program 202 operating on the tablet 1 having such a configuration.

音声録音再生プログラム202は、音声の録音、保存された音声の再生および保存された音声の編集機能を有している。音声録音再生プログラム202は、同プログラムを実行するための機能モジュールとして、タッチ情報受信部310、制御部320、音声再生処理部330および表示処理部340を少なくとも備える。   The voice recording / playback program 202 has functions of recording voice, playing back stored voice, and editing stored voice. The voice recording / playback program 202 includes at least a touch information receiving unit 310, a control unit 320, a voice playback processing unit 330, and a display processing unit 340 as functional modules for executing the program.

タッチ情報受信部310は、ユーザの指示(ユーザの指の動作)のある毎に、第1の座標情報、第2の座標情報およびユーザの指の動きの情報を、タッチパネルドライバ201Aを経由してタッチパネル22から受け取り、制御部320に出力する。第1の座標情報は、ユーザの指がタッチパネル22の表示面の任意の位置に触れた位置の座標情報(x,y)である。第2の座標情報は、ユーザの指がタッチパネル22の表示面から離れた位置の座標情報(x´,y´)である。ユーザの指の動き情報は、第1の座標情報(x,y)と第2の座標情報(x´,y´)との間のユーザの指の動き、または、第2の座標情報に付属するユーザの指の動き、例えば指が離れる際の方向の情報等を含む。   The touch information receiving unit 310 transmits the first coordinate information, the second coordinate information, and the information of the user's finger movement through the touch panel driver 201A every time there is a user's instruction (the movement of the user's finger). It is received from the touch panel 22 and output to the control unit 320. The first coordinate information is coordinate information (x, y) of a position where the user's finger touches an arbitrary position on the display surface of the touch panel 22. The second coordinate information is coordinate information (x ′, y ′) at a position where the user's finger is separated from the display surface of the touch panel 22. The movement information of the user's finger is the movement of the user's finger between the first coordinate information (x, y) and the second coordinate information (x ′, y ′), or attached to the second coordinate information. Of the user's finger, for example, information on the direction in which the finger separates.

なお、本実施形態でのユーザの操作入力(ユーザの指の動作)とその呼称は、以下の通りとする。   Note that the user's operation input (the movement of the user's finger) and its name in the present embodiment are as follows.

[1] タッチ:ユーザの指が一定期間、タッチパネル22の表示面上の所定の位置に位置する(第1の座標情報と第2の座標情報が実質的に同一であって、一定時間経過後、表示面とほぼ直交する方向に離される)。   [1] Touch: The user's finger is located at a predetermined position on the display surface of the touch panel 22 for a certain period of time (when the first coordinate information and the second coordinate information are substantially the same and a certain time has elapsed) , In a direction substantially perpendicular to the display surface).

[2] タップ:ユーザの指がタッチパネル22の表示面上に任意の位置に所定時間触れた後、表示面と直交する方向に離される(タッチと同義に扱われる場合もある)。   [2] Tap: After a user's finger touches an arbitrary position on the display surface of the touch panel 22 for a predetermined time, the user's finger is released in a direction orthogonal to the display surface (may be treated as a touch).

[3] スワイプ:ユーザの指がタッチパネル22の表示面の任意の位置に触れた後、任意の方向に移動する(第1の座標情報と第2の座標情報との間に指の動き情報を含む、つまり表示面をなぞるようにユーザの指が表示面を移動する)。   [3] Swipe: The user's finger moves in an arbitrary direction after touching an arbitrary position on the display surface of the touch panel 22 (the finger movement information is set between the first coordinate information and the second coordinate information). In other words, the user's finger moves on the display surface so as to trace the display surface).

[4] フリック:ユーザの指がタッチパネル22の表示面の任意の位置に触れた後、任意の方向に向けて掃われるように移動し、表示面から離される(タップにおいてユーザの指が表示面から離れる際に、方向の情報を伴う)。   [4] Flick: After the user's finger touches an arbitrary position on the display surface of the touch panel 22, it moves so as to be swept in an arbitrary direction and is separated from the display surface (the user's finger touches the display surface at the tap). With direction information when leaving).

[5] ピンチ:ユーザの2本の指がタッチパネル22の任意の位置に触れた後、表示面で指の間隔を変更する。特に、指の間隔を広げる(指を開く)場合をピンチアウト、指の間隔を狭める(指を閉じる)場合をピンチインと称する場合もある。   [5] Pinch: After the user's two fingers touch an arbitrary position on the touch panel 22, the distance between the fingers is changed on the display surface. In particular, a case where the distance between fingers is widened (opening the finger) may be referred to as pinch-out, and a case where the distance between fingers is reduced (closed finger) may be referred to as pinch-in.

制御部320は、タッチ情報受信部310が出力する第1の座標情報、第2の座標情報およびユーザの指の動き情報に基づいて、前述の[1]−[5]のユーザの指の動きの情報により特定されるユーザの動作(ユーザの指示入力)に対応する動作を行う。制御部320は、以下に説明するキーボードモードまたはマウスモードのどちらの動作モードにおいても、タッチ情報受信部310からの第1の座標情報、第2の座標情報およびユーザの指の動き情報に基づいて、ユーザの指示入力に対応する動作を行う。なお、この場合、タッチ[1]は、タップ[2]に準じた動作であってもよいが、本実施形態では、制御部320は、実質的にタッチに引き続きタッチパネル22の表示面上をユーザの指が移動することをスワイプ[3]と判定するものとする。また、制御部320は、ユーザの指がタッチパネル22上の移動から離れる位置の座標情報(x´,y´)を受け取った場合、スワイプ[3]またはフリック[4]と判定するものとする。制御部320は、タッチパネル22からの第1の座標情報、第2の座標情報およびユーザの指の動き情報に基づいて、タッチパネル22の表示面をユーザの指がなぞった(スワイプした)スワイプ長さ(指示区間長)も求めることができる。   The control unit 320 moves the user's finger [1] to [5] based on the first coordinate information, the second coordinate information, and the user's finger motion information output by the touch information receiving unit 310. Perform the operation corresponding to the user's operation (user's instruction input) specified by the information. The control unit 320 is based on the first coordinate information, the second coordinate information, and the movement information of the user's finger from the touch information reception unit 310 in any of the keyboard mode and the mouse mode described below. Perform an operation corresponding to the user's instruction input. Note that, in this case, the touch [1] may be an operation according to the tap [2], but in the present embodiment, the control unit 320 causes the user to substantially follow the touch on the display surface of the touch panel 22. Is determined to be a swipe [3]. When receiving the coordinate information (x ′, y ′) of the position where the user's finger moves away from the touch panel 22, the control unit 320 determines that the swipe [3] or the flick [4]. The control unit 320 determines the swipe length of the user's finger following (swiping) the display surface of the touch panel 22 based on the first coordinate information, the second coordinate information, and the movement information of the user's finger from the touch panel 22. (Designated section length) can also be obtained.

キーボードモードは、一般には、LCD21が表示するキーボード配列の画像に対するタッチパネル22からのタップに従い対応する個々のキーに固有の文字コードを出力することで、タッチスクリーンディスプレイ20を仮想キーボードとして利用することを可能とする。マウスモードは、タッチパネル22上の(指の)接触位置の移動に応じて、その接触位置の移動の方向および距離を示す相対座標データを出力する動作モードである。   The keyboard mode generally uses the touch screen display 20 as a virtual keyboard by outputting a character code unique to each corresponding key in accordance with a tap on the touch panel 22 with respect to an image of a keyboard arrangement displayed on the LCD 21. Make it possible. The mouse mode is an operation mode in which, in accordance with the movement of a contact position (of a finger) on the touch panel 22, relative coordinate data indicating the direction and distance of the movement of the contact position is output.

そして、ユーザがタッチパネル22の表示面に表示される所定のアイコン(またはボタン表示)のうちの音声録音再生アイコン290(図1参照)をタッチすると、ユーザの指の表示面の位置の座標情報に対応する音声録音再生アイコン290と関連付けられたアプリケーション、つまり音声録音再生プログラム202が起動される。   Then, when the user touches the voice recording / playback icon 290 (see FIG. 1) among predetermined icons (or button display) displayed on the display surface of the touch panel 22, the coordinate information of the position of the display surface of the user's finger is displayed. An application associated with the corresponding voice recording / playback icon 290, that is, the voice recording / playback program 202 is started.

制御部320は、音声録音再生プログラム202を実行するための機能モジュールとして、例えば話者識別部321、話者統合部322、話者分割部323等を含む。   The control unit 320 includes, for example, a speaker identification unit 321, a speaker integration unit 322, a speaker division unit 323, and the like as functional modules for executing the voice recording and reproduction program 202.

話者識別部321は、音声を解析して話者を識別するモジュールである。話者を識別する手法については、例えば特開2010−055103号公報(特許第5174068号公報)等に具体的な手法が詳細に説明されており、ここでは、その詳細については説明を割愛するが、本タブレット1では、話者識別部321が、例えば音声の入力方向に基づいて話者を識別する簡易的な手法(第1手法)と、音声の特徴に基づいて話者を識別する本格的な手法(第2手法)との2種類の手法を併せ持つ。音声の録音時、話者識別部321は、第1に、オーディオキャプチャ113から出力されるデジタル信号(音声)に対し、発話区間毎に話者を識別する処理を第1手法により即時的に実行する。なお、話者識別部321は、一定時間長未満の無音区間を挟んで同一話者の発話区間が存在する場合、これらを1つの発話区間として処理する。また、話者識別部321は、ある話者の発言中に一定時間長未満の他の話者の発言があった場合も、他の話者の発話区間を介在させず、ある話者の1つの発話区間とすべく処理する。この話者の識別結果に基づいた表示処理が、音声の録音時にリアルタイムに行われる。   The speaker identification unit 321 is a module that analyzes a voice to identify a speaker. For a method of identifying a speaker, a specific method is described in detail in, for example, Japanese Patent Application Laid-Open No. 2010-0555103 (Japanese Patent No. 5174068), and a detailed description thereof is omitted here. In the present tablet 1, the speaker identification unit 321 includes, for example, a simple method (first method) for identifying a speaker based on a voice input direction and a full-scale method for identifying a speaker based on characteristics of a voice. (The second technique). At the time of voice recording, first, the speaker identification unit 321 immediately executes a process of identifying a speaker for each utterance section in the digital signal (voice) output from the audio capture 113 by the first method. I do. Note that, when there is an utterance section of the same speaker across a silent section shorter than a certain time length, the speaker identification unit 321 processes these as one utterance section. Also, when a certain speaker speaks less than a certain length of time during the speech of a certain speaker, the speaker identification unit 321 does not intervene the speech section of the other speaker, and the one Processing is performed to make one utterance section. The display processing based on the speaker identification result is performed in real time when the voice is recorded.

オーディオキャプチャ113から出力されるデジタル信号(音声)は、例えば不揮発性メモリ107に音声データ401として保存される。話者識別部321は、第2に、バックグラウンド処理として、この音声データ401に対し、発話区間毎に話者を識別する処理を第2手法により改めて実行する。この話者の識別結果は、例えば不揮発性メモリ107にインデックスデータ402として保存される。音声の再生時には、このインデックスデータ402として保存される話者の識別結果に基づいた表示処理が行われる。   A digital signal (audio) output from the audio capture 113 is stored as audio data 401 in, for example, the nonvolatile memory 107. Second, the speaker identification unit 321 newly executes a process of identifying a speaker for each utterance section on the voice data 401 by a second method as background processing. The speaker identification result is stored as index data 402 in the nonvolatile memory 107, for example. At the time of voice reproduction, display processing is performed based on the speaker identification result stored as the index data 402.

話者統合部322は、同一人物の音声が複数の人物の音声と識別されている場合に、当該複数の人物の音声と識別されている音声を同一人物の音声として統合すべくインデックスデータ402を修正するためのモジュールである。また、話者分割部323は、複数の人物の音声が同一人物の音声と識別されている場合に、当該同一人物の音声と識別されている音声を複数の人物の音声として分割すべくインデックスデータ402を修正するためのモジュールである。本タブレット1は、話者統合部322および話者分割部323を備えて、ユーザが、話者識別部321による話者の識別の結果を簡単な操作で修正することのできるユーザインタフェースを提供する。   When the voice of the same person is identified as the voices of a plurality of persons, the speaker integrating unit 322 converts the index data 402 to integrate the voices identified as the voices of the plurality of persons as the voices of the same person. This is a module to modify. Further, when the voices of a plurality of persons are identified as the voices of the same person, the speaker dividing unit 323 is configured to divide the voice identified as the voices of the same person into voices of a plurality of persons. This is a module for modifying 402. The tablet 1 includes a speaker integration unit 322 and a speaker division unit 323, and provides a user interface that allows a user to correct the result of speaker identification by the speaker identification unit 321 with a simple operation. .

音声再生処理部330は、音声録音再生プログラム202において再生する音声出力信号を処理するモジュールである。音声再生処理部330は、サウンドコントローラ105に対して、録音時の話者の位置を擬似的に再現できるように、例えば再生中の音声データに対応する話者の位置を基に、スピーカ13Rおよびスピーカ13Lが出力する再生音声の出力割合を変更する制御を行うことができる。   The audio reproduction processing unit 330 is a module that processes an audio output signal reproduced in the audio recording and reproduction program 202. The audio reproduction processing unit 330 outputs the speaker 13R and the speaker 13R to the sound controller 105 based on, for example, the position of the speaker corresponding to the audio data being reproduced so that the sound controller 105 can reproduce the position of the speaker at the time of recording. Control for changing the output ratio of the reproduced sound output from the speaker 13L can be performed.

そして、表示処理部340は、PC本体10のタッチスクリーンディスプレイ20に表示される表示画面210(図1参照)内に様々な情報を表示するための表示信号を処理するモジュールである。   The display processing unit 340 is a module that processes display signals for displaying various information on the display screen 210 (see FIG. 1) displayed on the touch screen display 20 of the PC body 10.

次に、音声録音再生プログラム202の動作原理について、当該音声録音再生プログラム202によるPC本体10のタッチスクリーンディスプレイ20への表示画面210の一表示例を示しながら説明する。   Next, the operation principle of the voice recording / reproducing program 202 will be described with reference to an example of a display screen 210 displayed on the touch screen display 20 of the PC body 10 by the voice recording / reproducing program 202.

音声録音再生プログラム202は、図4に示すように、大きく分けて、ホーム画面210−1(図4の(a))、録音画面210−2(図4の(b))および再生画面210−3(図4の(c))の3種類の画面を表示する。   As shown in FIG. 4, the voice recording / reproducing program 202 is roughly divided into a home screen 210-1 (FIG. 4A), a recording screen 210-2 (FIG. 4B), and a reproduction screen 210-. 3 ((c) of FIG. 4) are displayed.

ホーム画面210−1は、音声録音再生プログラム202が起動時に表示する基本画面である。図5は、ホーム画面210−1(図4の(a))の拡大図である。   The home screen 210-1 is a basic screen displayed when the voice recording / reproducing program 202 is activated. FIG. 5 is an enlarged view of the home screen 210-1 ((a) of FIG. 4).

図5に示すように、ホーム画面210−1には、録音を開始するための録音ボタンa1と、録音済みの音声データ401の再生を開始するためのボタンの役割を兼ねる、録音済みの音声データ401を選択肢として提示するリストa2とが表示される。リストa2内における録音済みの音声データ401それぞれの表示領域(a3)には、例えば、録音開始時刻、録音終了時刻、録音時間等、ユーザが目的の音声データ401を選び出すための様々な情報が表示される。なお、ここでは、リストa2内に録音済みの音声データ401が1つのみ表示されているが、録画済みの音声データ401が複数存在する場合、それらすべてがリストa2内に垂直方向に並べられて表示される。リストa2の表示領域内に収まり切らない数の録音済みの音声データ401が存在する場合、その一部のみがリストa2内に表示され、リストa2の表示領域上での例えばスワイプまたはフリックにより、表示される録音済みの音声データ401が切り換わる(スクロール)。また、リストa2内での録画済みの音声データ401の並び順は、録音開始時刻の新しい順と録音開始時刻の古い順との間で切り替えることができる。   As shown in FIG. 5, on the home screen 210-1, recorded audio data which also functions as a recording button a1 for starting recording and a button for starting reproduction of the recorded audio data 401. A list a2 presenting 401 as an option is displayed. In the display area (a3) of each of the recorded audio data 401 in the list a2, various information for the user to select the target audio data 401, such as a recording start time, a recording end time, and a recording time, is displayed. Is done. Here, only one recorded audio data 401 is displayed in the list a2, but if there are a plurality of recorded audio data 401, all of them are arranged in the list a2 in the vertical direction. Is displayed. When there are a number of recorded audio data 401 that cannot be accommodated in the display area of the list a2, only a part thereof is displayed in the list a2, and displayed by, for example, swiping or flicking on the display area of the list a2. The recorded audio data 401 is switched (scroll). The arrangement order of the recorded audio data 401 in the list a2 can be switched between a new recording start time and an old recording start time.

このホーム画面210−1の録音ボタンa1にタッチまたはタップすることで、ユーザは、録音を開始することができる。録音画面210−2(図4の(b))は、音声録音再生プログラム202が録音中に表示する画面である。図6は、録音画面210−2(図4の(b))の拡大図である。   By touching or tapping the recording button a1 on the home screen 210-1, the user can start recording. The recording screen 210-2 ((b) in FIG. 4) is a screen displayed by the voice recording / reproducing program 202 during recording. FIG. 6 is an enlarged view of the recording screen 210-2 ((b) of FIG. 4).

図6中、符号b1で示されるラインは、現在時点を示す。このラインを基点に、話者が識別されながら音声が録音される様子が示される。前述したように、音声録音再生プログラム202(話者識別部321)は、音声の録音時、簡易的な手法である第1手法により話者を識別する処理を実行する。話者が識別されるまでの期間(b2)は、音声の入力レベルが示される。話者が識別されると、音声の入力レベルに代わって、各々の発話区間を示す発話区間バーb3が、話者を識別可能に表示される。   In FIG. 6, the line indicated by reference numeral b1 indicates the current time point. A state in which a voice is recorded while a speaker is identified is shown based on this line. As described above, the voice recording / reproducing program 202 (speaker identification unit 321) performs a process of identifying a speaker by the first method which is a simple method when recording a voice. During the period (b2) until the speaker is identified, the input level of the voice is indicated. When the speaker is identified, an utterance section bar b3 indicating each utterance section is displayed so that the speaker can be identified, instead of the input level of the voice.

また、録音画面210−2には、識別された話者を示す、例えば識別された順にアルファベットが割り振られる話者マークb4が話者毎に表示される。話者マークb4は、最大10人(A〜J)まで表示できる。録音画面210−2には、発話マークb5も表示される。録音画面210−2における発話マークb5は、音声の入力有無を示し、音声が入力されている際に表示される。また、録音画面210−2には、録音を停止するための停止ボタンb6が表示される。この停止ボタンb6にタッチまたはタップすることで、ユーザは、録音を一時停止または停止することができる。録音を停止すると、図5に示したホーム画面210−1に復帰する。   The recording screen 210-2 displays, for each speaker, a speaker mark b4 indicating the identified speaker, for example, alphabets assigned in the order of identification. The speaker mark b4 can display up to 10 persons (A to J). The utterance mark b5 is also displayed on the recording screen 210-2. The utterance mark b5 on the recording screen 210-2 indicates the presence / absence of voice input, and is displayed when voice is being input. Further, a stop button b6 for stopping recording is displayed on the recording screen 210-2. By touching or tapping the stop button b6, the user can temporarily stop or stop recording. When the recording is stopped, the screen returns to the home screen 210-1 shown in FIG.

ホーム画面210−1のリストa2内に選択肢として提示される音声データ401をタッチまたはタップによって選択することにより、ユーザは、その音声データ401の再生を開始することができる。再生画面210−3(図4の(c))は、音声録音再生プログラム202が音声の再生中に表示する画面である。図7は、再生画面210−3(図4の(c))の拡大図である。   By selecting the audio data 401 presented as an option in the list a2 of the home screen 210-1 by touching or tapping, the user can start reproducing the audio data 401. The playback screen 210-3 ((c) in FIG. 4) is a screen displayed by the voice recording / playback program 202 during voice playback. FIG. 7 is an enlarged view of the reproduction screen 210-3 ((c) of FIG. 4).

図7に示すように、再生画面210−3にも、各々の発話区間を示す発話区間バーc1が、話者を識別可能に表示される。符号c2で示されるラインは、再生時点を示す。図7では、このラインが話者Fの発話区間を示す発話区間バーc1上に位置しているので、話者Fの音声が出力されていることになる。また、再生画面210−3にも、話者マークc3と発話マークc4が表示される。再生画面210−1における発話マークc4は、音声が出力されている際、その話者を示す話者マークc3の下に位置することで、発言者を示す(図7では、話者Fを示す話者マークc3の下に位置している)。   As shown in FIG. 7, the utterance section bar c1 indicating each utterance section is also displayed on the reproduction screen 210-3 so that the speaker can be identified. The line indicated by the symbol c2 indicates the reproduction time point. In FIG. 7, since this line is located on the utterance section bar c1 indicating the utterance section of the speaker F, the voice of the speaker F is output. Further, a speaker mark c3 and an utterance mark c4 are also displayed on the reproduction screen 210-3. The utterance mark c4 on the reproduction screen 210-1 indicates the speaker by being positioned below the speaker mark c3 indicating the speaker when the sound is being output (in FIG. 7, the speaker F is indicated. Located below the speaker mark c3).

また、再生画面210−3には、再生されている音声データ401の総録音区間を示すタイムバーc5と、この音声データ401の総録音区間中の発話区間バーc1の表示範囲を示す表示範囲バーc6とが表示される。   Also, on the reproduction screen 210-3, a time bar c5 indicating the total recording section of the reproduced audio data 401 and a display range bar indicating the display range of the utterance section bar c1 in the total recording section of the audio data 401 are displayed. c6 is displayed.

このように、音声録音再生プログラム202は、音声を可視化して、例えば会議の議事録の作成等を支援することができる。   As described above, the audio recording / reproducing program 202 can visualize the audio to support, for example, creation of the minutes of a meeting.

続いて、音声録音再生プログラム202が提供する、話者の識別の結果を簡単な操作で修正することのできるユーザインタフェースについて説明する。   Next, a description will be given of a user interface provided by the voice recording / reproducing program 202 and capable of correcting the result of speaker identification by a simple operation.

いま、音声データ401が再生されており、図7に示した再生画面210−3がタッチスクリーンディスプレイ20に表示されているものと想定する。また、話者Fと識別されている発話区間の音声は、正しくは話者Dと識別されるべきであるところ、誤って話者Fと識別されているものと想定する。つまり、話者Dの発話区間が、話者Dの発話区間と話者Fの発話区間とに過分割された状態にある場合を想定する。そして、ユーザは、再生中の音声を聞いて、この誤りに気づき、過分割された発話区間を統合しようと考えているものと想定する。   Now, it is assumed that the audio data 401 is being reproduced, and the reproduction screen 210-3 shown in FIG. Further, it is assumed that the voice in the utterance section identified as the speaker F should be correctly identified as the speaker D, but incorrectly identified as the speaker F. That is, it is assumed that the utterance section of the speaker D is excessively divided into the utterance section of the speaker D and the utterance section of the speaker F. Then, it is assumed that the user hears the voice being reproduced, notices this error, and intends to integrate the over-divided speech sections.

このような場合、ユーザは、まず、図8に示すように、話者Fを示す話者マークc3を長押しする。ここで、長押しとは、タッチの状態を一定時間以上継続させる操作入力である。話者マークc3が長押しされると、音声録音再生プログラム202(制御部320)は、再生モードから編集モードへと移行する。編集モードへの移行は、例えば、再生を一時停止の状態とすることにより、ユーザに通知する。この時、再生画面210−3の更新も停止される。なお、図8中、符号d1で示される発話区間は、音声再生中の発話区間であって、話者Dを話者Fと誤って識別されている発話区間であり、符号d2で示される発話区間は、音声再生中の発話区間ではないが、同じく、話者Dを話者Fと誤って識別されている発話区間である。   In such a case, the user first long-presses the speaker mark c3 indicating the speaker F, as shown in FIG. Here, the long press is an operation input for keeping the touch state for a predetermined time or more. When the speaker mark c3 is pressed for a long time, the voice recording / playback program 202 (control unit 320) shifts from the playback mode to the editing mode. The transition to the edit mode is notified to the user, for example, by setting the reproduction to a pause state. At this time, the update of the playback screen 210-3 is also stopped. In FIG. 8, an utterance section indicated by reference sign d1 is an utterance section during voice reproduction, in which speaker D is erroneously identified as speaker F, and an utterance section indicated by reference sign d2. The section is not an utterance section during voice reproduction, but is also an utterance section in which speaker D is incorrectly identified as speaker F.

編集モードへ移行したら、ユーザは、続いて、図9に示すように、(長押しした)話者Fを示す話者マークc3を移動させて話者Dを示す話者マークc3に重ねるべく、タッチスクリーンディスプレイ20上をなぞるような操作入力を行う。この操作を受けて、音声録音再生プログラム202(話者統合部)322は、話者Fの発話区間と話者Dの発話区間とを話者Dの発話区間に統合する。図10に、話者Fの発話区間と話者Dの発話区間とが話者Dの発話区間に統合された後の再生画面210−3を示す。図10に示すように、図8および図9における話者Fの発話区間d1は、先行かつ隣接する話者Dの発話区間と1つに結合されて、話者Dの発話区間e1として示されている。即ち、音声録音再生プログラム202(話者統合部)322は、発話区間単位で話者を修正するだけでなく、2以上の発話区間を1つの発話区間に統合することが可能である。また、図8および図9における(音声再生中の発話区間ではない)話者Fの発話区間d2も、話者Dの発話区間e2として示されている。つまり、1回の操作で、ユーザは、音声データ401中の話者Fとして識別される発話区間を話者Dの発話区間に一括して修正することができる。なお、図10に示すように、この時、話者マークc3の表示も更新される。   After shifting to the edit mode, the user subsequently moves the speaker mark c3 indicating the speaker F (pressed and held) to overlap the speaker mark c3 indicating the speaker D as shown in FIG. An operation input such as tracing on the touch screen display 20 is performed. In response to this operation, the voice recording / reproducing program 202 (speaker integration unit) 322 integrates the speech section of the speaker F and the speech section of the speaker D into the speech section of the speaker D. FIG. 10 shows a reproduction screen 210-3 after the speech section of the speaker F and the speech section of the speaker D have been integrated into the speech section of the speaker D. As shown in FIG. 10, the utterance section d1 of the speaker F in FIGS. 8 and 9 is combined with one of the preceding and adjacent utterance sections of the speaker D to be shown as the utterance section e1 of the speaker D. ing. That is, the voice recording / reproducing program 202 (speaker integration unit) 322 can not only correct a speaker in units of utterance sections, but also integrate two or more utterance sections into one utterance section. The utterance section d2 of the speaker F (not the utterance section during voice reproduction) in FIGS. 8 and 9 is also shown as the utterance section e2 of the speaker D. That is, the user can correct the utterance section identified as the speaker F in the voice data 401 to the utterance section of the speaker D collectively by one operation. At this time, as shown in FIG. 10, the display of the speaker mark c3 is also updated.

発話区間の統合を完了すると、音声録音再生プログラム202(制御部320)は、編集モードから再生モードへ復帰し、音声の再生を再開する。なお、話者マークの表示領域および発話区間の表示領域以外の領域で、タッチスクリーンディスプレイ20上でのタッチが行われた場合も、音声録音再生プログラム202(制御部320)は、編集モードから再生モードへ復帰する。   When the integration of the utterance sections is completed, the audio recording / reproducing program 202 (the control unit 320) returns from the editing mode to the reproducing mode, and resumes the audio reproduction. Note that even when a touch is performed on the touch screen display 20 in an area other than the speaker mark display area and the utterance section display area, the voice recording / reproducing program 202 (control unit 320) reproduces from the edit mode. Return to mode.

次に、複数の人物の音声が同一人物の音声と誤って識別されている場合であって、その一人の発話区間を複数の人物の発話区間に分割する場合について説明する。   Next, a case where the voices of a plurality of persons are erroneously identified as the voices of the same person, and in which one utterance section is divided into utterance sections of a plurality of persons, will be described.

このような状況が発生するケースとして、例えば、図11に示すように、音声の特徴が似ている話者Fの音声と話者Gの音声とがほぼ同じ方向から入力されるケースが考えられる。換言すれば、音声の特徴に若干の違いはみられるものの、ほぼ同じ方向から入力されることから、同一の話者として纏められてしまっているようなケースが考えられる。   As a case where such a situation occurs, for example, as shown in FIG. 11, a case is considered where the voice of the speaker F and the voice of the speaker G having similar voice characteristics are input from almost the same direction. . In other words, although there are slight differences in the characteristics of the voices, since the voices are input from almost the same direction, there may be a case where the voices are combined as the same speaker.

ここでも、音声データ401が再生されており、図7に示した再生画面210−3がタッチスクリーンディスプレイ20に表示されているものと想定する。また、話者Fと識別されている音声再生中の発話区間の音声は、正しくは別の話者(話者Gとする)と識別されるべきであるところ、誤って話者Fと識別されているものと想定する。つまり、話者Fの発話区間と話者Gの発話区間とが、話者Fの発話区間として纏められた状態にある場合を想定する。そして、ユーザは、再生中の音声を聞いて、この誤りに気づき、誤って纏められた発話区間を分割しようと考えているものと想定する。   Here, it is also assumed that the audio data 401 is being reproduced, and the reproduction screen 210-3 shown in FIG. Also, the voice in the speech section during voice reproduction identified as speaker F should be correctly identified as another speaker (referred to as speaker G), but is incorrectly identified as speaker F. It is assumed that That is, it is assumed that the utterance section of the speaker F and the utterance section of the speaker G are combined as the utterance section of the speaker F. Then, it is assumed that the user hears the voice being reproduced, notices this error, and intends to divide the utterance section that is erroneously put together.

このような場合、ユーザは、まず、前述した統合の場合と同様、いずれかの話者マークを長押しして、再生モードから編集モードへの切り換えを実行する。編集モードへ移行したら、ユーザは、続いて、図12に示すように、話者Fから話者Gへ分割したい発話区間を示す発話区間バーf1へのタッチを行う。なお、図12中、符号f2で示される発話区間は、(話者Gではなく)話者Fが発言した発話区間であるものとする。   In such a case, first, as in the case of the integration described above, the user long-presses any speaker mark to execute switching from the reproduction mode to the editing mode. After shifting to the edit mode, the user subsequently touches the utterance section bar f1 indicating the utterance section to be divided from the speaker F to the speaker G, as shown in FIG. In FIG. 12, the utterance section indicated by reference numeral f2 is assumed to be the utterance section in which the speaker F (not the speaker G) has uttered.

この操作を受けて、音声録音再生プログラム202(話者分割部)323は、話者Fとして識別されている発話区間のうち、タッチされた発話区間バーf1で示される発話区間の音声と特徴が一致する発話区間を話者Gの発話区間として分割する。図13に、話者Fの発話区間が話者Fの発話区間と話者Gの発話区間とに分割された後の再生画面210−3を示す。図13に示すように、図12における話者Fの発話区間f1は、話者Gの発話区間g1として示され、また、図12における話者Fの発話区間f2は、そのまま、話者Fの発話区間f2として示されている。つまり、1回の操作で、ユーザは、音声データ401中の話者Fとして識別される発話区間のうち、話者Gとして識別されるべき発話区間のみを話者Gの発話区間に一括して修正することができる。また、この時、話者マークc3の表示も更新される。   In response to this operation, the voice recording / reproducing program 202 (speaker division unit) 323 outputs the voice and features of the utterance section indicated by the touched utterance section bar f1 among the utterance sections identified as the speaker F. The matching utterance section is divided as the utterance section of the speaker G. FIG. 13 shows a reproduction screen 210-3 after the speech section of the speaker F is divided into the speech section of the speaker F and the speech section of the speaker G. As shown in FIG. 13, the utterance section f1 of the speaker F in FIG. 12 is shown as the utterance section g1 of the speaker G, and the utterance section f2 of the speaker F in FIG. This is shown as an utterance section f2. That is, in one operation, the user collectively includes only the utterance section to be identified as the speaker G among the utterance sections identified as the speaker F in the voice data 401 as the utterance section of the speaker G. Can be modified. At this time, the display of the speaker mark c3 is also updated.

なお、音声録音再生プログラム202(話者分割部)323は、発話区間単位で話者を修正するだけでなく、発話区間を2以上の発話区間に分割することも可能である。具体的には、例えば、話者Fが発言した直後に話者Gが発言した場合であって、これらの発言が話者Fの発言として1つの発話区間に纏められているような場合、音声録音再生プログラム202(話者分割部)323は、当該1つの発話区間を(話者Fおよび話者Gの)2つの発話区間に分割することができる。   The voice recording / reproducing program 202 (speaker division unit) 323 can not only correct a speaker in units of utterance sections, but also divide the utterance section into two or more utterance sections. Specifically, for example, when the speaker G speaks immediately after the speaker F speaks, and when these statements are combined into one speech section as the speaker F's speech, The recording / reproducing program 202 (speaker dividing unit) 323 can divide the one utterance section into two utterance sections (of the speaker F and the speaker G).

図14は、タブレット1の話者統合または話者分割に関する動作手順を示すフローチャートである。   FIG. 14 is a flowchart illustrating an operation procedure relating to speaker integration or speaker division of the tablet 1.

音声の再生中、話者マークを長押しする操作が行われると(ブロックA1のYES)、タブレット1は、再生モードから編集モードに移行する(ブロックA2)。編集モードへ移行した後、長押しされた話者マークを他の話者マークに被せる操作が行われると(ブロックA3のYES)、タブレット1は、長押しされた話者マークで示される話者の音声データを、被せられた話者マークで示される話者の音声データと統合する統合処理を実行する(ブロックA4)。統合処理の実行後、タブレット1は、編集モードから再生モードに移行する(ブロックA5)。   If the operation of holding down the speaker mark is performed during the reproduction of the voice (YES in block A1), the tablet 1 shifts from the reproduction mode to the edit mode (block A2). After shifting to the edit mode, when an operation of putting the long-pressed speaker mark on another speaker mark is performed (YES in block A3), the tablet 1 outputs the speaker indicated by the long-pressed speaker mark. Is integrated with the voice data of the speaker indicated by the covered speaker mark (block A4). After the execution of the integration process, the tablet 1 shifts from the edit mode to the playback mode (block A5).

また、編集モードへ移行した後、発話区間バーに触れる操作が行われると(ブロックA3のNO,A6のYES)、タブレット1は、触れられた発話区間バーと同一話者の音声データのうち、触れられた発話区間バーの音声データと同一の特徴をもつ音声データを別の話者に分割する分割処理を実行する(ブロックA7)。分割処理の実行後、タブレット1は、編集モードから再生モードに移行する(ブロックA5)。   When the operation to touch the utterance section bar is performed after shifting to the edit mode (NO in block A3, YES in A6), the tablet 1 outputs the voice data of the same speaker as the touched utterance section bar. A division process is performed to divide the voice data having the same characteristics as the voice data of the touched speech section bar into another speaker (block A7). After the execution of the division process, the tablet 1 shifts from the edit mode to the playback mode (block A5).

また、編集モードへ移行した後、話者マーク、発話区間バー以外に触れる操作が行われた場合も(ブロックA6のNO,A8のYES)、タブレット1は、編集モードから再生モードに移行する(ブロックA5)。   In addition, if the operation other than the speaker mark and the utterance section bar is performed after shifting to the edit mode (NO in block A6, YES in A8), the tablet 1 shifts from the edit mode to the reproduction mode ( Block A5).

このように、タブレット1は、同一人物の音声が複数の人物の音声と識別されたり、逆に、複数の人物の音声が同一人物の音声と識別されたり等、話者の識別に誤りが生じている場合に、その話者の識別の結果を簡単な操作で修正することを可能とする。   As described above, the tablet 1 generates an error in speaker identification, such as the voice of the same person being distinguished from the voice of a plurality of persons, and the voice of a plurality of persons being recognized as the voice of the same person. In this case, the result of the speaker identification can be corrected by a simple operation.

本実施形態に記載された様々な機能の各々は、処理回路によって実現されてもよい。処理回路の例には、中央処理装置(CPU)のような、プログラムされたプロセッサが含まれる。このプロセッサは、メモリに格納されたプログラムを実行することによって、記載された機能それぞれを実行する。このプロセッサは、電気回路を含むマイクロプロセッサであってもよい。処理回路の例は、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、マイクロコントローラ、コントローラ、他の電気回路部品も含む。   Each of the various functions described in the present embodiment may be realized by a processing circuit. Examples of processing circuits include a programmed processor, such as a central processing unit (CPU). The processor performs each of the described functions by executing programs stored in the memory. This processor may be a microprocessor including an electric circuit. Examples of processing circuits also include digital signal processors (DSPs), application specific integrated circuits (ASICs), microcontrollers, controllers, and other electrical circuit components.

本実施形態の各種処理はコンピュータプログラムによって実現することができるので、このコンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのコンピュータプログラムを通常のコンピュータにインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。   Since the various processes of the present embodiment can be realized by a computer program, the computer program is simply installed and executed on a normal computer through a computer-readable storage medium storing the computer program. A similar effect can be easily realized.

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。   Although several embodiments of the present invention have been described, these embodiments are provided by way of example and are not intended to limit the scope of the invention. These new embodiments can be implemented in other various forms, and various omissions, replacements, and changes can be made without departing from the spirit of the invention. These embodiments and their modifications are included in the scope and gist of the invention, and are also included in the invention described in the claims and their equivalents.

1…タブレット、10…本体ユニット(PC本体)、11…カメラユニット、12R,12L…マイクロフォン、13R,13L…スピーカ、20…タッチスクリーンディスプレイ、21…LCD、22…タッチパネル、101…CPU、102…システムコントローラ、103…主メモリ、104…グラフィクスコントローラ、105…サウンドコントローラ、106…BIOS−ROM、107…不揮発性メモリ、108…EEPROM、109…LANコントローラ、110…無線LANコントローラ、111…バイブレータ、112…加速度センサ、113…オーディオキャプチャ、114…エンベデッドコントローラ(EC)、121…音声録音再生プロセッサ、201…オペレーティングシステム(OS)、201A…タッチパネルドライバ、202…音声録音再生プログラム、310…タッチ情報受信部、320…制御部、321…話者識別部、322…話者統合部、323…話者分割部、330…音声再生処理部、340…表示処理部、401…音声データ、402…インデックスデータ   DESCRIPTION OF SYMBOLS 1 ... Tablet, 10 ... Main unit (PC main body), 11 ... Camera unit, 12R, 12L ... Microphone, 13R, 13L ... Speaker, 20 ... Touch screen display, 21 ... LCD, 22 ... Touch panel, 101 ... CPU, 102 ... System controller, 103 main memory, 104 graphics controller, 105 sound controller, 106 BIOS-ROM, 107 nonvolatile memory, 108 EEPROM, 109 LAN controller, 110 wireless LAN controller, 111 vibrator, 112 ... Acceleration sensor, 113 ... Audio capture, 114 ... Embedded controller (EC), 121 ... Sound recording / playback processor, 201 ... Operating system (OS), 201A ... Touch panel Driver 202, voice recording / playback program 310, touch information receiving unit 320, control unit 321 speaker identification unit 322 speaker integration unit 323 speaker division unit 330 voice reproduction processing unit 340: display processing unit, 401: audio data, 402: index data

Claims (4)

タッチパネルを有するディスプレイと、
音声データを記憶する不揮発性メモリと、
音声録音再生プログラムを実行して、前記不揮発性メモリに記憶した前記音声データを再生するための再生画面を前記ディスプレイに表示して再生するプロセッサと、を具備し、
前記再生画面は、
再生される前記音声データのタイムバーを表示する第1の領域と、
前記音声データの前記タイムバーの一部の区間であって、発話した話者をそれぞれ識別可能に表示される発話区間バーを表示する第2の領域と、
前記第2の領域の再生中の前記発話区間バーに重ねて表示される再生時点を示すラインと、
前記音声データの録音の際に識別した複数の話者に対応する話者マークであって、前記発話区間バーの編集操作に用いる前記話者マークが表示される特定エリアと、を有し、
前記プロセッサは、
前記再生時点を示すラインに位置する前記発話区間バーを再生中に、当該発話区間バーの話者に対応する前記話者マークの近くに発話マークを表示する
子機器。
A display having a touch panel,
A non-volatile memory for storing audio data,
A processor that executes a voice recording / playback program, displays a playback screen for playing back the voice data stored in the nonvolatile memory on the display, and plays back the playback screen.
The playback screen is
A first area for displaying a time bar of the audio data to be reproduced;
A second area that displays a speech section bar that is a part of the time bar of the voice data and that is displayed so that each of the speakers can be identified;
A line indicating a reproduction time point displayed superimposed on the utterance section bar being reproduced in the second area;
A speaker mark corresponding to a plurality of speakers identified during the recording of the voice data, and a specific area in which the speaker mark used for editing the utterance section bar is displayed,
The processor comprises:
While the utterance section bar located on the line indicating the reproduction time point is being reproduced, an utterance mark is displayed near the speaker mark corresponding to the speaker of the utterance section bar.
Electronic equipment.
前記プロセッサは、
前記再生画面の前記特定エリアに表示される記話者マークの1つが長押しされた場合、再生モードから編集モードに移行し、
前記特定エリアの第1話者マークの上に第2話者マークを重ねた場合、前記第2話者マークに対応する前記発話区間バーの発話区間を前記第1話者マークの話者の発話区間に修正する請求項に記載の電子機器。
The processor comprises:
If one of the previous Kihanashi's mark displayed in the specific area of the reproduction screen is pressed long, the transition from the playback mode to the edit mode,
When the second speaker mark is overlaid on the first speaker mark of the specific area, the utterance section of the utterance section bar corresponding to the second speaker mark is uttered by the speaker of the first speaker mark. The electronic device according to claim 1 , wherein the electronic device is corrected to a section.
前記プロセッサは、The processor comprises:
前記再生画面の前記特定エリアに表示される前記話者マークの1つが長押しされた場合、再生モードから編集モードに移行し、When one of the speaker marks displayed in the specific area of the playback screen is long-pressed, the mode shifts from the playback mode to the editing mode,
前記発話区間バーに触る操作が行われた場合、前記触る操作が行われた発話区間バーの発話区間を別な話者の発話区間として修正する請求項1に記載の電子機器。The electronic device according to claim 1, wherein when an operation of touching the utterance section bar is performed, an utterance section of the utterance section bar on which the touch operation is performed is corrected as an utterance section of another speaker.
前記プロセッサは、前記編集モードに移行した場合、前記再生一時停止すると共に、前記再生画面の更新停止する請求項2または3に記載の電子機器。 Wherein the processor, when a transition is made to the editing mode, the reproduction as well as pause, electronic device according to claim 2 or 3 stops updating of the playback screen.
JP2018152416A 2018-08-13 2018-08-13 Electronics Active JP6672399B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018152416A JP6672399B2 (en) 2018-08-13 2018-08-13 Electronics

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018152416A JP6672399B2 (en) 2018-08-13 2018-08-13 Electronics

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014192588A Division JP6392051B2 (en) 2014-09-22 2014-09-22 Electronic device, method and program

Publications (2)

Publication Number Publication Date
JP2018205765A JP2018205765A (en) 2018-12-27
JP6672399B2 true JP6672399B2 (en) 2020-03-25

Family

ID=64957152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018152416A Active JP6672399B2 (en) 2018-08-13 2018-08-13 Electronics

Country Status (1)

Country Link
JP (1) JP6672399B2 (en)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3879786B2 (en) * 1997-08-05 2007-02-14 富士ゼロックス株式会社 CONFERENCE INFORMATION RECORDING / REPRODUCING DEVICE AND CONFERENCE INFORMATION RECORDING / REPRODUCING METHOD
JP3760859B2 (en) * 2001-12-19 2006-03-29 ヤマハ株式会社 Performance data reproducing apparatus and program
US7598975B2 (en) * 2002-06-21 2009-10-06 Microsoft Corporation Automatic face extraction for use in recorded meetings timelines
JP2007058767A (en) * 2005-08-26 2007-03-08 Canon Inc Utterance record preparation system
JP4909854B2 (en) * 2007-09-27 2012-04-04 株式会社東芝 Electronic device and display processing method
JP5685702B2 (en) * 2009-11-10 2015-03-18 株式会社アドバンスト・メディア Speech recognition result management apparatus and speech recognition result display method
JP5743976B2 (en) * 2012-08-10 2015-07-01 株式会社東芝 Information processing apparatus, program, and information processing method
JP2014127040A (en) * 2012-12-26 2014-07-07 Toshiba Corp Information processing device, information processing method, and program

Also Published As

Publication number Publication date
JP2018205765A (en) 2018-12-27

Similar Documents

Publication Publication Date Title
US10592198B2 (en) Audio recording/playback device
EP2680110B1 (en) Method and apparatus for processing multiple inputs
US9595238B2 (en) Electronic device, cover for electronic device, and method of performing a function in an electronic device
US8619046B2 (en) Information processing apparatus, notification method, and program
KR101811219B1 (en) Method and apparatus for controlling a portable terminal using a finger tracking
US20110154249A1 (en) Mobile device and related control method for external output depending on user interaction based on image sensing module
EP3279786A1 (en) Terminal control method and device, and terminal
KR20080104099A (en) Input apparatus and input method thereof
US20160163331A1 (en) Electronic device and method for visualizing audio data
JP6509516B2 (en) Electronic device, method and program
US20150160731A1 (en) Method of recognizing gesture through electronic device, electronic device, and computer readable recording medium
US10770077B2 (en) Electronic device and method
US20190129517A1 (en) Remote control by way of sequences of keyboard codes
KR20110049275A (en) Apparatus and method for having object display dial of in portable terminal
JP6392051B2 (en) Electronic device, method and program
WO2016045468A1 (en) Voice input control method and apparatus, and terminal
JP6672399B2 (en) Electronics
US20120151409A1 (en) Electronic Apparatus and Display Control Method
JP6472824B2 (en) Signal processing apparatus, signal processing method, and voice correspondence presentation apparatus
JP6472823B2 (en) Signal processing apparatus, signal processing method, and attribute assignment apparatus
KR101474873B1 (en) Control device based on non-motion signal and motion signal, and device control method thereof
US20170092334A1 (en) Electronic device and method for visualizing audio data
US11074024B2 (en) Mobile device for interacting with docking device and method for controlling same
KR20110108688A (en) Text editing method based on touch and terminal thereof
KR101054690B1 (en) Portable terminal and method for controlling portable terminal using image data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180813

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20181206

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20181207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200304

R150 Certificate of patent or registration of utility model

Ref document number: 6672399

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150